大模型“百花齐放” 业界合力“充实”中文语料数据
中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。
上海人工智能实验室主任助理王延峰说,ChatGPT令人惊艳,但它对中文的理解还不尽人意。
大模型时代带来以数据为中心的人工智能领域新发展,但“投喂”哪些数据备受关注。王延峰在接受记者采访时表示,语料数据不仅要量大,而且要高质量,“就像培养一个孩子一样,投入高质量的教育,才有高质量的‘输出’。”
对于中文语料数据的不足,他表示,中文语料数据对于大模型能力的提升至关重要,业界需要高质量的中文语料数据集。
上海蜜度信息技术有限公司(简称:蜜度)首席技术官刘益东在受访时指出,目前中国国内的大模型训练里,非常缺少高质量的中文语料数据集,“现在很多市面上的大模型主要是基于外文资料,再加上少量的中文资料,这样训练出来的大模型,对中文的理解能力以及对中文内容的生成能力是有欠缺的。”
蜜度是此次加入中国大模型语料数据联盟的9位“新成员”之一。现场,蜜度发布了包含7000多万条数据的开源中文语料数据集。
刘益东说,在大模型“百花齐放”的发展背景下,需要有一些机构或团体去做“公共建设”,去推动这个行业的发展,企业乐于加入其中。
上海市经济和信息化委员会人工智能发展处处长王志佳表示,“百模大战”不是一场零和游戏,携手并进才能把生成式人工智能真正与生产力相结合,把大模型这个“冷灶”真正“烧热”起来。
他指出,建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。(完)
- 最近发表
-
- 随机阅读
-
- 青藏铁路全线通车18周年 运送旅客超3亿人次
- 农业银行成功发行400亿元永续债
- 国家统计局:2023年12月份工业生产者出厂价格同比下降2.7% 环比下降0.3%
- 局地出现旱情 陕西省开展秋粮抗旱保苗工作
- 为跨境物流电商平台纠纷定分止争 上海海事法院发布案件审理指南
- 北京交通部门多措并举做好防汛准备
- 有人两年间消费超3万元!低价珠宝如何让中老年人沉迷?
- “摩羯” 已过 琼州海峡复运准备工作加快开展
- 2024“BMW中国文化之旅大运河保护公益项目”正式启航
- 青海举办禁毒公益健步走 千人同心同禁同行
- 电话手表功能变异?商业竞争不能罔顾儿童健康
- 解读技术价值,传递品牌温度,阳光电源品牌故事片全球首映
- 中国42名骑友赴蒙古国赏美景尝美食
- 青海:消防救援、森林消防首次联合开展森林草原火灾扑救演练
- 浙江启动南部水域Ⅲ级防台应急响应 多地水上航线停航
- 广东首批外国人工作许可证和社会保障卡“证卡合一”实体卡在穗发放
- 四川多地按下野猪猎捕“暂停键” 野猪致害防控为何这么难?
- “试验田”里硕果丰 “数读”上海自贸区十周年
- 如何安全追踪软体海洋物种?研究称可用一种水凝胶胶水粘传感器
- 杰夫·昆斯雕塑作品首次亮相内地登陆广州
- 热门推荐
-
- “南北互跨游”须打好“特色牌”
- 日本本州东岸近海发生5.3级地震 震源深度10千米
- 春运首日福州举办全域海上联合巡航筑牢水上交通“安全网”
- 重庆市政协委员吴怡:利用AI大模型为民众提供法律服务
- 以色列称对拉法发动空袭致3名哈马斯成员死亡
- 重庆集中开工47个水利工程项目 总投资49.2亿元
- 恒生银行2023年上半年多赚79% 纯利达98.27亿港元
- “避暑”游、沉浸游、花式夜游 文旅消费市场释放新潜力
- 李白感叹:空有才华无法施展
- 已有超千家展商签约第七届进博会
- 泰国计划明年吸引3500万外国游客来泰旅游
- 2024世界制造业大会前瞻:与开放安徽双向奔赴
- 印媒:印度北方邦踩踏事件死亡人数升至107人
- 湖南祁阳强降雨致多地受灾 紧急转移并安置群众
- 马来西亚宣布降股票印花税等举措提振股市汇率
- 山西钢铁行业欲借数字化转型突破困境
- 【跨国企业在中国】必和必拓首席商务官潘文怡:我们希望成为中国高质量发展的伙伴
- 西藏举行天湖之旅推介,促西藏新业态旅游发展
- 山西构建高标准市场体系 加快提升经济质量
- 全国首票国际航行船舶高硫生物燃料油在广州南沙港完成加注