大模型“百花齐放” 业界合力“充实”中文语料数据
中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。
上海人工智能实验室主任助理王延峰说,ChatGPT令人惊艳,但它对中文的理解还不尽人意。
大模型时代带来以数据为中心的人工智能领域新发展,但“投喂”哪些数据备受关注。王延峰在接受记者采访时表示,语料数据不仅要量大,而且要高质量,“就像培养一个孩子一样,投入高质量的教育,才有高质量的‘输出’。”
对于中文语料数据的不足,他表示,中文语料数据对于大模型能力的提升至关重要,业界需要高质量的中文语料数据集。
上海蜜度信息技术有限公司(简称:蜜度)首席技术官刘益东在受访时指出,目前中国国内的大模型训练里,非常缺少高质量的中文语料数据集,“现在很多市面上的大模型主要是基于外文资料,再加上少量的中文资料,这样训练出来的大模型,对中文的理解能力以及对中文内容的生成能力是有欠缺的。”
蜜度是此次加入中国大模型语料数据联盟的9位“新成员”之一。现场,蜜度发布了包含7000多万条数据的开源中文语料数据集。
刘益东说,在大模型“百花齐放”的发展背景下,需要有一些机构或团体去做“公共建设”,去推动这个行业的发展,企业乐于加入其中。
上海市经济和信息化委员会人工智能发展处处长王志佳表示,“百模大战”不是一场零和游戏,携手并进才能把生成式人工智能真正与生产力相结合,把大模型这个“冷灶”真正“烧热”起来。
他指出,建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。(完)
- 最近发表
-
- 随机阅读
-
- 动力足、底盘稳 中国经济乘势而上开启“加速跑”
- 中国政府朝鲜半岛事务特别代表刘晓明访问法国
- 外媒:纽约外科医生宣布完成“首例人类全眼移植手术”
- 大地震预警,火爆的日本旅游业忐忑降温?
- 欧洲学者:美国花15亿培训记者撰写有关中国的负面报道
- 黄河三角洲最大跨度A字型斜拉桥合龙
- 西部陆海新通道广西区内班列突破3000列
- 湖南桃江县资江“洪峰”过境的24小时
- 探访成都“菜市书屋”:闹市亦有书卷气 晨昏忧乐每相亲
- “机遇中国多彩世界”国际交流周在贵州遵义启动
- 成都所有县级公共图书馆开启延时服务
- 俄罗斯成功发射一颗军用卫星
- 90后挑大梁 用青春“焕新”传统文化记忆
- “三步走”谋划布局建设美丽吉林
- 西安西郊发现唐代宫人墓地 墓葬排列有序经严谨规划
- 第六届初心榜启动申报 青年影视人盛会拉开帷幕
- 云南2年多打掉黑恶团伙119个 命案大幅下降
- 莫斯科国际电影周开幕
- 城建和征地拆迁成行政机关败诉“重灾区”
- 中国西南地区首条直飞吉尔吉斯斯坦国际客运航线开通
- 热门推荐
-
- 丽江铁警师徒的“第一次”和“最后一次”春运
- (身边的变化)“山海”协作提升基层医疗水平 海外华侨飞回山区县治疗
- 重走铁路历史遗址 致敬抗美援朝钢铁生命线
- “地球独生子”黔金丝猴家族再添新丁
- 孟买强降雨致严重内涝 影响逾200万人
- 暑运旺季中国民航旅客运输量创新高 支线航空热
- 浙江警方跨省捣毁贩卖假烟团伙 涉案金额300余万元
- 西门子将携创新技术和开放生态亮相第六届进博会
- 打造“幸福温江·美好之城” 温江“全域旅游”迸发新活力
- 海南60种药品降价 最高降幅96.1%
- 2023年中国旅游消费“新玩法”盘点:“悬崖咖啡”“夜宿鲸鲨馆”上榜TOP10
- 漫评:中欧班列“乘风起”以线织网驶向幸福路
- 大连客运段回应“男子把卧铺让妹妹被拒”:二人均未离开硬卧车厢
- 新疆兵团第三师图木舒克市获评“中国康养旅游城市”称号
- 传统文化认同感渐升 “国风”解锁消费新体验
- 中新真探:女性健身不用做太多力量训练?
- 上海浦东新区今年将安排投资促进活动超450场
- 中小企业数字化转型论坛在穗举行
- 《世界为何需要中国》作者:中国制度坚持为人民的利益服务
- 中国驻日本使馆发言人就日美领导人会晤涉华消极动向答记者问