大模型“百花齐放” 业界合力“充实”中文语料数据
中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。
上海人工智能实验室主任助理王延峰说,ChatGPT令人惊艳,但它对中文的理解还不尽人意。
大模型时代带来以数据为中心的人工智能领域新发展,但“投喂”哪些数据备受关注。王延峰在接受记者采访时表示,语料数据不仅要量大,而且要高质量,“就像培养一个孩子一样,投入高质量的教育,才有高质量的‘输出’。”
对于中文语料数据的不足,他表示,中文语料数据对于大模型能力的提升至关重要,业界需要高质量的中文语料数据集。
上海蜜度信息技术有限公司(简称:蜜度)首席技术官刘益东在受访时指出,目前中国国内的大模型训练里,非常缺少高质量的中文语料数据集,“现在很多市面上的大模型主要是基于外文资料,再加上少量的中文资料,这样训练出来的大模型,对中文的理解能力以及对中文内容的生成能力是有欠缺的。”
蜜度是此次加入中国大模型语料数据联盟的9位“新成员”之一。现场,蜜度发布了包含7000多万条数据的开源中文语料数据集。
刘益东说,在大模型“百花齐放”的发展背景下,需要有一些机构或团体去做“公共建设”,去推动这个行业的发展,企业乐于加入其中。
上海市经济和信息化委员会人工智能发展处处长王志佳表示,“百模大战”不是一场零和游戏,携手并进才能把生成式人工智能真正与生产力相结合,把大模型这个“冷灶”真正“烧热”起来。
他指出,建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。(完)
- 最近发表
-
- 随机阅读
-
- “以租代购”背后有猫腻:“低价租”下单后却成“高价买”
- 贵州发生一起因家庭矛盾引发的故意伤害案件 致1死1伤
- 长图解读:从医学到科技,中国智汇筑梦“一带一路”
- 南开大学张伯苓校长:“你们讨厌得好!你们下次还要这么讨厌!”
- 沈阳市全力打造区域性文化创意中心
- 印尼连续46个月贸易顺差
- 五一假期北京全市公园接待游客906.74万人次
- 博物馆里的文化年
- 5月4日北京市属公园迎客67.6万人次 “红色游”持续升温
- 活力宁夏丨科技为“小红果”插上腾飞翅膀
- 用魔术说“法” 警营魔术师秦国平的“百变人生”
- 高温增加脑卒中风险 广州医院卒中绿色通道20分钟紧急救命
- 浙江上虞设“张杰教育事业发展基金” 延续港胞桑梓情
- 普京曾因“喝啤酒”在重要峰会迟到?克宫回应
- 美国防部:美军击落21枚胡塞武装发射的导弹和无人机
- 北京启动“百日千万”招聘行动 面向2023届高校毕业生等重点群体
- 兴业银行2023年半年报: 存贷款双破5万亿 营收利润稳步回升
- 反向驯化大数据杀熟?读懂幽默背后的期待
- 漳州海警接连查扣9艘涉渔“三无”大马力改装快艇
- 坚定不移促进民营经济发展壮大
- 热门推荐
-
- 江西安远:“最美消防员”守护红色土地的绿水青山
- 手机响起警笛声,韩国首尔误发避难信息 民众:荒唐
- 因地表移动加速 美国加州一市宣布进入紧急状态!
- 国家外汇管理局:5月中国外汇市场总计成交23.89万亿元人民币
- 中老铁路开通运营迎来两周年
- 北京书博会以书为媒 打造中外交流互鉴之桥
- 元旦假期全国预计发送旅客超1.2亿人次
- 上海自贸区临港新片区探索跨境数据流动分类管理
- 广西水利厅终止洪水防御四级应急响应
- 外媒:英国通胀持续 80%家庭可支配收入下降
- 中国证监会修订规则 增强回购制度包容度和便利性
- 预计下半年北京经济有望持续回升向好
- 天涯已进ICU 一群人想抢救
- 开掘家庭群像剧新范式 电视剧《烟火人家》研讨会举办
- 面向东盟投资“洼地”显现 企业家广西边境寻商机
- 企业活力增强、市场需求回升 多个先行指标呈现回升向好态势
- 社评:美国“无意战争”,为何总是制造战争
- 调查:美联储加息致信用卡利率创新高 更多美国家庭背负债务
- “高迪:瞬时即永恒”中国首展在武汉开幕
- 高校携手中国医学磁共振技术领军企业 推动顶尖技术发展和产业应用