用AI数据训练AI效果怎样?国际最新研究称可能最终导致崩溃
中新网北京7月27日电 (记者 孙自法)国际学术期刊《自然》最新发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。
该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。
生成式AI工具越来越受欢迎,如大语言模型等,这类工具主要用人类生成的输入进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。
论文第一作者兼共同通讯作者、英国牛津大学Ilia Shumailov和同事及合作者一起,用数学模型演示了AI模型可能会如何出现模型崩溃。他们证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我训练。
随后,论文作者还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。
论文作者指出,为了让人工智能成功使用其自身输出进行训练,本次研究认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。(完)
相关推荐
- 最近发表
-
- 随机阅读
-
- 各地力促秋粮稳产丰产
- “上海:摄影之都” :镜头中看上海滩百年风云
- 欧盟中国商会设立金融工作组 研讨人民币国际化等议题
- 第七届进博会明天开幕 “尖货”“新品”先睹为快
- 中国工艺美术馆里看皮影赏彩灯 市民热衷博物馆里过大年
- 叙利亚总理同意将权力移交反对派
- 中外专家指所谓“中国产能过剩论”阻碍全球经济复苏
- 2024贺岁档电影票房破30亿
- 行驶证“买分卖分”团伙流窜长三角作案 37名嫌疑人被上海警方抓获
- 太行山中小城的“新农人”:奋斗路上结出丰硕“致富果”
- 长三角铁路持续做好本轮低温雨雪冰冻天气防范应对工作 全力服务旅客返乡
- 开年炸裂 《狂飙》魅力何在?
- (第六届进博会)中外专家和业界人士共论以光伏等可持续模式推动荒漠化地区绿色发展
- 青年人为何越来越热衷上夜校
- 名为“冬”实是“秋” 冬季买冬桃小心遇冷库桃
- 未“雪”绸缪 京冀雪场忙抢跑
- 美国推特公司名称及标识变更为“X”
- 第四届海峡两岸(陕西)经贸科技合作大会将启
- 海关助企抢抓“新三样”出口订单
- 《少林寺宗法档案》入选中国档案文献遗产名录 专家称具有世界文化价值
- 热门推荐
-
- 湖南省气象台发布暴雨蓝色预警
- 为资源合理利用提供法律保障
- 涨至1小时4.5元?部分城市共享单车已贵过公交地铁
- “安置点的生活越来越方便了”
- 老年人能力评估师:科学评估 助力个性化养老
- 日常控糖中医有招 生活中如何预防糖尿病?
- 海外网评:中欧经贸开放合作才是正道
- 前两个月北京高技术制造业投资同比增长33.9%
- 南通地铁1号线开通运营 江苏地铁城市数量增至6城
- 首届亚太传统药物质量大会开幕 推动传统医药高质量发展
- 春运首日武铁预计发送旅客50多万人次
- 微信联合八大博物馆发起表情包创作活动,带动博物馆“花式破圈”
- 锦绣中国年|新疆兵团各地社火表演闹新春
- “23·7”特大洪水防汛抗洪摄影展天津开展 120张作品致敬战洪英雄
- 重庆中国三峡博物馆馆藏近现代书画赴湖北展出
- 第六届中央音乐学院10·15艺术节将启幕
- 泰国前总理他信被起诉并获准保释
- 6月14日人民币对美元中间价报7.1151元 下调29个基点
- 云南2024年上半年GDP同比增3.5% 鲜切花咖啡出口全国第一
- 加拿大野火致数万人撤离家园 中方全力保护中国公民安全