用AI数据训练AI效果怎样?国际最新研究称可能最终导致崩溃
中新网北京7月27日电 (记者 孙自法)国际学术期刊《自然》最新发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。
该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。
生成式AI工具越来越受欢迎,如大语言模型等,这类工具主要用人类生成的输入进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。
论文第一作者兼共同通讯作者、英国牛津大学Ilia Shumailov和同事及合作者一起,用数学模型演示了AI模型可能会如何出现模型崩溃。他们证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我训练。
随后,论文作者还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。
论文作者指出,为了让人工智能成功使用其自身输出进行训练,本次研究认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。(完)
相关推荐
- 最近发表
-
- 随机阅读
-
- 2024年世界互联网大会乌镇峰会定于11月19日至22日举行
- “最佳跨境金融创新银行”,建行又获殊荣!
- 第110届全国糖酒会完美收官 首次开启“春糖节”模式
- (新春走基层)守护桥隧的云端“女医生”
- 外媒:伊朗外交部召见英、法、德大使
- 篮球“明星”化身阅读推广官 探索体教融合新路径
- 金庸诉江南案二审改判: 认定被告侵犯著作权
- 十五运会倒计时300天,来一场湾区宝物热身赛 |文化中国行
- 公安部:今年1至9月全国治安、刑事案件同比均下降
- 全球首座高温气冷堆核电站商业示范工程在山东正式商运投产
- 央行:深入开展拒收人民币现金整治工作 进一步提升现金使用便利性
- 央广财评|透视7月中国经济“成绩单”:新产品、新产业激活新动能
- 人工智能耗电凶猛,科技巨头寻求核聚变发电
- 广西探索构建主动健康服务体系 助力“健康广西”建设
- 山东各地重点项目紧锣密鼓开工 抢机遇冲刺“开门红”
- 哈萨克斯坦推出“数字游民”签证
- 老外“红楼梦游”金陵中秋夜:当团圆相逢中式美学
- 三部门调整海南自贸港交通工具及游艇“零关税”政策
- 海南发布旅游新产品和优惠措施迎“五一”
- 2023年度北京市科学技术奖公布 45岁以下获奖者占比超六成
- 热门推荐
-
- 湖南浏阳精准对接企业需求 营商环境更优
- 过量游离糖会增加心血管疾病风险
- 山西印发“名品出晋”网络品牌培育行动计划
- 中国国家发改委民营经济发展局:“我们是民企的娘家人”
- 中国医学专家最新研究发现:粪菌移植可治疗纤维肌痛
- 人工智能客服不能阻碍沟通
- 以色列总理称将继续推进在拉法的军事行动
- 廿四节气|千里江山图之芒种篇
- 海峡两岸青少年相聚浙江温岭 切磋拳艺“不打不相识”
- 河南新野一小区6名居民被狗咬伤 官方通报处置情况
- 当心肌梗死找上青壮年
- 史上最长“双十一” 今年有哪些不一样?
- 西班牙前政要:一个强大的西方国家是北溪事件的幕后真凶
- 韩美林忆魏明伦:何为“鬼才”?文艺创作,可贵者胆
- 建设银行扎实推进支持小微企业融资协调工作机制落地见效
- 师生共创AI多媒体原创音乐剧在首都师大附中亮相
- 华大东盟女学员闽南过国际妇女节:悟文化学泡茶赏潮剧
- 中部战区空军地导某部转移输送保定市涞水县百里峡景区60余名被困游客
- 中英专业人士探讨AI法律和投资
- 新式零工职业日渐旺盛 兑现个人价值就在眼前