如何识破大语言模型“幻觉”回答?国际最新研发出“以毒攻毒”检测方法
中新网北京6月20日电 (记者 孙自法)基于人工智能(AI)的大语言模型(LLM)回答问题并非总是准确可靠,有时甚至极其智能地以“幻觉”方式提供胡编乱造的答案让人真假难辨,对此如何予以有效检测广受关注。
国际著名学术期刊《自然》最新发表一篇人工智能研究论文称,研究人员开发出一种能检测大语言模型“幻觉”的方法,这种方法通过“以毒攻毒”方式,能测量生成回答的含义的不确定性,或能用于提升大语言模型输出的可靠性。
该论文介绍,大语言模型(如ChatGPT和Gemini)是能阅读和生成自然人类语言的人工智能系统。不过,这类系统很容易产生“幻觉”,生成不准确或没有意义的内容。检测大语言模型出现“幻觉”的程度很难,因为这些回答的呈现方式可能会让它们看起来很可信。
在本项研究中,论文第一作者兼通讯作者、英国牛津大学Sebastian Farquhar和同事合作,尝试量化一个大语言模型产生“幻觉”的程度,从而判断生成的内容有多少忠于提供的源内容。他们的方法能检测“幻觉”的一个子类别——“编造”,特指不准确和随意的内容,常出现在大语言模型缺乏某类知识的情况下。针对“编造”问题,他们研发的方法考虑了语言的微妙差别,以及回答如何能以不同的方式表达,从而拥有不同的含义。研究表明,该方法能在大语言模型生成的个人简介,以及关于琐事、常识和生命科学这类话题的回答中识别出“编造”内容。
《自然》同期发表同行专家“新闻与观点”文章指出,最新研究的检测任务由一个大语言模型完成,并通过另一个大语言模型进行评价,相当于“以毒攻毒”。虽然用一个大语言模型评估一种基于大语言模型的方法似乎是在循环论证,而且可能有偏差,但他们的方法有望帮助用户理解在哪些情况下使用大语言模型的回答需要注意,这也意味着可以提高大语言模型在更多应用场景中的置信度。(完)
相关推荐
- 最近发表
-
- 随机阅读
-
- 摸得着的幸福:河北定州让老旧小区“好看”更“好住”
- 业界嘉宾相聚山东青岛探讨中国与世界经济的复苏与增长
- 持续支持种业振兴 为守护“粮口袋”贡献金融力量
- 中国机械工业联合会:预计2023年全年工业增加值等指标增速约5%
- 前三季度新设民营企业、个体工商户数量双双两位数增长
- 8月26日人民币对美元中间价报7.1139元 上调219个基点
- 外媒:美英对也门胡塞武装发动新一轮打击 数人死伤
- B-21完成首飞,未来会部署在哪儿
- 复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠
- (乡村行·看振兴)黄河岸边旅游兴:生态游“狂飙” 乡村游升温
- 辽宁省人社厅“聚智 惠企 助振兴”专家企业行活动在阜新市启动
- 西藏区内外23对新人参加山南集体民族婚礼
- 50岁农民工夺得中国诗词大会亚军 点燃家乡人民诵读诗词热情
- 15个人的“绿洲”
- 政策红包如雨下 城市公交运营难题怎么破
- 浙江海事部门已保障电煤水上安全运输超1800万吨
- 四川甘孜州康定市发生3.0级地震,震源深度8千米
- 受台风“苏拉”影响 海口三港9月2日13时起停运
- 中国—东盟深化保险领域合作 创新跨境合作模式
- 新疆丝路文物亮相成都 展示丝绸之路起源与高光
- 热门推荐
-
- 山西:小学生化身“天命人” 为家乡古建代言
- 日生产60吨,这个“月饼村”为啥火了?
- 国家邮政局公布2023年快递服务满意度调查和时限妥投率测试结果
- 交通运输部:中国自动化码头建设在应用规模、技术水平和装卸效率总体位居国际前列
- 文明之美看东方|从古城到最早水利,走近五千年良渚
- 浙江文旅观察:大学生如何“改造”旅游业?
- 居民深感不安!民主党大会期间芝加哥枪案频发多人死伤
- 茅盾文学奖得主带民众文化走读 沉浸体会书中杭州
- 格鲁吉亚总理:暂停开启加入欧盟谈判
- 2024年度中国—拉美产业投资合作研讨会在京成功举办
- 浙江省造血干细胞捐献者:等了17年终于送出生命希望
- “中国影像节”展映活动在柏林举行
- 中央气象台:“卡努”减弱为台风级 预计6日上午移出东海
- 湖南举行医药卫生类毕业生供需见面会
- (第20届东博会)中国—东盟共商蓝色经济发展 “蓝碳”交易助力“零碳办会”
- 青海3年依法惩治448名涉电信网络诈骗犯罪分子
- 越跑步,膝盖越废……是真是假?|谣言终结站
- “西瓜办”沉寂了 无人摊位火了
- 三星堆遗址祭祀区再次成功跨坑拼对两件大型青铜器
- 春节出游警惕“低价游”陷阱