如何识破大语言模型“幻觉”回答?国际最新研发出“以毒攻毒”检测方法
中新网北京6月20日电 (记者 孙自法)基于人工智能(AI)的大语言模型(LLM)回答问题并非总是准确可靠,有时甚至极其智能地以“幻觉”方式提供胡编乱造的答案让人真假难辨,对此如何予以有效检测广受关注。
国际著名学术期刊《自然》最新发表一篇人工智能研究论文称,研究人员开发出一种能检测大语言模型“幻觉”的方法,这种方法通过“以毒攻毒”方式,能测量生成回答的含义的不确定性,或能用于提升大语言模型输出的可靠性。
该论文介绍,大语言模型(如ChatGPT和Gemini)是能阅读和生成自然人类语言的人工智能系统。不过,这类系统很容易产生“幻觉”,生成不准确或没有意义的内容。检测大语言模型出现“幻觉”的程度很难,因为这些回答的呈现方式可能会让它们看起来很可信。
在本项研究中,论文第一作者兼通讯作者、英国牛津大学Sebastian Farquhar和同事合作,尝试量化一个大语言模型产生“幻觉”的程度,从而判断生成的内容有多少忠于提供的源内容。他们的方法能检测“幻觉”的一个子类别——“编造”,特指不准确和随意的内容,常出现在大语言模型缺乏某类知识的情况下。针对“编造”问题,他们研发的方法考虑了语言的微妙差别,以及回答如何能以不同的方式表达,从而拥有不同的含义。研究表明,该方法能在大语言模型生成的个人简介,以及关于琐事、常识和生命科学这类话题的回答中识别出“编造”内容。
《自然》同期发表同行专家“新闻与观点”文章指出,最新研究的检测任务由一个大语言模型完成,并通过另一个大语言模型进行评价,相当于“以毒攻毒”。虽然用一个大语言模型评估一种基于大语言模型的方法似乎是在循环论证,而且可能有偏差,但他们的方法有望帮助用户理解在哪些情况下使用大语言模型的回答需要注意,这也意味着可以提高大语言模型在更多应用场景中的置信度。(完)
相关推荐
- 最近发表
-
- 随机阅读
-
- 法国总统:法国食品价格夏末前将持续高企
- (乡村行·看振兴)山西石楼“孙小辣”:乡村“椒”响曲 “辣”出幸福味
- 脑机接口设备植入人脑前景如何?
- 一图看懂!家庭、学校如何做好预防性消毒?
- 7月2日央行开展20亿元7天期逆回购操作
- 应对寒潮低温天气 各地采取措施保障民生
- 世界杯期间广东警方严打“赌波”
- 内蒙古呼伦贝尔市鄂伦春旗发生3.6级地震 震源深度18千米
- 强震致2000多人遇难 摩洛哥宣布全国哀悼三天
- 中国首次出口阿根廷新能源轻轨列车顺利抵达
- 中国驻加拿大使馆:敦促加方停止借网络安全问题抹黑中国
- 巴黎圣母院大火五周年:修复工程进入收尾阶段
- (深化改革看山东)山东这座宝藏海岛探“绿”有方
- 纯生标杆工厂“鲜活”进阶 青岛啤酒二厂100万千升纯生啤酒生产基地按下“启动键”
- 中原煤城“向绿而兴” 河南焦作有何蝶变“密码”?
- “手作之美”启中式浪漫 匠人精神打磨“中国高定”
- 东西问·人物丨王巍:最近10年,中国考古学迎来真正的黄金时代
- 上海多措并举促进垃圾资源化利用
- 第四届消博会游艇展启幕 有80家国际品牌参展
- 第二届丝绸之路国际剧院联盟投洽会启幕 18家新成员“入盟”
- 热门推荐
-
- 官方通报“城管干部出轨女下属”:两人停职接受调查
- 二季度末中国房地产开发贷款余额同比增2.8%
- 广西梧州消防通报一槽罐车起火:火势被扑灭 未造成人员伤亡
- 恩来荣誉社团2023年暑期公益实践营开营
- 旅美大熊猫“美香”迎来25岁生日
- 广铁迎史上“最火”端午节 单日送客人数预计创历年“端午”新高
- 中美气候变化会谈将举行
- 福州小茉莉合唱团专场音乐会上演 用歌声传递美好
- 下沉市场空调消费四化趋势:套系化、健康化、节能化、场景化
- 离婚后,别在孩子面前说对方坏话
- 今年前10个月浙江义乌进出口总值超5000亿元
- 青岛啤酒史永刚:新产品只需60个前置仓就能进入上海,原来需上万家超市、便利店铺货
- 中国美术馆上新书法与绘画展 书法家张海八十后新作气象万千
- 证监会依法从严打击欺诈发行、财务造假等信息披露违法行为
- 从第六届“初心榜”,看2023中国影视剧市场之蝶变
- 马面裙爆火为何在曹县“意料之中”
- 中央气象台继续发布高温黄色预警 局地可达40℃以上
- 上海拟加大力度引进海外知名人力资源服务机构
- 福来沪往 奔赴山海 | “清新福建”点亮黄浦江
- 湖南弼时镇玉池村突发山洪灾害 2人失联