网上问医断病,这轮AI行不行?
网上问医断病,这轮AI行不行?
【今日视点】
◎本报记者 张梦然
你在网上搜过“我哪哪疼是不是得了啥啥病”吗?答案可能不尽如人意。但随着ChatGPT等大型自然语言模型(LLM)风生水起,人们开始尝试用它来回答医学问题或医学知识。
不过,靠谱吗?
就其本身而言,人工智能(AI)给出的答案是准确的。但英国巴斯大学教授詹姆斯·达文波特指出了医学问题和实际行医之间的区别,他认为“行医并不只是回答医学问题,如果纯粹是回答医学问题,我们就不需要教学医院,医生也不需要在学术课程之后接受多年的培训了。”
鉴于种种疑惑,在《自然》杂志新近发表的一篇论文中,全球顶尖的人工智能专家们展示了一个基准,用于评估大型自然语言模型能多好地解决人们的医学问题。
现有的模型尚不完善
最新的这项评估,来自谷歌研究院和深度思维公司。专家们认为,人工智能模型在医学领域有许多潜力,包括知识检索和支持临床决策。但现有的模型尚不完善,例如可能会编造令人信服的医疗错误信息,或纳入偏见加剧健康不平等。因此才需要对其临床知识进行评估。
相关的评估此前并非没有。然而,过去通常依赖有限基准的自动化评估,例如个别医疗测试得分。这转化到真实世界中,可靠性和价值都有欠缺。
而且,当人们转向互联网获取医疗信息时,他们会遭遇“信息超载”,然后从10种可能的诊断中选择出最坏的一种,从而承受很多不必要的压力。
研究团队希望语言模型能提供简短的专家意见,不带偏见、表明其引用来源,并合理表达出不确定性。
5400亿参数的LLM表现如何
为评估LLM编码临床知识的能力,谷歌研究院的专家谢库菲·阿齐兹及其同事探讨了它们回答医学问题的能力。团队提出了一个基准,称为“MultiMedQA”:它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及“HealthSearchQA”——这是一个新的数据集,包含3173个在线搜索的医学问题。
团队随后评估了PaLM(一个5400亿参数的LLM)及其变体Flan-PaLM。他们发现,在一些数据集中Flan-PaLM达到了最先进水平。在整合美国医师执照考试类问题的MedQA数据集中,Flan-PaLM超过此前最先进的LLM达17%。
不过,虽然Flan-PaLM的多选题成绩优良,进一步评估显示,它在回答消费者的医疗问题方面存在差距。
专精医学的LLM令人鼓舞
为解决这一问题,人工智能专家们使用一种称为设计指令微调的方式,进一步调试Flan-PaLM适应医学领域。同时,研究人员介绍了一个专精医学领域的LLM——Med-PaLM。
设计指令微调是让通用LLM适用新的专业领域的一种有效方法。产生的模型Med-PaLM在试行评估中表现令人鼓舞。例如,Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答,Med-PaLM的回答评分为92.6%,相当于医师作出的回答(92.9%)。同样,Flan-PaLM有29.7%的回答被评为可能导致有害结果,Med-PaLM仅5.8%,相当于医师所作的回答(6.5%)。
研究团队提到,结果虽然很有前景,但有必要作进一步评估,特别是在涉及安全性、公平性和偏见方面。
换句话说,在LLM的临床应用可行之前,还有许多限制要克服。(来源:科技日报)
-
上一篇
-
下一篇
相关推荐
中新健康周报|医疗领域全国共立案5.2万人;海尔生物并购上海莱士
中新健康 | 首儿所通州院区主体结构封顶 预计2027年投入使用
中新健康|北大医疗今年前三季度收入约39.3亿元 预计年内实现盈亏平衡
医保统筹支付、个人自付、个人自费分不清?看完你就明白了!
东北铁栏杆是甜的?打出溜滑也能受重伤?这些操作轻易别尝试
专访哈佛大学刘军:AI医疗是人类医生的助手而非对手
在冬季如何防滑?不慎跌倒,如何正确处理?
好医生集团董事长耿福能:守正创新,促进中医药产业高质量发展
为什么有些食物让我们心情愉悦
“碎片化睡眠法”危害大不宜效仿
木薯糖水爆火,有人为啥喝“中毒”了
厚底雪地靴易摔伤或致筋膜炎 提醒:80%的人鞋都选错了
- 最近发表
-
- 随机阅读
-
- 下周今年来最大范围雨雪将上线 春节前有大规模晾晒计划的抓紧安排
- 刘德华、宁浩携新片《红毯先生》亮相多伦多国际电影节
- 1死9伤!美国一大学附近传枪声,庆祝活动变悲剧时刻
- 新希望集团有限公司董事长刘永好:传统企业应在新型消费时代实现新发展
- 突发!塞尔维亚德里纳河一船只倾覆 已致10人死
- 国民经济运行稳中有进(数说2024)
- 2023年全国旅游及相关产业增加值占GDP比重为4.24%
- 吉林“00后”残疾人高校毕业生:乐观迎接人生新阶段
- 天然气储量告急叠加寒潮大风 14.2万立方米液化天然气运抵洋山港
- 德语音乐剧《伊丽莎白》以音乐会形式“回归”上海
- 玩转中国民乐的美国学生:音乐之外,更见天地
- 第二届西藏文化艺术节圆满落幕
- 上海生态环保艺术节:生态环保与文化艺术融合碰撞出灿烂火花
- 给钱就办?不“健康”的健康证体检暗藏隐患
- 俄国家杜马通过暂停执行《新削减战略武器条约》的法案
- 中国—东北亚博览会展“未来农业图景”促国际合作
- 网红绿皮车上,载着南下越冬的快乐老人
- 2023年湖南国土空间规划行业直接经济贡献约150亿元
- 厄尔尼诺再度登场,2024年或成史上最暖年?
- 国家卫健委回应网上“阜外医院徐波”“江苏常州乳腺外科专家”等腐败案例
- 热门推荐
-
- 中国民航局:密切关注国际民航事故调查进度 坚决确保航空安全
- 巴西暴雨已致至少20余人遇难 1600多人无家可归
- 网上年货节首周开门红 “买买买”出现新变化
- 洪灾后百天 河北涿州如何端稳“那碗面”?
- 今年中国航展将打造“空天海陆”一体化演示格局
- (乡村行·看振兴)浙江乡村的“马术俱乐部”:在乡村振兴路上“撒欢跑”
- 日媒:东芝结束74年上市历史摘牌退市
- 中国超大特大城市城中村改造将分三类实施,已入库改造项目162个
- 中国民航局:2025年民航预计完成旅客运输量7.8亿人次
- 第九届中国国际版权博览会将于11月在蓉举办
- 甘肃庆阳:指尖国风艺术融合时尚跨界“出圈”
- “一带一路”新十年:多国留学生在古都西安畅谈“丝路情缘”
- 青海新型电力系统宽频谐振防控领域取得重大技术突破
- 有中小学生抱怨午饭太晚 让孩子吃饱吃好不是“矫情”
- 让文化遗产在新时代焕发新活力
- 光大理财:深耕细作普惠金融,服务人民群众美好生活
- 民调:韩总统尹锡悦施政好评率30.6% 差评率达65.9%
- 加拿大将大幅减少移民吸纳数量 力图暂遏人口增长
- 流量经济下谁能为企业“涨粉”?有个职位叫用户增长运营师
- 内蒙古警方打掉千万元跨境“跑分”洗钱窝点