ChatGPT通过美放射学委员会考试
科技日报北京5月17日电 (记者刘霞)加拿大科学家在16日出版的《放射学》杂志上刊登新论文称,最新版本的ChatGPT通过了美国放射学委员会的考试,突出了大型语言模型的潜力,但它也给出了一些错误答案,表明人们仍需对其提供的答案进行核查。
为评估ChatGPT在美国放射学委员会考试问题上的表现并探索其优势和局限性,多伦多大学研究人员首先测试了基于GPT-3.5的ChatGPT的表现。研究团队使用了150道选择题,这些选择题与加拿大皇家学院和美国放射学委员会考试的风格、内容和难度相当。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算和分类、疾病关联。
研究人员发现,基于GPT-3.5的ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好,正确率为84%,但回答高级思维问题时表现不佳,正确率仅为60%。而性能更优异的GPT-4的正确率为81%,且在高阶思维问题上的正确率为81%,远好于GPT-3.5。但GPT-4在低阶思维问题上的正确率仅为80%,答错了12道题,而GPT-3.5全部答对了这些题目,这引发了研究团队对GPT-4收集信息的可靠性的担忧。
这两项研究都表明,ChatGPT会有提供不正确答案的倾向,如果仅仅依靠它获取信息,非常危险,因为人们可能意识不到其给出的答案是不准确的,这是它目前面临的最大的问题。(来源:科技日报)
相关推荐
- 最近发表
-
- 随机阅读
-
- 文化中国行·长江之歌 | 南京云锦:逐花易色 把灿烂云霞织进烟火人间
- 报告:金砖国家女性董事比例有所提升
- 《营造学社之道》展览佛光寺站开展 纪念营造学社成立95周年
- 激活年轻消费群体
- 复兴号智能动车组试跑福厦高铁
- 首届中国旅游演艺发展研讨会在河北承德举行
- 旅游复苏推动酒店产业发展 今年前九月新注册企业量同比增长46.2%
- 大型原创话剧《马叙伦》浙江巡演 首场演出杭州钱塘上演
- 枝头结出“致富果” 江西广昌黄桃迎丰收
- 前沿科技剧透未来
- 穿越两千多年时光:把长城“搬进”博物馆,需要几步?
- 多领域发展蒸蒸日上 彰显中国经济“根深叶茂”欣欣向荣
- 沪深北交易所进一步降低证券交易经手费
- 海南省气象台发布海上雷雨大风黄色预警信号
- 一时贪“鲜”,小心惹上“布病”
- 四川木里森林火灾:救援力量正在全力扑打中
- 确保从“田头到餐桌”的食品安全 上海发布重点监管食用农产品清单
- “印象长城”主题文化交流展在山西阳泉开展
- 2024年以来中老铁路进出口货物超300万吨
- 市场监管总局部署两节期间重要民生商品稳价保质工作
- 热门推荐
-
- “不卖就禁”凸显美霸凌行径
- 北方昆曲剧院原创昆剧《曹雪芹》成功首演
- 黄河源头——青海玛多的生态“涅槃”记
- 俄罗斯未来六年怎么走?普京亲自撰写国情咨文,讲透了!
- 中国救援队成功营救出第三位幸存者
- 辽宁:上半年经济持续向好
- 俄称一夜间共摧毁乌军75架无人机 乌方暂无回应
- 记者暗访:兽用麻醉剂何以成“上头电子烟”
- 财政部拟发行2024年记账式贴现(四十八期)国债
- 四川省—撒马尔罕州企业交流合作座谈会在蓉举行
- 将密切跟踪形势,梯次拿出政策“后手”
- 县域观察:“浙江屋脊”何以吸引乡贤回归投资创业?
- 全球首次人机共创山水画拍卖:一场跨越时空的“对话”
- 第十七届汽车轻量化大会在江苏扬州开幕
- 借力“种业振兴”东风 “红缨子”打造种业公司发展样本
- 6小时内或有雹灾 甘肃三地发布冰雹橙色预警
- 两部门:延长部分房地产金融政策期限
- 自驾返程必看!交警发出重要提示
- 山西晋城康养城市推介大会签约项目总投资超300亿元
- 长沙高职学子中秋期间接续见义勇为