ChatGPT通过美放射学委员会考试
科技日报北京5月17日电 (记者刘霞)加拿大科学家在16日出版的《放射学》杂志上刊登新论文称,最新版本的ChatGPT通过了美国放射学委员会的考试,突出了大型语言模型的潜力,但它也给出了一些错误答案,表明人们仍需对其提供的答案进行核查。
为评估ChatGPT在美国放射学委员会考试问题上的表现并探索其优势和局限性,多伦多大学研究人员首先测试了基于GPT-3.5的ChatGPT的表现。研究团队使用了150道选择题,这些选择题与加拿大皇家学院和美国放射学委员会考试的风格、内容和难度相当。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算和分类、疾病关联。
研究人员发现,基于GPT-3.5的ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好,正确率为84%,但回答高级思维问题时表现不佳,正确率仅为60%。而性能更优异的GPT-4的正确率为81%,且在高阶思维问题上的正确率为81%,远好于GPT-3.5。但GPT-4在低阶思维问题上的正确率仅为80%,答错了12道题,而GPT-3.5全部答对了这些题目,这引发了研究团队对GPT-4收集信息的可靠性的担忧。
这两项研究都表明,ChatGPT会有提供不正确答案的倾向,如果仅仅依靠它获取信息,非常危险,因为人们可能意识不到其给出的答案是不准确的,这是它目前面临的最大的问题。(来源:科技日报)
相关推荐
- 最近发表
-
- 随机阅读
-
- 江西出台6项举措保障残疾人健康权益 涉就医便利心理健康等
- 漫步北京中轴线寻“龙”:谁在守护“中轴线第一桥”?
- 中国首艘引入的大型滚装船在沪命名首航
- “万里长江高铁第一隧”进入盾构掘进施工阶段
- 宁夏:“酒庄游”成为全域旅游不可或缺元素
- 中国国家邮政局:支持发展无人配送、低空物流等新业态
- 县域经济观察:从青年创业“三堂课”看乡村焕新路
- 严打药企“以缺逼涨”,守好群众“买药钱”
- 治疗肝癌5年花百万 预防费用仅100元
- 中新人物丨她成为科学家后,不想只当科学家
- 五大国有银行今起调整存款挂牌利率 3年期利率下调15个基点
- 新疆库车市第二届龟兹文化艺术节开幕
- 借力《黑神话:悟空》 山西文旅创新文化传承方式
- 有聊|落落:每个导演都关心电影评分,我选择相信观众
- “东莞港—泰国林查班”水果快线正式启航
- 广西荔枝2023年产量预计近百万吨
- 中美青少年上海百年石库门建筑中用音乐迎接新年
- 聚焦海之南!火箭上天科研下海 新质生产力赋能自贸港
- 千余件陨石制品亮相吉林市首届文创产品博览会
- 海口“三港”预约过海车辆持续高位运行 待出岛小车约6100辆
- 热门推荐
-
- 重头戏开始,中国持续为消费加油门
- 元宇宙赋能“国潮热”,“头号玩家”不远了
- 香山公园将实行淡季开放时间及票价
- 中医药治疗心衰科研成果登上国际权威医学期刊《自然医学》
- 【百万庄小课堂】长期不吃晚饭会怎样?轻断食减肥靠谱吗?
- 中美农业联委会第七次会议在华盛顿召开
- 日本一18岁高中生商场内持刀随机砍人 致3人受伤
- 打车送咖啡?这个冬天,滴滴携Tims带来双倍暖意
- 脱下军装,“水电铁军”趟出新路子
- 湖南多举措提升外籍来湘人员支付便利
- 河南雨雪低温天气持续,冬小麦如何安全过冬?
- 申报结束!超10万人申请2024年北京市积分落户
- 重庆首个“国际创客艺术村”落地武隆石坝村
- 导演欧大明:“流量”常常在意想不到的地方出现
- 青海:冬储菜购销难两旺 见证“舌尖”的变迁
- 回眸2022年综艺名场面 “小众”出圈 传统文化经久不衰
- 陕西开启2024冬季文旅消费季系列活动
- “审美在线”“求补货” 出版社文创如何“拿捏”流量密码
- 强台风“贝碧嘉”袭击华东沿海 浙沪沿海掀狂风巨浪
- 海外华文媒体参访“华人老家” 寻迹关公文化传播脉络