ChatGPT通过美放射学委员会考试
科技日报北京5月17日电 (记者刘霞)加拿大科学家在16日出版的《放射学》杂志上刊登新论文称,最新版本的ChatGPT通过了美国放射学委员会的考试,突出了大型语言模型的潜力,但它也给出了一些错误答案,表明人们仍需对其提供的答案进行核查。
为评估ChatGPT在美国放射学委员会考试问题上的表现并探索其优势和局限性,多伦多大学研究人员首先测试了基于GPT-3.5的ChatGPT的表现。研究团队使用了150道选择题,这些选择题与加拿大皇家学院和美国放射学委员会考试的风格、内容和难度相当。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算和分类、疾病关联。
研究人员发现,基于GPT-3.5的ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好,正确率为84%,但回答高级思维问题时表现不佳,正确率仅为60%。而性能更优异的GPT-4的正确率为81%,且在高阶思维问题上的正确率为81%,远好于GPT-3.5。但GPT-4在低阶思维问题上的正确率仅为80%,答错了12道题,而GPT-3.5全部答对了这些题目,这引发了研究团队对GPT-4收集信息的可靠性的担忧。
这两项研究都表明,ChatGPT会有提供不正确答案的倾向,如果仅仅依靠它获取信息,非常危险,因为人们可能意识不到其给出的答案是不准确的,这是它目前面临的最大的问题。(来源:科技日报)
相关推荐
- 最近发表
-
- 随机阅读
-
- 浙江余姚建筑倒塌事件被困人员全部找到
- 【东盟专线】中国推动与东盟标准“软联通” 携手布局新能源汽车市场
- “2024四川美食节”在日本东京举办
- 第十三届“读懂中国”中菲关系马尼拉论坛举行
- 突破瓶颈实现粮食产量目标
- 中新教育 | 上海打造教育数字基座能力共享体系
- 【文明之美看东方】从建筑之美到四时之景,故宫如此动人
- 浙江杭州高架发生一起伤人事件 杭州公安:正在调查处理
- 通讯|透过绿色新疆感受中国高质量发展活力
- 一旅客鞋内藏匿347.5克足金制品 被深圳皇岗海关查获
- 人类非遗“班春劝农”再现浙江遂昌 展现中国迎春文化
- 宁夏在建最高桥主体完工
- 南疆首个千万千瓦级“沙戈荒”外送基地项目开工建设
- 促进特色休闲街区持续火热
- 61名韩国青年友好使者访青 搭建友谊合作桥梁
- 深化省校合作 山西长治“人、财、物、网”汇聚人才力量
- 痛心! 福州2名消防员在抢险救援中牺牲
- “千年古城”泉州 来京演绎非遗之美
- 江西南昌:聚力科技创新 赋能产业发展
- 福建三明气温“断崖式”下降 电力部门确保“温暖”过冬
- 热门推荐
-
- 随地吐痰危害公共卫生安全
- 由“智”提“质” 因地制宜发展新质生产力 赋能多行业提质增效
- 安溪铁观音与泉州老字号亮相2024年世界闽南文化节
- 广州知识城广场项目四期主体结构封顶
- 大一新生人际交友最担心,师兄师姐教你非暴力沟通
- 广西崇左千名河长携手守护中越边境地区河湖生态
- 美中贸易全国委员会会长:健康平衡的美中经贸关系符合双方利益
- (新春走基层)村民变“股民” 重庆南岸放牛村集体分红过新年
- 智轨、云巴频现各地的背后
- 一杯酒,敬青铜大立人!
- 金砖“00后”侧观记丨俄罗斯留学生:展望未来,金色“金砖”更辉煌
- 各地博物馆创新形式,融入大众——走出有限空间 创造无限可能
- 广州火车站片区改造方案获批
- 广西深耕医学创新改革“试验田” 东盟民众先行受益
- 报告称单身男女看似躺平实则渴望恋爱
- 自然资源部:1-2月全国农用地转用和土地征收批准面积37591.70公顷
- 国家统计局:前11月全国规模以上工业企业利润下降4.4%
- 中国非制造业商务活动指数连续3个月上升
- 尼泊尔媒体团考察“热贡艺术之乡”
- 讲好“陕茶故事” 陕西省持续推进茶产业链建设