复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠
来源/采访对象提供
新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
- 最近发表
-
- 随机阅读
-
- 财经观察:从跨境投资向“新”看中国市场潜力
- 商品申报更快速、通关更便捷!关累港口岸“边民互市”贸易市场这样兴边富民→
- 今天上午北京基本无沙尘,傍晚后沙尘会来个“回马枪”
- 江西多地倡导文明婚俗 “零彩礼”集体婚礼渐成新风尚
- 湖北谷城:“云端对诗”助特产“驾云出山”
- 广西龙州县“5·31”房屋倒塌事故因违法拆除承重墙所致 相关责任人及单位被处理
- 当“羊毛党”盯上“618”
- 在哪办?靠谁办?钱怎么办?农村养老有实招
- 首届乡村儿童艺术嘉年华落幕 为乡村美育播下种子
- 数字中国建设峰会探馆:数字赋能文化传承创新
- 新疆吉木乃:冬牧文化旅游节 大锅羊肉正飘香
- 乡约福建:福州罗源以花为媒 推动农文旅融合发展
- 商务部:对下半年外贸前景保持乐观预期
- 一季度全球黄金需求总量同比增3%至1238吨
- 蒙医药在新疆何以传承?
- 美共和党众议员格林提议罢免众议长约翰逊
- 播了一半就收官 “撤档风”吹到电视剧圈了?
- 带伞!北京今天白天多云转阴 大部地区有阵雨或影响晚高峰
- 长江流域近期汛情多变 强降雨落区加密滚动预报
- 山西姑娘与新疆库车老街的“相互奔赴”
- 热门推荐
-
- (乡村行·看振兴)“红了”樱桃“绿了”葡萄 山西襄垣特色产业富民增收
- 西藏自治区退役军人创业创新大赛展现退役军人双创风采
- 原生态音乐“跨越江河”:南京剧院奏响《从黄河到长江》
- 重庆市属重点国企上半年完成资产盘活848.2亿元
- 2月9日,全社会跨区域人员流动量完成19524万人次
- 卫龙辣条抽检不合格 厂家称标准不同
- 2023工业互联网和大数据产业发展大会举行
- 工信部:1至8月电信业务收入累计完成11417亿元 同比增长6.2%
- 春日踏青“帐篷春游”悄然流行 “成年人的过家家”带火露营装备
- 从“过日子”到“过得开心” 这代年轻人的压力变了
- “漳州非遗大师云讲坛”演绎中美文化交流“偶”遇佳话
- 深挖销售渠道 银行理财积极拓展同业“朋友圈”
- 南非:约350家私营安保公司参与“大选安保计划”
- 今年长春机场运输生产呈现稳中有升态势
- 经营韧性提升,我爱我家2024年前三季归母净利润扭亏为盈
- 中国驻英国大使:中英在金融等领域互利合作空间十分广阔
- “天府·中国金融科技指数”在四川成都发布
- 人生三阶段,汉学家魏华德的新“长征”:我是澳中文化之桥
- 前7月中欧班列开行超1.1万列 连续3个月单月开行超1700列
- 广东将防风IV级应急响应提升至Ⅲ级