复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠
来源/采访对象提供
新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
- 最近发表
-
- 随机阅读
-
- WHO首次认可“单剂次”HPV疫苗 三家国内HPV疫苗上市公司股价大跌
- 梁玉莹夺冠《中国好声音》鼓励母校师弟师妹积极参加演出活动
- 绿色便民做好“公交优先”
- 北京铁警开展专项行动 10天查处违法人员28名
- 山东发挥智库力量协同攻关 推动更多高质量成果问世
- 海南离岛免税暑期“花式促销”引客
- 2024年《米其林指南》法国版出炉 大力推介年轻厨师
- 国网信通产业集团创新成果亮相第七届数字中国建设峰会
- 西泠印社庆建社120年 社长之位依然空缺
- 北京发现超过100株丁香叶忍冬 属目前国内最大实生群落
- 马克龙说非洲国家“忘了说谢谢”,引发多国不满
- 暑运热度持续 广州白云机场单日客流量创今年以来新高
- 服贸会“北京日”签约金额超1045亿元
- 名创优品携中国诗词亮相巴黎 应援中国运动健儿
- 公司注销,未支付的工资不能一笔勾销
- 赓续中华文脉 呼和浩特传承300年的“龙灯节”启幕
- 韩美首脑举行双边会谈 发表《朝鲜半岛核遏制核作战方针》
- 乌克兰多地拉响防空警报
- 报告显示“十一”假期年轻人成东南亚旅行主力军
- 广西恭城立法推动恭城油茶产业发展
- 热门推荐
-
- 听见“支付宝到账500万元” 你还睡得着吗?
- 马来西亚今年二季度经济增长超预期 下半年势头看好
- 家乡后辈忆“两弹一星”元勋:博学于文、约之以礼
- 假剧情伤害真骑手!卖惨营销乱象亟待整治
- 港澳非中国籍永久性居民可申办来往内地通行证 外籍居民:很兴奋
- 三季度全国规上工业企业利润由降转增 呈现加快回升态势
- 国家医保局通报江苏省无锡虹桥医院飞行检查情况
- 晶采观察丨1500亿件!快递量新纪录的背后
- 赤松茸在中国“盐湖城”试种成功
- 山东高温天气持续“在线” 各地多措并举应对“烤”验
- 中柬老嘉宾分享“家住遗产地”故事:携手守护世界遗产
- 阿里波夫再次被任命为乌兹别克斯坦政府总理
- 福州多条内河突然变黄,咋回事?
- 玳瑁大象在快递盒相见!长春海关查获濒危动物制品16件
- 菲律宾金达沃省发生5.3级地震
- 《逃出大英博物馆》完结 流失文物的归家路才开始
- 外国摄影师:“桥”见中国发展新风貌
- 第二十三届海辩赛落幕:复旦夺魁 台湾两高校获亚军季军
- 企业申报更便利了!经营者集中反垄断全业务系统实现闭环管理
- 俄乌局势进展:俄称拦截欲袭击扎波罗热核电站的乌军无人机 乌方否认俄方指控