复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠
来源/采访对象提供
新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
- 最近发表
-
- 随机阅读
-
- 西延高铁枣林隧道顺利贯通 全线隧道掘进近八成
- 全链条制止餐饮浪费
- 网红代糖赤藓糖醇“塌房”了吗?还能放心吃吗?
- 山西±800千伏特高压雁门关换流站完成“综合体检”
- 11.4%折射中国“磁吸力” 外资加码新技术产业布局
- 重阳节的小知识:为啥又叫菊花节?重阳糕长啥样?
- 今年前7个月欧盟非法入境逾11万人次 同比下降36%
- 乐享山水魅力 拥抱烟火人间 总台中秋国风音乐会浪漫唱响
- 重庆十年间对共建“一带一路”国家进出口总额达2.22万亿元
- 层叠的北京!八百年古都有哪些“隐藏版”故事?
- “第三只眼看中国·粤港澳大湾区”颁奖典礼在中山举行
- 渝滇黔鄂陕及华北东北等地有强降雨
- 全国首个数字人民币产业园在深运营
- 陷入上瘾焦虑和付费连环套 他们被3分钟微短剧“套”住
- 菲律宾通胀抑制零售业复苏
- 哈萨克斯坦孔院举办“迎国庆·贺中秋”系列文化活动
- 国际锐评丨起底美国对非投资与援助的虚虚实实
- 强监管解决网约车“成长烦恼”
- 中华人民共和国国史学会将与中国诗歌学会跨界合作
- 国际园艺生产者协会秘书长:在中国看到可持续发展承诺的践行
- 热门推荐
-
- 福建经济观察:税惠助厦门港扬帆起航
- “光影见证·国际交往中心”纪实摄影活动闭幕 30幅作品获奖
- 上海苏州河畔变身“熊猫乐园”
- 数字时代劳动权益保障“新题”何解?
- 青海民和:技能培训让地震灾区民众就业有“术”致富有“路”
- 百事公司启动救灾响应,同心驰援甘肃震区
- 巴黎奥运会进入百日倒计时 火炬在希腊点燃
- (高质量发展调研行)“学生亿万富翁”是怎么在这家中心诞生的?
- 以五篇大文章为纲,招商银行深圳分行在融合创新中助力特区续写春天的故事
- 美众议院议长麦卡锡:弹劾拜登是“自然的下一步”
- “造耳朵”的医生
- 世界运河历史文化城市合作组织成为《联合国气候变化框架公约》观察员机构
- 科学家造出迄今最小移动生命体 有助理解细胞运动的进化和起源
- 美媒:德桑蒂斯宣布退出美国总统竞选
- 巴西大幅增加登革热防疫预算
- 墨西哥一竞选活动舞台坍塌 已致9人死亡63人受伤
- 冷空气裹挟“沙尘”侵袭北方 南方多地气温或创历史新低
- 第三十六届中国仿真大会在江苏扬州召开
- (高质量发展调研行)渭北旱塬县城推动城乡供水一体化 助力县域发展
- 肯尼亚国防军司令坠机身亡