2025-08-11
分享到
经过IMO官方裁判评分,Gemini新模型答对了6道题中的5道,以35分的成绩斩获金牌。
斩获金牌的是Gemini的一个进阶版本,搭载了新的思考模式,后期会开放给Google AI Ultra订阅用户——也就月付1400元那种。
去年三天摘银,今年4.5小时夺金,DeepMind的数学成绩可以说是突飞猛进。
除了DeepMind CEO哈萨比斯、谷歌CEO劈柴哥给团队发来贺电,马斯克也发推表示了祝贺。
但DeepMind被夸得越好,OpenAI就越发相形见绌,同样是AI参赛IMO,秘密搞事情也就算了,还为了营销跟人类青少年抢风头。
DeepMind公告显示,Gemini新模型做对了今年IMO六道题中的五道,获得了35分。
并且这一成绩,也获得了IMO主席Gregor Dolinar的亲自认证:
不仅评分遵循IMO未公开的规则,所用时间标准也和人类选手完全一致——4.5小时之内答完交卷。
这次不仅用时更短,答题过程也是全程自然语言、端到端完成,不再像去年那样专门修改题目格式。
DeepMind高级科学家兼IMO团队负责人Thang Luong表示,这与去年相比是一个范式转变。
此外,DeepMind研究员、布朗大学教授Junehyuk Jung介绍,在今年的第三题中,很多人类选手使用了研究生水平的方案(IMO为高中竞赛),但Gemini仅使用了初等数论知识就给出了自洽的证明。
Jung还表示,Gemini没答对的最后一题,是一开始方向就错了,不过人类选手中做对这道题的也只有五个人。
顺便说一下,谷歌已经将Gemini做对的五道题的答案完整公开(链接见文末),有兴趣的话可以验证一下~
这次DeepMind用来参赛的,是一款暂未公开的全新模型,搭载了Deep Think推理模式。
DeepMind介绍,Gemini Deep Think是一种针对复杂问题的增强型推理模式,融合了其最新的一些研究技术,包括并行思维。
这种模式使模型能够同时探索并组合多种可能的解决方案,最终得出最终答案,而不是追求单一的线性思维链。
为了充分利用Deep Think的推理能力,DeepMind额外训练了 Gemini 的这一版本,使其能够利用更多多步推理、问题求解和定理证明数据。
此外DeepMind还为Gemini提供了精选的高质量数学题库,并在其指令中添加了一些关于如何解答IMO题目的通用提示和技巧。
如哈萨比斯所说,该模型已经提供给数学家等人群进行小范围测试,后续会开放给Google AI Ultra订阅用户使用。
除了开头马斯克那句简单的Congrats之外,还有Meta AI科学家称赞Gemini给出了清晰、精准、非常适合自学的解决方案。
仔细研究哈萨比斯的推文,只字未提OpenAI,但又处处在针对OpenAI。
哈萨比斯的三条回复,主要强调了这么几点:官宣是没有抢跑的,成绩是IMO认证的,模型也是未来可用的。
IMO评审团和协调员们普遍认为,AI开发商在IMO期间(尤其是闭幕式之前)宣布成绩是“粗鲁且不恰当的”。
领导DeepMind超级推理团队的Thang Luong补充,IMO内部其实有一份官方评分指南,外部无法获取。没有基于该指南的评分就没有资格获得奖牌。
这届IMO共6道题,每题7分。金牌线分,OpenAI自报的成绩也刚刚过线,即使是解答过程中微小的扣分都可能让OpenAI从金牌跌到银牌。
有网友评价:OpenAI一如既往的为了炒作什么都干得出来。没有官方分数,没有耐心,也没有羞耻心。
针对以上这些质疑,OpenAI研究员Noam在给谷歌送出祝福后,也顺带进行了回应:
首先,Noam解释OpenAI没和IMO官方合作不是没收到邀请,而是OpenAI自己拒绝了。
其次是关于作答过程和评分的权威性,Noam表示没有使用RAG或者任何工具,而打分是由3位IMO获奖者给出的。
最后是关于宣发时间,Noam表示公布成绩之前和IMO董事会成员进行过沟通,后者要求等到颁奖仪式之后再发布,OpenAI表示接受。
而OpenAI官宣的时间是在太平洋时间凌晨1点,彼时颁奖已经结束,OpenAI没有被要求需要等到更晚的时间再发布。
虽然Noam的解释获得了部分网友的认可,但说一千道一万,网友还是表示倾向于站在谷歌这一边。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
1962年,中印边境战争幕后:毛泽东的牛刀杀鸡战术如何震惊世界
中国海大录取通知书附赠南极海水吊坠标价5000元出售?学校:官方不会售卖,谨防诈骗
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律
OPPO Reno15再次确认:金属中框+大R角直屏,或是中端美学新标杆