数学研究,从此进入新纪元
数学家陶哲轩用谷歌刚发布的Gemini 3,十分钟解决了一个百年数学难题。
没错,就是那个数学界的顶尖天才陶哲轩,那个被誉为“数学莫扎特”的菲尔兹奖得主。
这一切发生在谷歌发布Gemini 3后的短短几天内。当地时间11月18日,谷歌正式推出了新一代大型语言模型Gemini 3,并当天就部署到了谷歌搜索的AI模式、Gemini应用、API接口和Vertex AI等核心产品中。
Alphabet首席执行官桑达尔·皮查伊在公司官方博客中,将Gemini 3描述为“最先进最智能的推理模型”。
屠榜的Gemini 3
Gemini 3一发布,就几乎屠榜了所有AI模型评测集。
它以1501 Elo得分位列LMArena大模型竞技场第一,打破了该排行榜的记录。在包含博士级难题的“人类终极测试”中,Gemini 3 Pro在不使用任何工具的情况下得分达到37.5%,几乎比上一代的21.6%翻了一倍。
这还不是全部。在衡量数学推理能力的MathArena Apex测试中,Gemini 3取得了**23.4%**的成绩,而之前的领先者GPT-5.1仅得到1.0%,Claude Sonnet 4.5也只有1.6%。
多模态能力一直是谷歌的强项,Gemini 3在这方面表现更为惊人。在MMMU-Pro测试中获得了81.0%,在CharXiv Reasoning上得到81.4%,均超越了所有竞争对手。
更令人惊讶的是,在理解截图的ScreenSpot-Pro测试中,Gemini 3的得分是Claude Sonnet 4.5的两倍,GPT-5.1的二十倍。
谷歌DeepMind研究团队宣称,这是“全球最先进的多模态理解模型、谷歌最强大的Agent编程和氛围编程模型”。
陶哲轩的十分钟奇迹
但 benchmarks只是数字,真正的考验在实战中。
就在Gemini 3发布两天后,11月20日,数学界发生了一场静悄悄的革命。
Wouter van Doorn首先提出了对埃尔德什问题#367第二部分的反证思路,他的论证基于一个尚未被证明的同余恒等式。
几个小时后,陶哲轩注意到了这个思路,他决定将证明这个恒等式的任务交给Gemini 3的Deep Think模式处理。
结果令人震惊:只用了大约十分钟,Gemini 3就完成了证明。
陶哲轩随后手动将证明转化为一个更加基础的版本,这花费了他半个小时。两天后,Boris Alexeev完成了这个证明的Lean形式化,耗时两到三小时。
埃尔德什问题#367究竟是什么?简单来说,它涉及整数平方因子的分布:对连续整数 n 到 n+k-1 计算 B₂(n),即仅保留能成对出现的质因数部分,再求乘积,并探究该乘积是否增长不超过 n²。
换句话说,就是研究整数里“平方因子扎堆”的程度,天花板究竟在哪里。
这可不是普通的数学题,而是困扰了数学家数十年的难题。
不只是数学,物理也同样出色
与此同时,Gemini 3在物理基准测试CritPt中也位居榜首。
CritPt全称为“Complex Research using Integrated Thinking – Physics Test”,由阿贡国家实验室、伊利诺伊大学厄巴纳-香槟分校等三十多家机构的五十余位物理学者共同设计。
它涵盖凝聚态、量子、天体物理等十一大现代物理分支,要求模型完成类似博士生独立课题的任务,包括建模、推导与跨领域联想。
尽管Gemini 3 Pro表现最佳,但得分仅为9.1%,离满分还有很大距离。这既显示了它的领先地位,也说明了物理研究的难度。
为什么Gemini 3这么强?
Gemini 3的成功并非偶然。谷歌官方将其定义为“通往AGI的重要一步”。
Gemini 3 Pro采用了稀疏MoE架构,这并非Gemini 2.5的微调,而是全新的架构。Google DeepMind的VP of Research奥里奥尔·温亚尔斯在Gemini 3发布后发推文说:“Gemini 3的秘密?简单:改进预训练和后训练。后训练仍然是一片完全的绿地。算法上还有大量进步和改进的空间。”
他特别强调:“与流行看法相反,即‘扩规模已终结’——团队实现了巨大跃升。2.5到3.0之间的差距是我们见过的最大之一。看不到任何天花板!”
编码能力过去一直是谷歌的弱项,但Gemini 3彻底翻盘了。在LiveCodeBench上,Gemini 3的分数比第二名Grok 4.1直接高了200多分。
在测试Agent工具使用能力的12-bench中,Gemini 3 Pro拿到了85.4% 的高分,远超Gemini 2.5 Pro的54.9%。
前端的黄昏?
Gemini 3不仅能写代码,还能理解审美。
在由开发者社区运营的实战编码竞技场Design Arena中,Gemini 3 Pro在整体排名中位列第一,并在五个代码赛区中的四个(网站、游戏开发、3D设计和UI组件)都占据榜首。
一位名叫Tailen的开发者在提前测试后写道:“这个模型在我最难的问题上,远远超越了GPT-5 Pro、Gemini 2.5 Deep Think以及其他所有模型。”他列出了Gemini 3建立新SOTA的领域:调试复杂的编译器错误、在不产生逻辑错误的情况下重构文件、解决困难的λ-演算问题,甚至在ASCII艺术上都“几乎还不错了”。
谷歌推出了“生成式UI”,这彻底改变了人机交互的范式。传统的对话式AI给你文本回答,高级一点的给你结构化数据或图表。但Generative UI意味着AI根据每个请求动态生成一个完全定制的用户界面。
发布会上,谷歌给出的范例是“RNA聚合酶是如何工作的?”Gemini 3生成一个直观的、可点击的交互式工具,而不是一堆文字解释。
谷歌的生态护城河
Gemini 3发布的真正意义,体现在三个关键维度:任务执行能力、分发效率和生态护城河。
谷歌首次在发布当天,就把新模型直接集成到搜索的AI模式中。这意味着什么?搜索的AI Overviews已经覆盖20亿月活用户,Gemini App月活突破6.5亿,1300万开发者正在使用其生成式模型。
这种分发效率是其他AI公司无法比拟的。当其他AI公司还需要说服用户下载特定应用时,Gemini 3已经悄然嵌入到用户每天都在使用的搜索、Gmail和Android中。
从自研TPU芯片,到海量数据闭环,再到庞大的产品矩阵,谷歌形成了全栈式优势。这不是能花钱买到的,也不是能快速建立的。
AI研究的新时代
陶哲轩用Gemini 3研究埃尔德什难题,标志着世界顶级数学家真的开始把大模型当作工作伙伴了。
以后做数学,不再只是一个人苦苦推导。而是把枯燥的枚举、尝试、检验丢给AI,人类集中精力抓核心思路、做关键判断。
谁先学会和这类工具高效协作,谁就等于多了一个“超级合作者”。
谷歌Gemini 3的发布,不仅仅是技术上的飞跃,更可能重塑整个科研生态。当AI能在十分钟内解决百年数学难题,我们不禁要问:人类与AI协作的边界,究竟在哪里?
如果你对AI如何改变科研和日常生活感兴趣,欢迎关注我们的公众号,我们将持续带来最新、最深度的科技解读。