就在外界惊呼“AI快要接管纯数学研究”之际,一场限制条件极其严格、并由30位数学家以匿名方式进行评审的数学测试,却揭开了AI数学能力的另一面:AI不仅会幻觉、会跳步骤,甚至还把数学家论文里的关键论证几乎原样照搬,却忘了注明引用。

该测试共包含10道题目。所有题目有一个共同的关键前提:它们出自研究者在工作中自然遇到并已解决的问题,但截至测试时既未发表,也未曾出现在互联网上。这是整个测试设计的核心,只有这样,才能切断AI在训练数据中检索答案的可能。

测试表明,在当前的技术范式下,AI更适合扮演一个强大但不能做到100%可靠的科研助手,而非一个能够独立提出深刻猜想、构建理论框架的科研机器。尤其在直觉层面——识别哪个方向值得追逐,在最困难的环节做出决断——AI与人类之间的距离,仍清晰可见。

撰文 | REN

有一道关于莫比乌斯纸带几何性质的数学题,困扰数学界近半个世纪。2025年,布朗大学数学家理查德·施瓦茨(Richard Schwartz)解决了它,论文发表在《数学年刊》(Annals of Mathematics)上。

一年后,施瓦茨从这道题的研究过程中提取出一个新问题,想测试一下AI能否做出来。他认为,如果借鉴他的研究成果来求解,一个不错的几何学或低维拓扑学研究生应该能很快做出来,但如果不依赖他的成果,那可能要花费数年时间。

“我花了4年的时间去解决那个50年悬而未决的问题。如果AI找到的正确解法与我的解法截然不同,我会非常佩服。”他说道。

测试结果很快出来:四个AI系统中有三个都给出了及格的答案。如果换成普通人,或许又要被AI的数学能力“惊得说不出话来”。但评审们发现,AI在论证的第一部分几乎逐行照搬了施瓦茨的论文,连专有术语和符号标记都原样复用,却没有在任何地方注明引用这篇文章。

面对这个结果,身为评审的施瓦茨哭笑不得:“AI高度借鉴了我的论证过程却没有给出任何引用,有点糟心。如果是人类研究员,我会认定其有不道德的学术行为并拒稿,但AI适用这个说法吗?”

当然,施瓦茨也在一些地方肯定了AI的推理,列举了自己和AI的不同思路:

这个测试来自于一项更大规模的AI数学能力测试项目,名为First Proof。6月10日,为期近四个月的数学测试结果在其官网上正式公布。这批测试向四个AI系统提出了10道研究级别的数学题,并由30位领域专家以匿名方式进行了评审。

结果表明,AI虽然在部分题目上展现出令人印象深刻的解题能力,但在整体上仍然无法达到顶尖研究者的水平。

这一结果发布的时间节点很特殊。就在2026年5月,OpenAI的一个内部模型推翻了匈牙利数学家保罗·埃尔德什(Paul Erdős)在近80年前提出的、数学界也普遍认可的一个猜想,令研究者们大为震惊。

随着各类媒体对AI数学能力的报道热情高涨,First Proof项目的测试结果揭示了一幅更为复杂的图景:当测试从竞赛式比拼转向真实研究场景,当题目不再来自历史积累而是来自当下正在进行的数学工作,AI的表现就会呈现出截然不同的面貌。

First Proof项目的四个主要发起人,来自美国斯坦福大学、加州大学伯克利分校、得克萨斯大学奥斯汀分校和哈佛大学。项目的宗旨是向数学界和公众提供关于AI解题能力的准确信息,不依赖模型开发公司的自我评估,而通过独立、透明、可复现的实验来做出判断。

该项目获得了来自Anthropic和OpenAI的非限制性捐款。这笔资金只用于支付题目创作和评审的科研费用,不用于支付编辑委员会或董事会成员的薪酬。规则还明确规定,编辑委员会和董事会成员在任职期间不得接受任何AI公司的有偿工作。

在这次测试之前,First Proof曾于2026年2月进行了第一批测试,以非正式方式向公众开放题目,允许任何人用自己选择的系统尝试作答。但那次测试没有独立核查参与者的操作方式,也没有组织专家对答卷进行系统评分。第二批测试是该项目首次以正式基准的方式运行。

今年3月,谷歌曾表示,其内部模型Aletheia成功攻克了6道来自FirstProof第一批测试集的难题 | 图源:https://arxiv.org/pdf/2602.21201

第二批测试的10道题目来自各数学领域的一线研究者,覆盖范围从可计算性理论(computability theory)、离散几何(discrete geometry)到随机偏微分方程(stochastic partial differential equations)和冯·诺伊曼代数(von Neumann algebras),跨度足以检验AI在不同数学分支中的普遍能力。所有题目有一个共同的关键前提:它们出自研究者在工作中自然遇到并已解决的问题,但截至测试时既未发表,也未曾出现在互联网上。这是整个测试设计的核心,只有这样,才能切断AI在训练数据中检索答案的可能。

在正式测试开始前,出题者须在零数据留存(Zero Data Retention)环境下对候选题目进行预测试,使用的模型包括ChatGPT 5.4/5.5、谷歌Gemini 3.1 Pro以及Anthropic Opus 4.7。为期一周的预测试表明,没有任何单一模型能够在30分钟内解出这些题目。两道候选题目在此阶段被淘汰:一道因为模型的回应直接找到了文献中的类似已有结论,另一道由于模型检索到了一篇足以快速推导出答案的相关论文,出题者主动撤回。

进入正式测试的共有四个系统,参赛资格要求所有系统必须以公开可用模型为基础,通过应用程序API调用运行,且必须向First Proof完全公开代码和运行日志。

系统A名为ProofCouncil,由瑞士苏黎世联邦理工学院和丹麦奥胡斯大学的学术团队开发,主要基础模型是ChatGPT 5.5 Pro,同时也调用了其他几个模型协作;系统B是加州大学洛杉矶分校的Moonshot Harness,研究团队包括知名数学家陶哲轩(Terence Tao)等人,基础模型同样为ChatGPT 5.5 Pro;系统C是代表OpenAI直接参赛的ChatGPT 5.5 Pro;系统D名为Momus,由普林斯顿大学开发,以谷歌Gemini 3.1 Pro为主要基础模型。

值得一提的是,谷歌内部专为数学设计的Aletheia系统,以及Anthropic尚未向公众开放的Claude Mythos完整版,均因不满足“公开可用”的条件而未能参赛。

测试于5月底在亚马逊AWS的独立服务器上运行,全程由First Proof团队操作,以确保任何系统都无法获得来自人类的额外帮助。每个系统对每道题只有一次机会,须在24小时内完成,并以格式规范的LaTeX文档提交答卷。随后,评审工作在哈佛大学数学科学与应用中心举行,30位相关领域专家以匿名方式参与,仿照数学期刊同行评审的流程,将每份答卷评定为“无实质性问题”“需小幅修改” “需大幅修改”或“应予拒绝”四个等级,前两个等级被视为通过性评级。

测试过程 | 图源:First Proof

从整体成绩来看,四个系统提交的所有答卷中,有7道题至少有一份答卷获得了通过性评级,另有2道题至少有一份答卷被评为需大幅修改,而第4题(度量几何)则全军覆没。

四套AI系统的总成绩 | 图源:First Proof

表现最好的是使用了多个模型的系统A。它在第1、2、3、9题获得需小幅修改的评级,在第5题(随机偏微分方程)和第7题(组合拓扑)获得最高等级的无实质性问题,在第10题获得需大幅修改,第4、8题被拒绝,第6题因与OpenAI接口的技术故障未能提交。

评审认为,若非这一技术问题,系统A在第6题上大概率也能获得最高等级的评定。不过,总计6道题获得通过性评级,也让系统A略胜一筹。系统B(UCLA)和系统C(OpenAI)各有5道题获得通过性评级。系统D(普林斯顿)只有第7题通过,其余9道题均遭拒绝,但很大一部分原因是技术问题。

本次测试中最引人注目的成功发生在第5题。这道题要求证明或推翻一个带狄拉克δ漂移项的随机热方程最多只有唯一的不变概率测度。

题目来自三名数学家之手,他们从2025年10月开始讨论这道题,于2026年1月完成证明,历时数月且需要三人协作,各自负责不同的数学工具。

系统A给出的证明走了一条与人类解法完全不同的技术路径。它的核心是将来自数学家Khoa Lê的随机缝合引理(stochastic sewing lemma)用于建立一个漂移估计,然后通过吉尔萨诺夫熵界(Girsanov entropy bound)推导出过渡概率相对于高斯不变测度的绝对连续性,从而证明唯一性。三位评审均将其评定为“无实质性问题”,并指出,系统A建立的中间结论比人类解法更强,是一条真正新颖的证明路径。

反差最强烈的失败出现在第4题,由麻省理工学院(MIT)数学家拉里·古斯(Larry Guth)提出的一道关于4维矩形之间度量映射的命题。四个系统无一通过,而系统C(ChatGPT 5.5 Pro)的答卷出现了一种特别值得关注的错误:它出现了幻觉,声称古斯2007年的论文《矩形的面积扩展嵌入》(Area-expanding embeddings of rectangles)中存在一个与待证命题几乎等价的“引用定理”,然后从这个定理出发,推导出了结论。

三位评审均发现了AI的幻觉,其中一位指出,系统C“捏造了一个与待证命题完全吻合的文献定理,然后将待证定理直接推导出来“。检索该论文实际内容,对应章节中根本不存在任何此类陈述。

此外,引用问题在多道题中反复出现,构成了本次测试最系统性的缺陷。评审报告记录了两类具体问题:遗漏应当引用的文献,以及提供了实际上并不支持所述命题的错误或虚构引用。

在第1题(可计算性理论)中,系统B和系统C的答卷大量借鉴了图列茨基(Turetsky)关于可计算范畴结构自同构群编码的已有工作,却完全未予引用。第2题(离散几何)的情况则是开头提到的,多个系统的答卷在论证的第一部分几乎逐行照搬出题者施瓦茨早年发表的论文,却没有在任何地方引用这篇论文。

报告还指出了AI答卷的另一个规律性缺陷:在论证中,常规部分往往处理得繁琐而详尽,而在真正困难的关键步骤上却语焉不详,有时以“由标准论证可得”一笔带过,或引用实际上不包含该结论的论文来规避对难点的正面处理——这种做法,像极了我们在数学考试中做证明题,做到一半,发现证不下去,就开始乱写,然后祈祷不会被老师发现。

在成本维度上,各系统之间的对比颇具意味。系统A在整个测试中共花费3186美元,其中大部分输入tokens命中了缓存,压低了成本;系统B花费4799美元;系统C(不附加任何外层框架的ChatGPT 5.5 Pro)仅花费117美元;系统D花费1014美元。

系统C的通过题目数与系统B相同(均为5道),成本却不到后者的三十分之一。这组数字说明,学术团队在基础模型之上构建的多步骤协作框架(harness)可能会提升质量,但代价相当巨大,性价比的边际效益有限。

四套系统的成本和耗时 | 图源:First Proof

测试结果还揭示了一个有规律意义的模式:当一道题在结构上与文献中的已有结果高度相似,AI的表现会明显好转。

第2题与施瓦茨本人的已发表研究在证明结构上直接相关,三个系统都给出了通过性答卷;第7题(组合拓扑)的答案是一个反例,四个系统都独立找到了这个反例,分歧仅在于写作质量。

相反,需要真正原创洞见、无法依靠文献结构转译的题目则普遍令AI遭遇困难。这与报告中另一个观察相互印证,AI有时确实能给出与人类解法截然不同的新颖证明(如第3、5、9题),但这类成功并不稳定,与之并存的是对大量证明关键步骤的遗漏或掩盖。

First Proof项目并未就此停步。6月17日,该项目启动了面向公众的社区实验,在开放论坛上陆续发布一批规模较小的题目,预计一周后公布人类答案,并组织参与者公开交流各自使用的系统和方法。第三批正式测试计划于2026年8月至10月进行。

社区实验共有两道题,感兴趣的可以挑战一下:https://1stproof.org/assets/docs/batch2-community-week1.pdf

这场测试粉碎了关于AI将全面接管纯数学研究的末日论,至少目前是这样。测试表明,在当前的技术范式下,AI 更适合扮演一个强大但不能做到100%可靠的科研助手(如在问题3和问题5中的创新点),而非一个能够独立提出深刻猜想、构建理论框架的科研机器。

数学家亨利·庞加莱(Henri Poincaré)有一句名言:我们靠逻辑来证明,但要靠直觉来发明。这句话一语道破了数学乃至其他科学研究领域的本质,而直觉与逻辑的分别,或许正是理解这次测试结果的钥匙。

在逻辑执行层面,AI已展示出相当的能力,有时甚至能找到数学家没有走过的证明路径。但在直觉层面——识别哪个方向值得追逐,在最困难的环节做出决断——人工智能与人类之间的距离,仍清晰可见。

回到文章开头施瓦茨那道关于莫比乌斯纸带的题目。AI在那道题上几乎复制了他本人论文里逐行的论证,却忘了写下他的名字。

这或许是一个意外恰当的隐喻。AI此刻最擅长的事,是在已经存在的思想结构里寻找捷径、转译、复用,却还没有学会科学研究中最朴素的道理:一个想法是谁先想到的,记得把这份贡献还给谁。

参考资料

[1] https://1stproof.org/index.html

[2] https://1stproof.org/documents/First_Proof_March_14_Announcement.pdf

[3] https://1stproof.org/assets/docs/report.pdf

[4] https://github.com/1stproof/batch-2/tree/main

[5] https://www.nature.com/articles/d41586-026-01888-9

[6] https://www.nature.com/articles/d41586-026-01651-0

[7] https://github.com/1stproof/batch-2/tree/main/batch-2-reviews

注:本文封面图片来自版权图库,转载使用可能引发版权纠纷。

特 别 提 示

『返朴』提供按月检索功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的内容目录,以此类推。

版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。