聊聊AI的进展，从词语接龙到自己搞科研

从解小学数学题，到拿下国际奥赛金牌，再到独立证明困扰数学界几十年的猜想——AI 的"认知进化"速度，可能比你想象的快得多。

先别急，我们从幼儿园说起

你可能觉得奇怪：聊 AI 前沿研究，为什么要从小学数学开始？

但你仔细想想，人类小孩学数学也是这么来的——先学比大小，再学用尺子量长度，然后才是四则运算、单位换算……一步都跳不过。AI 其实也一样。

早期的大语言模型（就是 ChatGPT 那一类），本质上是在玩一个超级复杂的"词语接龙"游戏。你给它一句话，它根据统计概率猜下一个最可能出现的词。这玩意儿写文章还行，但你让它做逻辑推理？比如"一根绳子用厘米量是 30，那用分米量是多少？"——早期模型经常一本正经地胡说八道。

为什么？因为它缺了最底层的那块拼图：确定性逻辑。就是"1+1 必须等于 2"这种硬规则，不是"大概率等于 2"。

一个 AI 系统如果连基本的单位换算、比例关系都搞不清楚，你指望它去证明数学定理？做梦呢。

所以，AI 要进化，第一步就是从"概率猜词机器"变成"逻辑推理引擎"。只有把底层的确定性规则吃透了，后面那些高级操作才有可能。

"深度研究"：AI 学会了自己查资料写报告

好，基础逻辑过关了。接下来 AI 干了一件更吓人的事——它学会了自主做研究。

2025 年 2 月，OpenAI 正式推出了"深度研究"（Deep Research）功能。这东西不是你问一句它答一句那种聊天模式，而是你给它一个研究课题，它自己去干活：

先问清楚你到底要什么——它不会拿到题目就冲，而是先反问你几个问题，确认研究方向。
自己拆分任务——把一个大问题拆成一棵子问题树，先搭框架再填细节。
疯狂搜索——在网上跑几十轮搜索，而且边搜边调整关键词。碰到付费墙？绕路。搜到的结果太水？换个方向。
深度分析——不光能读网页，还能解析 PDF、看图表，甚至自己写 Python 代码跑数据。
写成报告——最后整理成一份有引用、有逻辑链条的完整报告。

实测下来，它 30 分钟能干完人类研究员 6-8 小时的活（Every 测评）。有专业人士盲评后说"比实习生写得好"。有建筑师用它生成了一份 15000 字的建筑规范检查清单，综合了 21 个不同来源，省了差不多 15-20 小时的苦力。

当然，它也不是完美的。系统有硬性的刹车机制——搜索次数上限、运行时间上限、迭代次数上限。到了上限还没搞定？那就老实交一份"阶段性报告"，不会假装自己什么都查到了。

Google 这边也没闲着

Google 的 Gemini 深度研究走了一条不同的路——重度绑定企业生态。

OpenAI 的深度研究主要在公开互联网上刨数据，但 Gemini 能直接翻你的 Gmail、Google Drive、Docs、Sheets，甚至团队聊天记录（详细介绍）。你跟它说"帮我做一份竞争对手分析"，它一边抓公开的市场数据，一边翻你公司内部的战略备忘录和产品对比表格，然后合成一份跨越"公共信息+内部机密"的报告。

这个能力对企业来说简直是降维打击。以前做这种分析，你得一个团队忙活好几天；现在一个提示词搞定。

新来的同事要快速上手项目？让 Gemini 帮你扒一遍相关邮件、文档、聊天记录，五分钟给你梳理出项目的来龙去脉和待办决策。

两家的路线对比

简单说：

OpenAI：像一个逻辑能力超强的独立调查记者，擅长在公开信息的迷宫里深挖，适合需要硬核逻辑推演和大规模数据计算的场景。
Google：像一个深度融入公司的超级助理，擅长把你的内部知识和外部情报无缝对接，适合企业和学术场景。

两家在"人类最后考试"（HLE）这个超难的多学科推理基准测试上的成绩：OpenAI 拿了 26.6%，Google 后来达到了 46.4%。别觉得这数字低——这可是一个设计来考验 AI 极限的测试。

从"搜资料"到"搞创造"：AI 开始证明数学定理了

深度研究再厉害，本质上还是在整理和综合人类已有的知识。

但接下来发生的事，性质完全不同了——AI 开始创造新知识。

怎么检验一个 AI 是不是真的"会思考"而不是在背答案？数学界给出了最残酷的考场：让它证明定理。因为在纯数学的世界里，你背再多训练数据也没用，只有逻辑推演才能通关。

AlphaGeometry：神经网络 + 符号引擎的梦幻联动

Google DeepMind 搞了一个叫 AlphaGeometry 的系统，专攻国际数学奥林匹克（IMO）级别的几何题。

它的架构特别精妙，本质上是两个"大脑"在配合：

神经网络大脑：负责"直觉"。就像人类做几何题时灵光一现——"如果我在这里加一条辅助线呢？"神经网络就是干这个的，猜测哪些辅助构造最可能通向答案。
符号推理大脑：负责"严谨"。拿到神经网络的猜测后，它会用冰冷的逻辑一步步验证，绝不放过任何漏洞。

两个大脑轮流上场：符号引擎先推，推不动了就让神经网络加个辅助点，然后符号引擎接着推……如此循环，直到找到答案。

成绩？30 道 IMO 级别几何题解出了 25 道，之前最好的方法只能解 10 道。它甚至还发现了一个 2004 年 IMO 定理的更一般化版本——等于是自己"发明"了一个新定理。

2025 年 7 月：AI 拿下 IMO 金牌

故事的高潮来了。

2025 年 7 月，Google DeepMind 宣布：搭载"深度思考"（Deep Think）功能的 Gemini 模型，在 IMO 中达到了金牌水平。满分 42 分拿了 35 分，6 道题完美解了 5 道，涵盖代数、组合、几何、数论四大类。

IMO 主席与协调员按照对人类选手同样的标准进行了独立评阅，给出的评价是"令人惊叹"、"清晰"、"精确"。

这次突破和之前有一个本质区别：以前的系统需要人类专家花好几天把题目手动翻译成形式化语言，AI 才能开始算。但这次，Gemini 直接读题目原文，在 4.5 小时的正式比赛时间内自主写出完整证明。完全端到端，不需要人类当翻译。

它是怎么做到的？DeepMind 把成功归因于三板斧：

并行思考：不走单一路线，同时探索多条解题路径，像多核 CPU 一样并行验证不同假设。
深度强化学习：在海量的数学推理数据上训练，学会了在漫长的推理链中不跑偏、不放弃。
专家知识库：给模型喂了精选的高质量数学解答和解题技巧，教它"像顶级数学家一样思考"。

不过也别太乐观——它在最难的第 6 题上得了零分。在需要那种"天才灵光一闪"的极限前沿，AI 还有明显的盲区。

Aletheia：AI 开始做"真正的科研"了

拿 IMO 金牌很牛，但说到底，奥赛题是"被设计好的谜题"——一定有答案，知识范围也有限。

真正的数学研究完全是另一回事：没人保证问题有解，你得在浩如烟海的文献里自己找方向，构建跨越多个领域的长链证明，还得在完全未知的空间里摸索。

为了攻克这个终极挑战，DeepMind 打造了 Aletheia——名字来源于希腊语的"真理"女神。这不是一个解题器，而是一个完整的自主数学研究代理。

700 道未解之谜的大扫荡

2025 年 12 月，Aletheia 被放进了 Bloom 的 Erdős 问题数据库，面对 700 个至今未被人类解决的数论和组合几何猜想。

结果怎么样？

Aletheia 自己筛选出 212 个它认为已经搞定的。
人类初步检查后，留下 63 个看起来靠谱的。
顶级专家最终确认：13 个问题被正确解决了。

这 13 个突破可以分成四类：

🏆 完全自主解决（2 个）——这是真正的创造。其中 Erdős-1051 被学术界视为重量级里程碑：Aletheia 巧妙地把不同理论框架的工具串联起来，彻底搞定了一个困扰数学界几十年的难题。

🔧 部分攻克（2 个）——面对包含多个子问题的复杂猜想，AI 成功拿下了其中的关键部分。

🔄 独立重新发现（4 个）——Aletheia 从零开始，纯靠逻辑推出了完美的证明……但后来人类专家发现，这些证明其实早就存在于某些极其冷门的文献里。也就是说，AI 用纯推理"重新发明了轮子"，和顶级数学家的思路完全平行。

📚 文献纠错（5 个）——AI 发现这些所谓的"未解问题"其实早就被别人解过了，只是数据库标记错了。相当于帮学术界做了一次大扫除。

更吓人的：FirstProof 挑战赛

Aletheia 还参加了首届 FirstProof 挑战赛，面对 10 道连人类学者都没达成共识的前沿数学问题，自主解决了 6 道（第 2、5、7、8、9、10 题）。

有趣的是，有一道题（第 8 题），连人类专家评委自己都吵起来了，对 AI 的解答意见严重分歧。这意味着什么？AI 的推理在某些维度上，已经触及甚至超越了部分人类专家的理解边界。

AI 当上了论文第一作者

前面说的还只是"解题"，接下来这件事才是真正的分水岭——AI 独立写出了可以发表的学术论文。

代号"Feng26"的论文，由 Aletheia 在没有任何人类指导的情况下完全自主生成。它深入算术几何这个极其抽象的领域，自主发现了研究空白，执行了底层计算，设计了新证明，最后还自己写成了符合学术规范的论文手稿。

从发现问题到写完论文，全程零人类干预。

当然，更现实的模式是人机协作。比如论文"LeeSeo26"，人类研究员和 Aletheia 联手攻克了关于相互作用粒子系统的复杂问题——AI 当假设生成器和逻辑验证引擎，人类把控物理直觉和大方向。

还有"BKK+26"论文，起因是 Aletheia 自己搞定了 Erdős-1051 猜想，人类数学家拿过来一看，觉得这个证明方法太妙了，于是和 AI 合作把它推广成了一个更普遍的数学定理。

但问题也来了

说完了激动人心的部分，也得泼点冷水。

"潜意识剽窃"的隐患

AI 在预训练时吞了海量数据。谁能保证它"证明"出来的东西，不是从某个角落的训练数据里隐性记忆出来的？Aletheia 论文的作者们专门讨论了这个问题：他们通过审查推理轨迹，确认某些解法并非直接检索文献，而是通过内部推理得出——但这种甄别机制还远不够成熟。学术界需要更系统的审计工具来区分"真正的新证明"和"高级复制粘贴"。

人类语言太模糊了

Aletheia 在处理一些猜想时频繁卡壳，原因居然是——人类数学家写问题时太随意了，省略太多，用了一堆约定俗成的说法，AI 的逻辑引擎理解不了。最后还得人类专家来当"翻译"。

谁的功劳？

当 AI 参与了一项科研成果，知识产权怎么算？目前的做法是采用"人类+系统名称"的联合署名方式，并在方法部分详细披露 AI 在各环节的参与程度。学术界也在呼吁建立更细化的"AI 贡献等级"分类标准。

不只是数学：AI 正在改变整个科学

同样的底层能力——海量数据处理 + 严密逻辑推理 + 自主假设验证——正在被应用到更多领域：

基因组学：DeepMind 的 AlphaMissense 可以对数百万种潜在的点突变进行致病性评分，帮助筛查罕见遗传病的病因。AlphaGenome 更进一步，能在不到一秒内评估一个基因突变对各种分子属性的潜在影响。
地球科学：AlphaEarth Foundations 把多种卫星、雷达和激光雷达的数据融合成统一的高维"地球嵌入"表示，以约 10×10 米的分辨率测绘全球陆地和近海区域，加速生态分类和环境变化分析。
天气预报：WeatherNext 用 AI 替代传统的超算数值模型，推理速度比传统方式快约 8 倍，能在同等时间内评估更多可能情景，提高对极端天气的捕捉能力。

这些应用和 Aletheia 共享同一条进化主线：自主摄取数据 → 严密逻辑分析 → 生成超越人类处理能力的科学结论。

写在最后

回头看这条进化路径：

学会基础逻辑 → 学会自主查资料写报告 → 学会证明数学定理 → 学会独立做科研发论文

这不就是一个人从小学到博士后的成长轨迹吗？只不过 AI 用了几年走完了人类几十年的路。

未来的画面大概是这样的：人类负责提出那些充满直觉跳跃的"大问题"，设定探索的方向和伦理边界；AI 负责扫清所有技术障碍，不知疲倦地计算、推理、验证。

人类不再需要花大量时间在数据清洗、文献比对、中间推导这些苦力活上。我们的角色，是那支超级 AI 研究团队的战略指挥官。

这到底是令人兴奋还是令人不安？大概两者都有吧。但有一点很清楚：这趟列车已经开动了，而且正在加速。

延伸阅读 & 参考资料

深度研究

OpenAI Deep Research 官方介绍

Deep Research 工作机制详解 — PromptLayer

实测报告："我们试了 OpenAI 的深度研究" — Every

Gemini Deep Research 企业集成 — Google Blog

Gemini Deep Research 使用指南 — Skywork

Gemini 在 HLE 上达到 46.4% — LinkedIn

数学推理 & 定理证明

AlphaGeometry 论文 — Nature

AlphaGeometry 社区讨论 — Reddit

Gemini Deep Think 达到 IMO 金牌水平 — DeepMind 官方博客

ChatGPT 和 Gemini 的 IMO 表现对比 — Champaign Magazine

Aletheia & 自主数学研究

Aletheia 代理架构 — arXiv 2602.21201

Erdős 猜想实验 — arXiv 2601.22401（PDF）

AI 论文成果 Feng26 / LeeSeo26 — arXiv 2601.21442

FirstProof 挑战赛 — ChatPaper

BKK+26 讨论 — Reddit r/singularity

跨学科科学应用

AlphaMissense & 生命科学 — DeepMind

AlphaEarth Foundations 地球测绘 — DeepMind

WeatherNext AI 天气预报 — DeepMind