← Back to Blog
EN中文

聊聊AI的进展,从词语接龙到自己搞科研

从解小学数学题,到拿下国际奥赛金牌,再到独立证明困扰数学界几十年的猜想——AI 的"认知进化"速度,可能比你想象的快得多。


先别急,我们从幼儿园说起

你可能觉得奇怪:聊 AI 前沿研究,为什么要从小学数学开始?

但你仔细想想,人类小孩学数学也是这么来的——先学比大小,再学用尺子量长度,然后才是四则运算、单位换算……一步都跳不过。AI 其实也一样。

早期的大语言模型(就是 ChatGPT 那一类),本质上是在玩一个超级复杂的"词语接龙"游戏。你给它一句话,它根据统计概率猜下一个最可能出现的词。这玩意儿写文章还行,但你让它做逻辑推理?比如"一根绳子用厘米量是 30,那用分米量是多少?"——早期模型经常一本正经地胡说八道。

为什么?因为它缺了最底层的那块拼图:确定性逻辑。就是"1+1 必须等于 2"这种硬规则,不是"大概率等于 2"。

一个 AI 系统如果连基本的单位换算、比例关系都搞不清楚,你指望它去证明数学定理?做梦呢。

所以,AI 要进化,第一步就是从"概率猜词机器"变成"逻辑推理引擎"。只有把底层的确定性规则吃透了,后面那些高级操作才有可能。


"深度研究":AI 学会了自己查资料写报告

好,基础逻辑过关了。接下来 AI 干了一件更吓人的事——它学会了自主做研究

2025 年 2 月,OpenAI 正式推出了"深度研究"(Deep Research)功能。这东西不是你问一句它答一句那种聊天模式,而是你给它一个研究课题,它自己去干活

  1. 先问清楚你到底要什么——它不会拿到题目就冲,而是先反问你几个问题,确认研究方向。
  2. 自己拆分任务——把一个大问题拆成一棵子问题树,先搭框架再填细节。
  3. 疯狂搜索——在网上跑几十轮搜索,而且边搜边调整关键词。碰到付费墙?绕路。搜到的结果太水?换个方向。
  4. 深度分析——不光能读网页,还能解析 PDF、看图表,甚至自己写 Python 代码跑数据。
  5. 写成报告——最后整理成一份有引用、有逻辑链条的完整报告。

实测下来,它 30 分钟能干完人类研究员 6-8 小时的活Every 测评)。有专业人士盲评后说"比实习生写得好"。有建筑师用它生成了一份 15000 字的建筑规范检查清单,综合了 21 个不同来源,省了差不多 15-20 小时的苦力。

当然,它也不是完美的。系统有硬性的刹车机制——搜索次数上限、运行时间上限、迭代次数上限。到了上限还没搞定?那就老实交一份"阶段性报告",不会假装自己什么都查到了。

Google 这边也没闲着

Google 的 Gemini 深度研究走了一条不同的路——重度绑定企业生态

OpenAI 的深度研究主要在公开互联网上刨数据,但 Gemini 能直接翻你的 Gmail、Google Drive、Docs、Sheets,甚至团队聊天记录(详细介绍)。你跟它说"帮我做一份竞争对手分析",它一边抓公开的市场数据,一边翻你公司内部的战略备忘录和产品对比表格,然后合成一份跨越"公共信息+内部机密"的报告。

这个能力对企业来说简直是降维打击。以前做这种分析,你得一个团队忙活好几天;现在一个提示词搞定。

新来的同事要快速上手项目?让 Gemini 帮你扒一遍相关邮件、文档、聊天记录,五分钟给你梳理出项目的来龙去脉和待办决策。

两家的路线对比

简单说:

  • OpenAI:像一个逻辑能力超强的独立调查记者,擅长在公开信息的迷宫里深挖,适合需要硬核逻辑推演和大规模数据计算的场景。
  • Google:像一个深度融入公司的超级助理,擅长把你的内部知识和外部情报无缝对接,适合企业和学术场景。

两家在"人类最后考试"(HLE)这个超难的多学科推理基准测试上的成绩:OpenAI 拿了 26.6%,Google 后来达到了 46.4%。别觉得这数字低——这可是一个设计来考验 AI 极限的测试。


从"搜资料"到"搞创造":AI 开始证明数学定理了

深度研究再厉害,本质上还是在整理和综合人类已有的知识

但接下来发生的事,性质完全不同了——AI 开始创造新知识

怎么检验一个 AI 是不是真的"会思考"而不是在背答案?数学界给出了最残酷的考场:让它证明定理。因为在纯数学的世界里,你背再多训练数据也没用,只有逻辑推演才能通关。

AlphaGeometry:神经网络 + 符号引擎的梦幻联动

Google DeepMind 搞了一个叫 AlphaGeometry 的系统,专攻国际数学奥林匹克(IMO)级别的几何题。

它的架构特别精妙,本质上是两个"大脑"在配合

  • 神经网络大脑:负责"直觉"。就像人类做几何题时灵光一现——"如果我在这里加一条辅助线呢?"神经网络就是干这个的,猜测哪些辅助构造最可能通向答案。
  • 符号推理大脑:负责"严谨"。拿到神经网络的猜测后,它会用冰冷的逻辑一步步验证,绝不放过任何漏洞。

两个大脑轮流上场:符号引擎先推,推不动了就让神经网络加个辅助点,然后符号引擎接着推……如此循环,直到找到答案。

成绩?30 道 IMO 级别几何题解出了 25 道,之前最好的方法只能解 10 道。它甚至还发现了一个 2004 年 IMO 定理的更一般化版本——等于是自己"发明"了一个新定理。

2025 年 7 月:AI 拿下 IMO 金牌

故事的高潮来了。

2025 年 7 月,Google DeepMind 宣布:搭载"深度思考"(Deep Think)功能的 Gemini 模型,在 IMO 中达到了金牌水平。满分 42 分拿了 35 分,6 道题完美解了 5 道,涵盖代数、组合、几何、数论四大类。

IMO 主席与协调员按照对人类选手同样的标准进行了独立评阅,给出的评价是"令人惊叹"、"清晰"、"精确"。

这次突破和之前有一个本质区别:以前的系统需要人类专家花好几天把题目手动翻译成形式化语言,AI 才能开始算。但这次,Gemini 直接读题目原文,在 4.5 小时的正式比赛时间内自主写出完整证明。完全端到端,不需要人类当翻译。

它是怎么做到的?DeepMind 把成功归因于三板斧

  • 并行思考:不走单一路线,同时探索多条解题路径,像多核 CPU 一样并行验证不同假设。
  • 深度强化学习:在海量的数学推理数据上训练,学会了在漫长的推理链中不跑偏、不放弃。
  • 专家知识库:给模型喂了精选的高质量数学解答和解题技巧,教它"像顶级数学家一样思考"。

不过也别太乐观——它在最难的第 6 题上得了零分。在需要那种"天才灵光一闪"的极限前沿,AI 还有明显的盲区。


Aletheia:AI 开始做"真正的科研"了

拿 IMO 金牌很牛,但说到底,奥赛题是"被设计好的谜题"——一定有答案,知识范围也有限。

真正的数学研究完全是另一回事:没人保证问题有解,你得在浩如烟海的文献里自己找方向,构建跨越多个领域的长链证明,还得在完全未知的空间里摸索。

为了攻克这个终极挑战,DeepMind 打造了 Aletheia——名字来源于希腊语的"真理"女神。这不是一个解题器,而是一个完整的自主数学研究代理

700 道未解之谜的大扫荡

2025 年 12 月,Aletheia 被放进了 Bloom 的 Erdős 问题数据库,面对 700 个至今未被人类解决的数论和组合几何猜想。

结果怎么样?

  • Aletheia 自己筛选出 212 个它认为已经搞定的。
  • 人类初步检查后,留下 63 个看起来靠谱的。
  • 顶级专家最终确认:13 个问题被正确解决了

这 13 个突破可以分成四类

🏆 完全自主解决(2 个)——这是真正的创造。其中 Erdős-1051 被学术界视为重量级里程碑:Aletheia 巧妙地把不同理论框架的工具串联起来,彻底搞定了一个困扰数学界几十年的难题。

🔧 部分攻克(2 个)——面对包含多个子问题的复杂猜想,AI 成功拿下了其中的关键部分。

🔄 独立重新发现(4 个)——Aletheia 从零开始,纯靠逻辑推出了完美的证明……但后来人类专家发现,这些证明其实早就存在于某些极其冷门的文献里。也就是说,AI 用纯推理"重新发明了轮子",和顶级数学家的思路完全平行。

📚 文献纠错(5 个)——AI 发现这些所谓的"未解问题"其实早就被别人解过了,只是数据库标记错了。相当于帮学术界做了一次大扫除。

更吓人的:FirstProof 挑战赛

Aletheia 还参加了首届 FirstProof 挑战赛,面对 10 道连人类学者都没达成共识的前沿数学问题,自主解决了 6 道(第 2、5、7、8、9、10 题)。

有趣的是,有一道题(第 8 题),连人类专家评委自己都吵起来了,对 AI 的解答意见严重分歧。这意味着什么?AI 的推理在某些维度上,已经触及甚至超越了部分人类专家的理解边界。


AI 当上了论文第一作者

前面说的还只是"解题",接下来这件事才是真正的分水岭——AI 独立写出了可以发表的学术论文

代号"Feng26"的论文,由 Aletheia 在没有任何人类指导的情况下完全自主生成。它深入算术几何这个极其抽象的领域,自主发现了研究空白,执行了底层计算,设计了新证明,最后还自己写成了符合学术规范的论文手稿。

从发现问题到写完论文,全程零人类干预。

当然,更现实的模式是人机协作。比如论文"LeeSeo26",人类研究员和 Aletheia 联手攻克了关于相互作用粒子系统的复杂问题——AI 当假设生成器和逻辑验证引擎,人类把控物理直觉和大方向。

还有"BKK+26"论文,起因是 Aletheia 自己搞定了 Erdős-1051 猜想,人类数学家拿过来一看,觉得这个证明方法太妙了,于是和 AI 合作把它推广成了一个更普遍的数学定理。


但问题也来了

说完了激动人心的部分,也得泼点冷水。

"潜意识剽窃"的隐患

AI 在预训练时吞了海量数据。谁能保证它"证明"出来的东西,不是从某个角落的训练数据里隐性记忆出来的?Aletheia 论文的作者们专门讨论了这个问题:他们通过审查推理轨迹,确认某些解法并非直接检索文献,而是通过内部推理得出——但这种甄别机制还远不够成熟。学术界需要更系统的审计工具来区分"真正的新证明"和"高级复制粘贴"。

人类语言太模糊了

Aletheia 在处理一些猜想时频繁卡壳,原因居然是——人类数学家写问题时太随意了,省略太多,用了一堆约定俗成的说法,AI 的逻辑引擎理解不了。最后还得人类专家来当"翻译"。

谁的功劳?

当 AI 参与了一项科研成果,知识产权怎么算?目前的做法是采用"人类+系统名称"的联合署名方式,并在方法部分详细披露 AI 在各环节的参与程度。学术界也在呼吁建立更细化的"AI 贡献等级"分类标准。


不只是数学:AI 正在改变整个科学

同样的底层能力——海量数据处理 + 严密逻辑推理 + 自主假设验证——正在被应用到更多领域:

  • 基因组学:DeepMind 的 AlphaMissense 可以对数百万种潜在的点突变进行致病性评分,帮助筛查罕见遗传病的病因。AlphaGenome 更进一步,能在不到一秒内评估一个基因突变对各种分子属性的潜在影响。
  • 地球科学AlphaEarth Foundations 把多种卫星、雷达和激光雷达的数据融合成统一的高维"地球嵌入"表示,以约 10×10 米的分辨率测绘全球陆地和近海区域,加速生态分类和环境变化分析。
  • 天气预报WeatherNext 用 AI 替代传统的超算数值模型,推理速度比传统方式快约 8 倍,能在同等时间内评估更多可能情景,提高对极端天气的捕捉能力。

这些应用和 Aletheia 共享同一条进化主线:自主摄取数据 → 严密逻辑分析 → 生成超越人类处理能力的科学结论。


写在最后

回头看这条进化路径:

学会基础逻辑 → 学会自主查资料写报告 → 学会证明数学定理 → 学会独立做科研发论文

这不就是一个人从小学到博士后的成长轨迹吗?只不过 AI 用了几年走完了人类几十年的路。

未来的画面大概是这样的:人类负责提出那些充满直觉跳跃的"大问题",设定探索的方向和伦理边界;AI 负责扫清所有技术障碍,不知疲倦地计算、推理、验证。

人类不再需要花大量时间在数据清洗、文献比对、中间推导这些苦力活上。我们的角色,是那支超级 AI 研究团队的战略指挥官

这到底是令人兴奋还是令人不安?大概两者都有吧。但有一点很清楚:这趟列车已经开动了,而且正在加速。


延伸阅读 & 参考资料

深度研究

数学推理 & 定理证明

Aletheia & 自主数学研究

跨学科科学应用