Google靠“外援”,DeepSeek靠“自省”。 《自然》分析:国产奥运数学金牌的AI含金量有多少?

作者 |制作人:刘纯 |网易科技 如果人工智能犯了错误,它能否自行发现并纠正?这听起来像是科幻小说,但现在它已成为现实。著名杂志《自然》高度赞扬了这一人工智能模型,称其为“技术伎俩”。这份报告向人们揭示了一些令人毛骨悚然的事实。 DeepSeek 的新模型不再需要人类老师用红笔对作业进行评分。它有一个内置的“强硬、不知疲倦的考官”,他在打印答案之前一次又一次地提问和辩论。这意味着机器已经掌握了人类最引以为傲的技能:反思。当人工智能开始学会“一日三思”时,我们距离真正的通用人工智能(AGI)还有多远? 120 分中,你中了 118 分吗? DeepSeek的“神”时刻(AI生成图像) 近日,中国人工智能公司DeepSeek宣布了重大消息。推理模型公司数学竞赛DeepSeekMath-V2以压倒性优势击败了世界上最聪明的人类参加世界上最负盛名的大学数学竞赛之一。本次比赛是2024年威廉·洛厄尔·普特南数学竞赛。据预印本平台 arXiv 最近发表的一篇论文显示,该模型在比赛中获得了 120 分中的 118 分,而人类参与者的最高分仅为 90 分。不仅如此,在2025年国际数学奥林匹克(IMO)题目测试中,他答对了6题中的5题,准确率高达83.3%,达到了金牌得主的水平。在2024年中国数学奥林匹克竞赛中也取得了好成绩。更重要的是,它选择了一条与科技巨头完全不同的道路:完全开源。这种无声的“惊喜”或许不仅会变成一枚金牌,还会悄然改写未来人工智能和基础科学研究的游戏规则。不知疲倦的“严厉检查员”:人工智能如何学会自我审查?传统的问题解决方法g AI经常提出问题它就像一个“黑匣子”,你可以在其中输入问题并生成答案。正确或错误的答案几乎是唯一的标准。然而,正确答案背后很可能存在有缺陷的推理或幸运的猜测。当寻求绝对严格的数学证明时,这是一个致命的缺陷。 DeepSeekMath-V2 的主要革命在于它引入了“不知疲倦且要求严格的审查员”。 (AI生成图像)其工作流程是一个精巧的“生成验证”扩展循环。 · 步骤1:证明生成器逐步估计问题解决过程。 · 步骤2:pr checkeruebas 立即启动,几乎严格地逐行检查每一步逻辑,并给出“分数”。 · 步骤3:元验证系统对验证者自己的决定进行第二次审查,看看“验证者”是否睡着了或做出了错误的决定。这种“思想的内部循环”在未来还将持续下去。继续运行直到在生成的测试中没有发现缺陷为止。正如研究人员所说,这种方法可以让人工智能用自然语言进行严格的自检推理,就像真正的数学家一样。这不仅显着降低了“一厢情愿”(事实错误)的可能性,更重要的是,建立了一条更具可扩展性和更低成本的可靠性路径。根源之战:自然语言 vs 机器语言的“内省”符号工具的“外援” 在征服拉兹数学发展高地的征途中,巨头们选择了一条完全不同的技术路线。 DeepSeek 的实力与 Google 形成鲜明对比。 (AI 生成的图像)​​ · Google DeepMind Root:您的 Gemini DeepThink 采用经典但“强大”的解决方案。它依赖于称为 Lean 的外部符号数学系统来验证其推论。这种方法几乎可以完全消除幻觉,但价格昂贵。许多数学专家必须手动编写并修正代码,整个过程消耗大量的计算资源。 · DeepSeek 路线:Math-V2 走了一条不同的路。 OneIt完全依赖于模型本身的自然语言能力来进行“内省”验证。这种方法最大的优点是高效性和可扩展性,大大减少了对人类专家的依赖。就性能而言,IMO 级别测试两者之间没有区别。不过,在几次测试中,相对而言,Math-V2在基本问题上表现出了近乎完美的稳定性,但在困难的state-of-the-art问题上两者仍然竞争激烈。这场“内部思考”与“寻求外部帮助”的斗争还没有结束。为什么选择开源?精心设计的生态游戏。与许多严格控制自己尖端模型的公司不同,DeepSeek 做出了以“Open Weight”形式完全开放 Math-V2 的战略决策。这意味着研究人员和设计人员世界各地的开发者都可以免费访问该模型的所有细节,并可以基于该模型进行自己的实验和娱乐。这绝不是一次简单的技术交流。 (图片由AI生成) ・明牌:瞄准500万美元奖金 直接瞄准硅谷投资人设立的“500万美元AI数学奥数奖”。该奖项的一个基本条件是参赛系统必须开源。一些数学家认为Math-V2是该奖项的最强候选者。 ・潜线:构建生态系统和制定标准。此外,开源正在构建生态系统并制定标准。通过提供一套可复制的高级数学推理训练范例,DeepSeek 吸引了世界上最聪明的人才围绕其技术框架进行创新。这不仅将加速整个领域的进展,还将在人工智能基础研究的地图上竖起明确的旗帜。赢得金牌后edal:人工智能真的可以成为数学家的研究伙伴吗?尽管获得了奥运会的荣耀,但我们必须听到清醒的声音。该竞赛的金牌衡量的是解决已知结构化问题的能力,而研究前沿数学则探索人类认知。边缘是一片充满未知的黑暗森林..(AI生成的图像)​​正如专家坦言,数学领域的领先研究人员仍然无法获得对这些当前模型的研究的实质性支持。尽管人工智能可以以令人惊讶的方式结合已知知识,但要产生真正原创和颠覆性的数学理论和推测,还有很长的路要走。然而,这并没有以任何方式削弱这一进步的重要性。这清楚地表明人工智能已经获得了逐步执行复杂逻辑推理的关键能力。如果通向这一“确定推论”的道路被打开,其影响将超出数学的证明范围。来自加速器通过验证科学计算来帮助生成编程代码和理解系统复杂性,对于能够“自我检查”和严格推理的人工智能来说,可能性是无限的。本次比赛的金牌固然耀眼,但DeepSeek最令人印象深刻的还是它敢于打破技术壁垒的勇气。 (AI生成图) 当巨头们还在试图用算力和闭源构筑护城河时,开源让每一个普通开发者都有机会站在巨人的肩膀上,触摸科学的海洋。人工智能的未来不应由少数人垄断,而应属于全人类智慧的共鸣。这是因为,技术最大的意义从来不是取胜,而是让更多人看到光明。

文章已创建 27

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部