极客FUN 陶哲轩最新演讲：AI 将催生出一个大数学时代

【编者按】日前，菲尔茨奖获得者、华裔数学家、加州大学洛杉矶分校教授陶哲轩在牛津数学公开讲座中，探讨了人工智能（AI）在数学和科学领域中的潜力，以及它将如何与人类的智力协同作用，推动一个全新的数学时代。
他详述了 AI 在数学证明和计算中的应用，并展望了未来 AI 可能带来的革命性变化。从自动化证明到改变传统的数学研究方式，陶哲轩的见解为我们揭示了一个充满无限可能的未来。
他表示，他对 AI 如何潜在地改变数学感到非常兴奋。虽然变革还没有发生，但它即将到来。核心观点如下：

人工智能是一项了不起的技术，会加速科学和数学，但它不是一种“魔法”，有时有点被夸大了。
人工智能基本上是一台猜测机器，是一个可以让你输入信息的软件，实现方式在数学上是相当普通的。
当人工智能发挥作用时，真是太神奇了，但当它不起作用时，情况可能会非常糟糕。
尽管人工智能具有巨大潜力，但安全性尚未达标。在下行风险很小的场景，人工智能有很好的应用前景。
与许多其他学科相比，将人工智能应用于数学的负面影响要小得多。
人工智能使得真正的大型数学项目成为可能。
人工智能和数学将会产生巨大的协同作用，催生出一个大数学时代。

学术头条在不改变原文大意的情况下，做了简单的编译。演讲内容如下：（文字仅为演讲部分，完整版版请见文末视频）

陶哲轩：很高兴来到这里，我真的很享受在伦敦的时光，这里非常热情好客。
我要谈谈人工智能（AI），当然每个人都听说过它，它有望改变世界，我确实认为它会改变科学和数学，这是一项了不起的技术，但有时有点被夸大了，它不是一项神奇的技术。
如果你真正了解人工智能系统运行的具体细节，你会发现其中有些数学，但实际上在大多数情况下并不是最先进的数学，从非技术角度来说，人工智能基本上是一台猜测机器，是一个可以让你输入信息的软件，像是文字查询之类的，并产生输出，也许是一些文字、图像或一些数字。
实际上，它的实现方式在数学上是相当普通的，只需接受你的输入，把它分成小部分，将每个单词或任何东西编码为数字，将这些数字乘以权重，然后将它们结合起来，也许会先截断它们，然后再将它们乘以权重并将它们结合起来，这样做几百次左右，就会得到答案。从数学上来说，这其实相当无聊，如何找到权重，更有趣一点，人工智能不是魔法，但它可以加速各种东西。
我打一个比方，想像一下，在这个世界上，动力飞行器还没被发明，我们只有汽车、卡车、船只以及海上的交通，然后有人在某一天发明了喷气发动机，最初这些发动机非常小，只是一个玩具，什么也做不了，但之后越来越强大，最终可以实现旅行，比最快的车辆还要快十倍。然而，你仍然需要发明飞机，你不能只是将喷气发动机绑在汽车上，并期待好的结果，这不是一个好主意，你必须改变对交通的看法，设计新的安全协议、新的仪器和理解物理定律的新方法。它仍然不是魔法，它不像《星际迷航》中的运输器，它仍然遵守物理定律，只是规模不同。
实际上，人工智能与很多我们每天都在使用的软件类似，但有一个关键的差异是，我们现在使用的软件有点无聊且没有创意，你给定一个输入，每次都会得到相同的输出，你在网页浏览器中输入地址，你将获得该地址下的任何内容，如果你输入错误的地址，你将被带到其他地方，非常可预测。人工智能恰恰相反，尤其是当前流行的大语言模型（LLM），它们更有创意，你不必学习某种程序语言，你只需输入自然语言，就可以使用它们，即使你输入了一些错误的信息，它仍然可以理解你的意思，但这是以牺牲可靠性或可预测性为代价的，你给它两次相同的查询，会得到不同的答案，且不能保证答案是正确的，这是一台猜测机器，它试图给你一个猜测的答案，它实际上并没有思考如何实际生成这些东西，但有时能做的事情却是惊人的。

去年 GPT-4 刚出来时，有团队测试了它的能力，他们给了它一些数学奥林匹克竞赛中的问题，这是竞争非常激烈的高中数学竞赛，事实上，巴斯现在就有一个这样的一个活动，这个周末我将前往那里参加闭幕式，我们的主办单位 XTX 也资助了一场大型人工智能竞赛，最终目的是看看人工智能是否真的可以解决同样的问题，只有几百名高中数学学生能够完美解答这个问题，因此，他们向它提出了许多最近的奥数问题，有时它完全正确地回答了问题，这是它们发布的一个我们可能看不到的答案，但对高中数学的真正拔尖学生来说，这是一个相当具有挑战性的问题，而 GPT-4 一步一步给了这个特定问题的完全正确的证明。这是一个精心挑选的例子，我认为他们测试了几百个问题，成功率只有 1%。
所以，当它发挥作用时，真是太神奇了，但当它不起作用时，情况可能会非常糟糕。

在同一篇论文中，他们要求它计算一个简单的算术问题 7*4+8*8，它所做的就是猜测，直接给出了 120，随后它停了下来，好像说，“也许我需要给出一些解释”，它于是计算出了每一步，7*4 和 8*8，然后放在一起，得到了与最初猜测不同的答案，92。然后，实验者说，“等等，你之前说答案是 120”，它们说，“这是一个错误，正确答案是 92”。
所以，从本质上讲，这些技术，至少在目前的层次上，还没有能力……它们实际上没有正确性的基本事实，人们尝试通过实验来迫使它一步一步地思考，而不仅仅是猜测答案，这样做确实有一点帮助，但这些都是“黑客”行为，我们不是……它们不像专家那么可靠，尽管它们有时可以给出专家级的输出，或至少是类似专家级的输出。
那么问题来了，我们要如何使用这项技术呢？这是一种不同的技术，我们已经习惯了以前会犯错的技术，这些糟糕的技术会产生劣质的输出，但通常当一个程序或技术产生不好的输出时，你可以说它很糟糕，就像……它看起来不像真的。但实际上，人工智能在设计上，权重是专门选择的，以便答案尽可能接近正确答案，因此，即使它们错了，它们看起来也非常有说服力，因此，现有的感知如何检测某事物何时看起来不错和看起来很糟糕，尤其是当你想以任何可能造成实际伤害的方式使用它时。
例如，如果你想使用人工智能来做出医疗决策或财务决策，甚至作为治疗师，这些文本生成器有可能成为很好的伙伴，但也可能给出非常糟糕的建议。
因此，在许多领域，尽管人工智能存在巨大潜力，但安全性尚未达标。这就像你发明了喷气发动机一样，你可以用它快速模拟出某种动力飞行器，但要真正达到让公众都觉得安全的状态可能还需要几十年的时间，航空旅行目前是当今按英里小时计最安全的旅行，尽管这显然是一项危险的技术，这些问题将会得到解决并且是可以解决的，但你必须真正考虑安全问题，你必须假设它会发生。
另一方面，在下行风险很小的场景，人工智能也有很好的应用前景。例如，你可能已经注意到，报告中的所有背景幻灯片都是由人工智能产生的，也许你已经注意到一些缺陷，人工智能在生成文字方面仍然很糟糕，但它正在慢慢变得更好，且下行风险很小，所以它只需看起来令人信服即可，背景图片不是我演讲的主要、核心部分。因此，在某些应用中，这样的下行风险确实是可以接受的。
尤其是，在科学领域，降低错误和偏见风险的一种方法是科学验证，尤其是独立验证。如果有一些方法可以结合人工智能真正强大的输出，通过独立验证把垃圾过滤掉，只保留好东西，就会有很多潜在的应用程序出现。
再打个比方，水龙头可以产生一定量的饮用水，但它能产生的数量是有一定限制的，突然间，我们有了大型消防水龙带，它可以产生 100 倍的水，但这些水不能直接饮用，如果你有一个过滤装置，过滤掉那些不可饮用的部分，你就拥有了大量的饮用水。这就是我所看到的科学和数学的发展方向。
目前，很多科学领域都面临着瓶颈，需要好的候选者来解决问题，也许你正在从事药物设计，想找到一种治疗某种疾病的药物，你必须先想出一种药物，也许来自自然或通过修改药物的方式，然后你必须合成它，你必须进行一个多年的试验，第一阶段试验，第二阶段试验……而且这些试验非常昂贵，所以目前只有大的药厂才能一直做到这一点。实际上，你试验的许多药物并不起作用，而且你必须要在这个过程中的某一时刻放弃它们，有时你很幸运，虽然它们并不能治愈疾病，但它们在其它方面能够发挥作用，问题是，你仍然需要进行很多次尝试、面对很多个错误。
人工智能技术有望减少候选者的数量，而且人们现在已经在使用它来模拟蛋白质了，有了足够的数据，你就可以对各种药物的功能进行建模，基于现有临床试验的数据等，你可以找到利用人工智能治疗各种疾病的有希望的候选药物，但之后你仍然需要进行临床试验，所以你仍然需要科学验证的黄金标准，但不再是 100 个候选者，也许你只需测试 10 个，就可以找到有效的方法。
材料科学是另一个将取得巨大突破的领域。几十年来，人们一直希望找到一种可以在室温下工作的超导体，尝试过不同的材料，但都失败了，尽管有时至少取得了很大的进步，但最终还是失败了。同样，你可能可以跳过昂贵的合成过程，如果你还可以大幅缩小候选者的数量，这将是变革性的。事实上，人工智能不只是使科学问题的设计环节变得自动化，在合成方面也是如此，人们已经在开发人工智能驱动的实验室，在整个合成过程中，有时需要使用危险化学品，现在可以以更自动化的方式完成。
这是人工智能加速科学的一方面，减少参加昂贵试验的候选者。另一方面，是加速建模。
我们必须对现代世界中的各种事物进行建模。在气候条件下，我们必须对大气和其它地球科学过程进行建模；如果你想建造一条新的高速公路，我们必须对交通进行建模；在宇宙学中，我们要对宇宙进行建模。
但是，模型必须要遵守物理定律。如果你想模拟未来 20 年地球的气候，你需要收集大量的数据，遵循物理定律，但为了使其准确，你必须采取非常小的时间步长，你必须把地球分成非常非常小的网格，你还需要超级计算机和数月的时间。如果你想做一个气候预测，例如，如果二氧化碳水平处于这个水平，20 年后会发生什么？你必须耗费几个月的时间，才能够真正得到合理准确的答案。
原则上，人工智能可以大大简化这个过程。有了超级计算机和大量模拟数据，人工智能可以对这些模型进行训练，并找到合理的最佳拟合，给出预测结果。基于资料中未见的输入，在气候模拟领域，人工智能可以成功恢复传统超级计算机模拟的准确性，只需几个小时，而不是几个月，这种加速非常惊人。
对于中长期天气预报，相比于传统方法，人工智能的预测速度要快 10000 倍，但这并不意味着实际上整个天气预报速度提高了一万倍，因为我们不能总是相信人工智能的输出，我们还不知道如何对这些输出的可靠性进行基准测试。
对于许多预测来说，模拟过程只是步骤之一，其中有一个数据模拟步骤，你必须进行实际测量，并将它们放入模型中，这实际上是一个巨大的瓶颈，特别是对于气候建模，收集数据并将其放入其中，并在运行人工智能模型之前对其进行格式化，这仍然是一个大问题。
但是，人工智能已经开始实际部署，它对于飓风等罕见事件的预测特别有效，你可以在其中利用现有的飓风资料进行训练，不必实际运行物理定律。有一些成功的例子，人工智能已经能够即时预测飓风登陆的位置，比美国国家气象局的预测更准确。因此，任何存在模拟瓶颈的地方，都或许是另一个很好的用例。
实际上，对于气候建模来说，目前可以预见的一件事是，因为运行一个场景需要数月的时间，政府间气候变化专门委员会的预测可能只包含三到四种可能发生的情况，但人工智能可以运行数千个场景，实际上可以获得更丰富的预测。
我是一名数学家，对人工智能如何潜在地改变数学感到非常兴奋，目前已经有了一些用例，但变革性还没有发生，但我认为它即将到来。
与许多其他学科相比，将人工智能应用于数学的负面影响要小得多，如果你要求人工智能解决一道数学问题，而它给的答案是错的，这不会是世界末日。
更重要的是，我们可以独立验证这些证据，在数学中，我们有一个证明正确或不正确的标准，所以你不必相信人工智能。事实上，你可以使用其他电脑软件来验证证明的正确性，而且由于许多其它问题都有一些数学成分，如果你能让人工智能改善数学推理，那是完全有可能的，这可能是一个非常广阔的机会，使人工智能在许多其它用例中更加有用。因此，它们应该与单独的技术非常好地结合起来。这就是所谓的证明助手。
证明助手是一种电脑软件，实际上，它就像一种计算机语言。计算机语言通常输出的是可执行程序，但证明辅助语言不是用于实际做一件事，而是验证一件事，它产生某些陈述正确的证书，既用于数学，也用于工程。
因此，你真的非常想百分之百确定某些电子软件，按照程序设计去做，就像飞机上的电路一样，你想让这个按钮准确地完成这件事，有多种方法可以使用软件来验证这些电子设备，但同样的技术也可以用来验证证据。不幸的是，这非常耗时。
我认为，当代数学家只需要几个月的时间，就可以写出一个中等规模问题的证明，而将其形式化则需要至少 10 倍的时间。通常你无法独自完成这件事，你需要一群人，但它变得越来越快。

数学领域内有许多著名的结果被证明，然后在很多年后才得到形式化验证，但这个过程往往需要相当长的时间，你可能听过四色定理，它在上世纪 70 年代就得到了证明，直到 2000 年代才形式化，克卜勒猜想在 1998 年就被证明了，但它实在太复杂了，以至于产生了许多疑问，证明是否正确？因此，作者托马斯·黑尔斯提出了一个为期 20 年的计划来将其形式化，当他们只用了 12 个小时就完成时，他感到非常高兴。
最近，我和一些合著者解决了组合数学中的一个猜想，我们认为这是一个很好的测试案例，看看现代形式化技术是如何运作的，我们有一个 20 人的团队，在三周内就完成了形式化验证，虽然越来越快了，每个定理很快都会被形式化，但还是不太方便。
我看到凯文·巴札德，他计划将费马大定理形式化，他预计五年内就可以完成其中的重要部分，我认为他并没有声称自己做了全部事情，是的，所以这些变得更快了。
目前，加速主要来自传统方法，我们一直在开发更好的软件库来了解如何使用这些语言，我们使用 GitHub 等现代协作工具，协调如何让很多人一起工作。
我们都知道，到了一定规模之后，数学家们就很难再一起工作了，也许我们五个人可以一起工作，但如果你想要 20 个人一起工作，你们必须相信其他人的数学。这实际上是一个巨大的瓶颈。所以，我们还没有在其他科学领域做大型数学项目，但形式化项目可以规模化，这实际上很有趣，你可以运行 20 人、50 人的项目，其中的很多人都不是专业数学家，也许他们有程序设计背景，但他们做出了有益的贡献。因此，它也使得真正的大型数学项目成为可能。
事实上，人们已经开始尝试使用人工智能来加速形式化项目。这就是弗雷曼-鲁格猜想形式化项目，这实际上是步骤之一，所以这是一个特殊的陈述，它涉及熵，但它到底是什么并不重要，这就是我需要的主张，这种语言有一两行证明，它被称为 Lean，用于验证这一点，你必须准确地思考什么是正确的代码，Lean 是一种非常挑剔的语言，但是，GitHub Copilot 提出了这条特定线路的正确证明应该是什么，在这种特殊情况下，只需要第二行，实际上第一行无法编译，但它足够接近正确，它确实有效，所以我们开始使用人工智能自动填写这些证明的一小步。
随着时间的推移，人工智能将不仅可以做一行证明，甚至自动完成两行、三行证明，最终它将比传统方式更快。我预计，这将成为一种普遍做法，未来我们编写证明的方式是我们将其口授给人工智能，我们将像学生一样与人工智能交谈并解释证明，我们解释的每一步，它都会尝试形式化验证，如果它能做到，那就太好了，如果它不能，它会返回，你只需来回迭代即可，我认为这会比传统方式做数学更快。
另外，如果你想稍微改一下证明，改变其中一个假设，通常你必须改变每一行，并且这样做会犯很多错误，事实上，即使以目前的技术，在证明过程中改变一个小参数要快得多，并且可以保证你不会犯任何错误，只需更改需要更改的行，实际上，正式做要方便得多。
所以，我认为人工智能和数学将会产生巨大的协同作用，将会催生出一个大数学时代。是的，有很多事情都将要发生。
好的，我想这是我演讲的最后一个部分。谢谢。
演讲及访谈完整版：

｜点击关注我 👇 记得标星｜

陶哲轩最新演讲：AI 将催生出一个大数学时代

OpenAI最新内幕八卦.pdf

写作方式（没有AI）如何降低我的超速票

在不安全的代码示例中培训AI使其广泛邪恶

开源才是未来！李开复：DeepSeek证明闭源是一条死路

从DeepSeek到Qwen，AI大模型的移植与交互实战指南

新书推荐｜《智能涌现》：张亚勤AI时代的变革与思索

Nature重磅：改写AI气象预测，可在台式电脑上运行，速度快千倍