EP 80: 2026年会成为科学之年吗？AI与科学

走过2025编码之年，迈向2026科学之年 00:00

卢正锡 今天录制时间是2025年12月21日，周日早晨。是的，2025年已经在走向尾声了。要说2025年最大的事件，恐怕还是从Claude Code发布开始的“编码之年”。 2026年会是这样的一年：编码已经结束，接下来科学也将被AI“做完”。现在已经出现了很多这种总结2025、展望2026的讨论。今天就和升准一起把这些内容梳理一遍。

openai.com openai.com

00:40 崔升准 是，关于2026年的展望。也就是说，2025年其实还剩大概10天。今天是21号嘛。

00:45 卢正锡 对，还剩10天。准确地说。

OpenAI 博客《通过 GPT-5.2 推动科学与数学发展》—— 发布于 2025 年 12 月 11 日。介绍文字称 GPT-5.2 在数学和科学领域展现出最强性能。

00:49 崔升准 是，不过最近会有种“2026已经开始渗进来”的感觉。所以我把最近这些timeline里的消息整理了一下。我们之前聊过OpenAI播客、《AI与科学的未来》、Google DeepMind的纪录片The Thinking Game，还有Google DeepMind联合创始人Shane Legg的观点，对吧？所以现在这个脉络其实一直在连起来。

我们之前提到过一些关于科学的“预告片”，而最近10天相关的新闻、证据、迹象都变得非常密集。比如OpenAI在12月11日，也就是大约10天前，发了篇博客《通过GPT-5.2推进科学与数学》。现在连韩文博客都在发了，所以读起来更方便。

与GPT-5.2一起推进科学与数学发展 01:32

OpenAI 研究页面《评估 AI 开展科学研究的能力》—— 说明 FrontierScience 是一个用于评估物理学、化学和生物学领域专家级科学推理能力的基准。

openai.com openai.com

01:49 崔升准 啊，我这边忘贴链接了，应该又出现了一个叫Frontier Science的benchmark。结果就是一旦benchmark建立起来，性能就会上升，这种有点讽刺的情况还在持续发生，总之有这方面的消息。然后GPT-5.2在那篇博客里有个案例其实很有意味，不过内容有点难。这是关于它如何解COLT，也就是Conference on Learning Theory那边公开的问题：先让GPT-5.2 Pro来解，再由专家审核与验证，最终完成证明的案例。

所以在整个过程中，人类的作用不是提供数学脚手架，而是集中在验证和清晰写作上。也就是说模型正在朝这个方向推进。而且这个问题本身也有点“指向性”，它本来就是跟擅长这类能力有关的内容。不过我个人感受是，到今年的编码新闻为止我还能跟得上，但2026年的科学新闻就算读了也不太懂了，大概就是这种感觉。

03:08 卢正锡 没错。其实数学、化学、物理里有很多内容已经远超我们高中或大学学过的层次，因为我们在那边的domain knowledge确实比编码领域明显不足，所以要深入看懂“这到底在讲什么”会比较难，但从整体常识层面，这些技术还是会把“这是什么”表达得比较清楚，多看几次应该也会有收获。

03:33 崔升准 而且借助AI，用AI当杠杆去读这些内容，只要愿意投入，多少还是能抓到一些，但我也会担心这未必能变成真正内化的感觉。

AI改变实验室速度：与机器人结合的生物学研究 03:47

OpenAI 博客《评估 AI 在实验室环境中加速生物学研究的能力》—— 发布于 2025 年 12 月 16 日。介绍称 GPT-5 提出了新的实验室流程改进方案，将分子克隆流程的效率提高了最多 79 倍。

openai.com openai.com

03:49 崔升准 接着这个是几号来着，12月16日，内容是评估AI在实验室环境中加速生物学研究的能力。据说GPT-5把分子克隆协议效率提升了79倍。不过这里如果只看图，最有意思的是“实验室连接”这一点，好像意味深长。也就是说不只是模拟，后半部分有图显示通过机器人系统来跑这些流程，似乎成功做出了“真实实验与数据获取”的反馈回路。还有机器人执行和人类执行的对比也出现了。

04:34 卢正锡 左边单位是什么我没看得特别清楚。

04:39 崔升准 我也没认真看这个。

04:41 卢正锡 大概就是比人类快约2.5倍。

04:49 崔升准 所以是比人类执行更快，而且性能表现相近。

04:56 卢正锡 哇，这发展速度真的太快了。我们之前聊pre-train和RLHF其实也就到2024年8月，而这一切都是GPT-5之后开始的。Thinking模型出来后，大家关注它到底怎么做出来。然后到2025年1月，R1论文出来，Thinking logic是这么构成的，再后来GRPO出来，大家就更相信：只要能构建verifiable reward，这就是模型可以解的游戏。于是编码、数学、逻辑这种由规则主导的部分几乎都被征服了，现在已经跨到科学领域了。

05:40 崔升准 我们上次聊过的Period Labs也是做超导体相关的，有furnace，也就是有窑炉，会烧制、实验，重点是搭建能做这些事情的环境，感觉有点类似。而且如果说2024、2025是工程师发现了模型能做什么，那现在数学家、科学家开始说“在我们domain里也能跑起来了”。

06:06 卢正锡 而且很多科学家都在讲，你刚才展示的人类亲自做实验的那种环境，真实地倒液体、在烧杯之间转移材料的实验环境，我们叫wet lab。那部分其实一直是绝对瓶颈，但AI已经能先用逻辑尽量筛出候选材料和方法论，至于到底对不对，最终reward signal还是要靠真实实验，而实验环境本身也正在被机器人automation。对，所以2026年这种lab会大量出现，不管化学还是生物，每个vertical都要建立自己的verifiable reward，而生物和化学本身又有很多sector，所以看起来2026会是这些东西大量出现的一年。

崔升准 你这么一说我想到Google DeepMind播客里，带Gemini 3的机械臂机器人和人形机器人，虽然不如最近中国冒出来那些fancy机器人那么fancy，但他们这次介绍了很多真正能进实验室用的机器人，大概两周前。所以这应该是连起来的事情。也就是说此前人类在操作烧杯、处理材料这些方面的瓶颈，也会被机器人突破，而且尤其不是“普通机器人”，而是带reasoning能力的机器人，会被投进实验室这种场景。

07:44 卢正锡 Tesla自动驾驶按Elon Musk的说法，如果类比LLM现在就只是instruct模型。但他也在说要加reasoning。对，所以当车辆陷入僵局之类情况时，现在只是靠模型本能地往后退来糊过去，而引入reasoning后，应该会先制定策略再行动。

08:10 崔升准 这种事现在正在多点同时出现，而且接下来还会推进。

攻克数学难题：AI与人类协作（Terence Tao案例） 08:14

卡片式缩略图《埃尔德什问题 #1026 的故事 / The story of Erdős problem #1026》—— 成堆金币通过方向箭头连接成网络图，并配有瓷砖图案的插图。

08:17 崔升准 数学这边有个非常有意思的事件。这是对Terence Tao博客的翻译内容。有位著名数学家Erdős提出的问题，文里有很长篇幅讲怎么解，我把数学公式都让它改成文字解释了，因为有公式我自己也会觉得太难。

但TLDR提炼核心的话，里面有利用群体智慧的部分。也就是线上协作，研究者在Erdős problems网站论坛交换思路，同时有AI工具介入，比如自动定理证明Aristotle，再加上Google DeepMind的AlphaEvolve，这个我理解不是谁都能用，但Terence Tao应该是拿到access在用。

所以有Terence Tao使用AlphaEvolve的内容，也有其他人跑deep research去做文献检索，包括发现人类难以主动连起来的线索。总之是通过多层次、多单元的人机协作来解题，非常有趣。

也就是说，1975年提出的问题如何被解决：先在线协作，再有数学家借助AI工具得到提示，然后Terence Tao看到后说“这个AlphaEvolve能做”，做完又反过来给人类新想法，最后走到最终解。我没有把细节全部吃透，只看了整体流程。结论是“协作已经可行”。而且还出现了与Lean这类证明辅助工具连接的部分。总之就是数学问题正在被解开。不只是Terence Tao及其周边，其他地方最近也在反复出现。Sébastien Bubeck在OpenAI，也是数学家，他转推了很多内容。现在到处都有数学家用GPT-5……比如什么？“解决了自己关于曲线moduli空间交叉数的未解问题。”至少能看出是数学。

所以是在数学某个狭窄domain里通过GPT-5解了问题。这里有个很有意思的表达，我把后面的内容提前说了：数学里有很多low-hanging fruit，是可以借AI摘到的。

11:07 卢正锡 也就是说，反而在高难度domain里存在不少低垂的low-hanging fruit。对，这对我们也有启发。因为在business domain里我们还没进入的领域非常多，所以我也认为里面依然有很多很好的“果子”。

卡片式缩略图《数学证明的现在 Human×AI / The Present of Mathematical Proof Human×AI》—— 白色背景上的手写体签名图像。

11:30 崔升准 这里又有COLT，刚才那个Conference on Learning Theory里出来的另一个问题好像也是。GPT-5.2把它解了。然后这次证明过程、和Lean的连接，连prompt都公开了，这是在翻译某位数学家介绍该过程的内容。但不止这个，类似内容还在持续出现。Sébastien Bubeck转推很多，所以进他的timeline会看到最近在数学和科学领域大量“把模型当杠杆”的故事。这看起来像是“数学证明的现在时”。去年还不是这样，去年几乎没这种声音。

12:17 卢正锡 对，我们开玩笑说地球上所有聪明人都已经接上AI了。过去数学家、物理学家，包括医生律师等专业层，经常说AI还不行，但现在他们真的都把“与AI协作工作”当成默认方式了。所以就会这样。

12:46 崔升准 是啊，是啊。我们在逃亡者联盟里很惊讶的一点是来了很多医疗领域的人。所以就像卢正锡刚说的，2025年初OpenAI播客里那个做黑洞研究的科学家在2025年初还说 “我原本有点负面，但看见能做什么以后就瞬间点开了。”然后马上就跳进去。所以现在很多数学家、科学家以及这个领域的人都开始了，像是“我也参与”。

13:24 卢正锡 没错。我们YouTube有位订阅者留言也提到这点：我们这里说“哇这个模型真好”的通常是昂贵模型。

像GPT-5.2 Pro这种模型，再加上prompting做得很精细才会出现的结果；但很多人只是给免费模型丢一句抽象prompt，得到很弱回答就下结论“AI还不行”，这种情况我们看到很多，确实可惜。学习如何做好prompting依然非常有效。

崔升准 对，是专家抛出好问题，然后反复艰难地back and forth地prompting，发挥群体智慧，才逐步解开；那种“咔哒一下就解决”还不是今天的现实。另外当然也有使用强模型的部分，就像你刚说的，使用当前最旗舰、最前线的模型。

anthropic.com anthropic.com

美国的新挑战：Genesis Mission 14:18

14:18 卢正锡 不过现在还有这个，国防部，也就是美国国防部，准确说是White House，也就是白宫，直接下令了。发布了Genesis Mission。我这边做了整段翻译。Google DeepMind、Anthropic、再到OpenAI都响应了，属于“共同参与”的状态。

把Genesis Mission快速看一遍，本质上是国家级科技挑战任务，有点像过去的阿波罗计划，或者苏联发射Sputnik后60年代美国科学界高度紧张、全力投入，最终与计算机发展联动的那种历史场景。所以确实有类似感觉，总之是要以跨政府方式推进。 Google DeepMind也发布了博客，说将支持Genesis任务，以“国家使命”的方式加速创新和科学发现。

也就是向美国科学家提供尖端AI工具。像刚才Tao能用AlphaEvolve一样，会开放AlphaEvolve、AlphaGenome、WeatherNext，我记得这个可能是super computing方向，让更多人能访问。这些事情此前就在推进了。所以围绕参与这件事，方向就是解决当前挑战，从能源到疾病，再到安全。 Anthropic这边则简要提了下：“参与”。

16:01 卢正锡 这是Manhattan Project级别。中美之间谁先抵达超智能，这直接关系到安全，所以已经形成国家级项目了。

openai.com openai.com

16:16 崔升准 对。阿波罗之前有Manhattan。现在Jared Kaplan也是物理学家。他之前在Johns Hopkins。虽然在科学相关语境上OpenAI和Google DeepMind都在强烈发声，但联合创始人里科学家最多的其实是Anthropic。那里物理学家很多，也大量招了物理学家，所以虽然他们也在全力做编码模型，但也许还有别的盘算，我有这种猜测。然后OpenAI是说和能源部深化合作，展开得更细。内容整体都差不多。

16:57 卢正锡 真让人羡慕。真羡慕。

17:02 崔升准 所以这些脉络现在是，美国有国家级mission，也有证据在不断出现。那我们回到一开始Demis Hassabis的访谈，我来收下这个tab。卢正锡你也看了是吧？

Google DeepMind CEO Demis Hassabis访谈解析 17:14

YouTube 缩略图——Google DeepMind The Podcast。Demis Hassabis 与 Hannah Fry 隔着播客录音室的桌子相对而坐交谈。标题：《The future of intelligence | Demis Hassabis (Co-founder and CEO of DeepMind)》。

17:18 卢正锡 对，看了。Hannah Fry教授我看太多次了，现在很熟。对，感觉是这一季收官篇。

17:26 崔升准 是，今年最后一期Google DeepMind播客。内容还是很有意思，但问题是我短时间看太多，这些内容很快就挥发了。我们边聊边把记忆再调出来吧。

17:42 卢正锡 这段对话很像是在总结一种持续已久的视角变化、sentiment变化。对，今年年初大家还在预测AGI会不会到来、什么时候到来，到后半段已经变成“这是必成之局，只是何时成”。而现在25年收尾时最大的变化是：大家都在把“这一定会成”作为结论收束。

18:12 崔升准 Demis Hassabis本来是很谨慎的人，但Google DeepMind最初使命就是走向AGI。所以他其实是这件事做得最久的团队负责人之一。现在连Demis都说出这种话，发言已经很激进了。

18:32 卢正锡 以前他总是谨慎地说，不管谁说能做到，都还要再观察。

18:38 崔升准 对。所以“科学方法最重要”，这是2024年Google和Google DeepMind合并前他们强调的讯息：我们要谨慎推进，不能追着hype跑，就是这么说的人。

18:56 卢正锡 我们来看看Demis讲的几个要点。

AI与能源：核聚变的未来 19:02

19:02 崔升准 开场很有冲击力，他先讲了一个假设：能源问题被解决。比如核聚变解了，当然也有SMR小型反应堆，但如果核聚变解了会怎样？他是从“丰裕时代图景”切入的。和Hannah Fry对话里也提到这点，感觉像在问他们是不是也在做能源相关，结果确实在做。据说他们宣布了和Commonwealth Fusion的深度合作。这当然也合理。所谓“解了”，正如我们一直说的，能源与智能、瓦特与智能之间是可互换关系。

19:39 卢正锡 没错。我们现在不太说“NVIDIA GPU几张”了。这是申正奎代表说过的，要用电力量来换算算力，已经成了新单位。现在千兆瓦、吉瓦级好像成了一个基准。

19:58 崔升准 是啊。所以现在听起来有点SF，但如果能源问题解决了，很多现有问题就会消失。开头就是这么铺的。

20:06 卢正锡 对，都可以替代。

20:08 崔升准 所以如果能源便宜、可再生、清洁，而且有24小时365天持续生产的能源，那最终也会被用到AI上。开头有这种很具想象力的讨论。接着他说当前还是起伏很大，大概只走到50%。显而易见的问题确实存在，也确实波动，但不是不可解的问题。

数据枯竭的终点？AI的自我学习与进化 20:37

20:41 崔升准 数据枯竭这件事好像在后面提到过。结论是并非如此，数据完全可以生成，而且也会走向摆脱人类依赖型数据的体制，这部分就是重点。如今缺的是online learning，也就是continual learning，当前还不完善，但字里行间已经在处理这些问题。

上次Shane Legg那期也是，我们能读到类似观点。然后这部分里Hannah Fry问了Google DeepMind过去的态度：是不是应该更久地关在实验室里？Demis说合并后自己也大量参与产品发布，所以这种路径也有好处。于是就是有失有得。

他说如果更久关在实验室，也许已经解决癌症了。也就是说若更集中在做AlphaFold这类东西，可能能解那类问题；但真实做产品也带来了很多收获和可能性。对。然后他说这制造了疯狂竞争环境，所以严格科学更难做，但他们在努力平衡。这也很有意思。还有一点也很有趣：普通大众实际上只比最前沿落后几个月，所以人人都有机会感受到AI是什么。政府也更理解走向AGI这件事。

22:18 卢正锡 前不久晚饭时我又偶然见到申正奎代表，他也说了这个。他说，卢正锡提到的Elon Musk或Sergey Brin比我们早看几个月frontier，这个判断可能不对。就算往多了算也就早一个月左右。 frontier和开放版本之间的gap其实比想象小。可能中美竞争、OpenAI和Google竞争都起了作用，反过来从我们这种普通人、爱好者角度看，没有资本参与training的人来说是幸福世界，因为我们被纳入进来了。

23:04 崔升准 当然别说每月200美金了，连每月2、3万 원对不少人也是成本，所以不一定人人都能上，但门槛确实已经大幅降低，对吧？

23:12 卢正锡 而且200美金套餐在我们春夏那会儿还是大多数人不用的区间。但现在我经常看到有人在用200美金套餐。也就是确实值这个钱。

23:23 崔升准 但问题是认知地平线这件事依然有很大波动。

23:31 卢正锡 gap已经被拉得非常大了。跟得上AI frontier的人，和我们定义为“逃亡者”那种拼命想靠近的人，以及选择不去靠近的人，gap太大了。

23:50 崔升准 总之就是这样的时代。接下来他还讲了scaling。这里也说了，合成数据等这些都表明我们从没说过不能scaling。而这段有意思的是：即便不是每次都陡升，也一直有可获得的收益。不是0或1二分，而是中间有很多区间，所以我们一直在scaling，我是这么读到的语气。

24:23 卢正锡 这部分如果想有点数字感，我读Nemotron paper时有个感觉：训练frontier模型使用的token通常超过20万亿。总共用了大概27万亿token。有意思的是，里面数学、科学以及核心逻辑相关部分，像我们以前在Qwen 30B等paper看到的那样，pre-training dataset质量在持续提升。但这种高质量dataset目前量还不到1万亿。大概是5000亿左右。所以未经精炼的raw pre-training data也在后台持续提质、反复再用，因此这一侧依然是scale在主导。这和RLHF完全不同，是纯pre-train领域，但只要dataset质量继续提升，单位能耗产率就会提升，所以这里依然有很大的upside。

25:36 崔升准 而且它在bootstrapping，系统足够好之后会自生成数据。像编码和数学这种在某种意义上可验证答案的domain，可以无限生产数据，Hassabis是这么说的。

25:53 卢正锡 所以什么scaling极限、wall这种说法，到25年结束时已经在变淡了。

25:59 崔升准 他说50%投入scaling，50%投入创新。也就是既在原有regime里继续做scaling，也在其他方法上做创新。至于幻觉问题，幻觉仍然存在，但有可能被解决。他在这没给非常确定的说法，不过整体语气是正在变好。当然他也承认了，问题还在。

模拟世界：World Model的潜力 26:33

26:33 崔升准 然后他讲了world model。提到Genie、Veo和SIMA，这部分其实非常SF但又很有意思。

再往下看，本质上Demis Hassabis从起点就有游戏背景，不是吗？他小时候做过类似主题乐园或知名模拟类游戏开发。所以他现在介绍SIMA和Genie时会说，这类问题如果可模拟就可解决。 Genie是生成环境，对吧。SIMA则是能进入环境中行动的agent。所以他提了一个问题：如果一个拥有Gemini推理能力的SIMA agent在Genie生成的环境中持续解题，会发生什么？

27:32 卢正锡 那就会变成去搜索我们无法事先定义的问题空间，problem space都可通过search求解，也就是只要给无限computation，所有问题都能解。

27:46 崔升准 那应该是8月的事。Genie出来后可以进这个空间并实际navigation；SIMA是11月出来的。它在里面，比如在No Man’s Sky这种游戏里探索，本质是可进入任意游戏的agent。而他们内部现在在尝试把Genie接到SIMA上，即时生成世界。我漏贴论文了，但Google DeepMind确实公开过相关论文。就是把这个loop做出来了，我看信息太多有点模糊，可能有误，但我印象里是有。

28:32 卢正锡 是啊。Demis的感受和Elon Musk有点像，他觉得Yann LeCun或Sutton那套说法有点old school。

其实不管模型结构如何，只要尽量去掉inductive bias，让模型尽可能general，再堆无限computation，就不存在解不了的问题，这是他们的基本视角。Transformer本来就是跨语言做attention计算，但放进general logic再放图像，现在全都在用。所以最终过了某个阈值，就会出现另一种形式系统把问题都解掉，他们也是这么说的。举例就是Genie或Veo：只是训练出来的东西，却已经呈现出非常精细的物理引擎感。

所以我个人也认为，围绕AGI、ASI说Transformer架构或这类模型在architecturally上有硬限制，这种old school叙事，不管是Yann LeCun还是Sutton，都没有太大意义。

崔升准 Demis也有类似说法。他先说当前模拟还是“肉眼精度”，不是绝对完美精度，但方向就是朝那边去。也提到是否能承受真正物理学等级实验这类问题。

所以他讲了自己关于模拟的长期思考，还提到Santa Fe Institute的一些实验，像某些经济结构在grid world中的涌现，也谈到意识。总之Demis的想法是：如果能被模拟，那不就成立了吗？这点在这里提了一次，后半又提了一次。

AI是泡沫吗？与工业革命对比 30:28

30:29 卢正锡 再往后看，这个问题也很有意思。Hannah Fry直接问AI是不是泡沫，泡沫破了会怎样。Demis很坦率地承认，现在确实有泡沫，AI生态中的一部分可能就是泡沫。但关于“破了怎么办”他没正面回答，而是说Google、Google DeepMind就算泡沫破裂也安全。讲了我们有哪些hedging、有什么基础。比如有TPU、研究体系怎么构建等，意思是这条路继续也好，不继续我们也能做得好，稍微有点“秀实力”的味道。

卢正锡 对，这点申正奎代表那次晚饭也提过，以前来我们播客时也提过：是不是过度投资，最后会不会过剩，不是这么说过吗？说到算力资源尽头，但现实例子已经很清楚：互联网流量97%是视频，就是YouTube和Netflix。只有3%用于文本等其他数据传输。即便token生成也是，像我们要在Claude里用100万token有多难，用很多也就25万token左右，但如果去Nanobanana只生成一张图就是2万5千token，生成一个30秒视频就会吃掉几十万token，所以这方向还会继续变大，现在才刚开始。而且这里绝大多数token将来自多媒体，也就是视频这类内容，而文本、编码、science、logic在里面只占很小一部分。对，所以很makes sense。

32:23 崔升准 看来你那顿晚饭很精彩啊。

32:26 卢正锡 对，所以半导体投资周期不能看成“过度投资阶段”，而是“刚开始”。对，而且外面传闻还不多，但像李晋源这类做芯片的人每次见面都在说，想开发点东西却买不到RAM，不只是HBM，连买LPDDR交期都要1年后、2年后。而且三星LPDDR也卖光了，价格翻倍了，之类的。所以内存超级周期又开始了。那这意味着什么呢。

33:05 崔升准 既然说到晋源，下次请他来聊一聊吧，我们也聊聊这个。

33:09 卢正锡 我们得听一场半导体专题。

33:15 崔升准 这里有一段echo chamber方向，sycophancy，就是谄媚相关，我先略过。然后关于AGI这段和上次Shane Legg那期有连接，也稍微介绍了一些。总之是在向某种emerging靠近AGI。所以现在proto-AGI候选差不多是这样：如果Genie、SIMA这些都整合起来，可能就算proto-AGI候选。还有这部分也有意思，工业革命的教训。Demis最近读了很多工业革命相关书。他说为了缓解未来混乱，想重新学习那段历史。他说这次会比工业革命大10倍、快10倍。不是一个世纪，而是在约10年里展开。工业革命按我印象是跨了接近200年。

34:25 卢正锡 但我们看实质影响大概是100年，从19世纪后半到20世纪后半。

34:32 崔升准 但那时世界已经很动荡了，而现在如果10年内发生，实际会更剧烈。

34:38 卢正锡 换成现实话讲，当年变化跨代发生，父母失业了，孩子还能活在有新职业的世界；现在可能是父母和孩子同时失业的世界。

34:54 崔升准 这不是能笑着说的话，但确实有点荒诞。

34:58 卢正锡 对，确实不是笑着说的事。但最终我觉得政府系统会更重要。财富会极端集中到少数公司，然后要把其中产出拿来做真正的普遍收入，basic income，甚至不止普遍收入，Sam Altman不是说“巨量收入”吗？会更多。

35:20 崔升准 对对，也有人在讨论不是basic income的方案。

35:29 卢正锡 大家都在预测，26年会把25年积累的这种生产力变化带到现实。公司大裁员很可能真的会在26年发生，而且会很快。

35:40 崔升准 所以这又和能源话题重新咬合。如果能源问题解决，相当一部分经济压力或个人必须承受的压力可能被缓解。当然能源就算解了，其他问题也还会缠在一起，但总体感觉是很多变量在联动。

36:02 卢正锡 我们别在社会议题上走太远。

36:08 崔升准 我也同意。不过这是Demis自己说的，他这期确实讲了很多这个。像新经济系统之类也提了。

36:16 卢正锡 我们先以快速适应变化为目标，所以先快速适应变化吧。

36:23 崔升准 像post-AGI这类，Shane Legg好像在推动相关思考。也就是说会和一些经济学家、政府在这个语境里沟通。对，我刚才说的就是这个。他说从经济学家朋友那听到有趣观点，希望这类工作更多，也有哲学层面。工作会变，很多东西会变，但也许核聚变已经解决了。那如果能源充裕、世界进入后稀缺时代，货币怎么办？大家都更富足了，但目的感怎么办？因为很多人从职业中获得目的，也从养家中获得目的，这是很高贵的目的。如果这被拿走，那么一些问题就会从经济问题混合成哲学问题。这些是他这期讲的。总之，这方面需要国际合作。

但实际进展比想象慢。那要让所有人重视，是不是需要某些事件事故？他说多数研究所是有责任感的，但也有开放模型，所以不可能控制一切。那也许发生一些“可控程度内”的事件反而能推动。那个rogue AI，rogue，就是那种危险路线的说法。

37:43 卢正锡 对，rogue，对。

37:45 崔升准 对，虽然X战警里也有Rogue，但总之就是“失控”。要阻止流氓国家、流氓组织很难，但如果出现中等程度事件，可能会成为警示射击。那国际合作和标准也许会更快建立。他也有这些讨论。

AI的边界到底在哪里？ 38:05

38:05 崔升准 所以，人类独有的事情还有吗？他的说法是，没有边界。

所以这部分和我们，尤其和卢正锡关注的点很相关。Demis也是相信计算的人。他说在von Neumann体系和Turing machine方法下，目前没有证据表明这条路不行。会继续沿这条路推进。

所以“一切都可被经典计算机复制”。这里Hannah Fry问了个挑衅性问题：我们坐在这里，感受到灯光温度、背景机器噪声、手中触感，这些也都能被经典计算机复制吗？Demis就是这么说的，她又强调了一遍。然后Demis提到两位哲学家，Kant和Spinoza。我对Spinoza也不熟，去查后发现挺有意思。他说模拟出来的世界也重要。可模拟性的边界是什么？如果能模拟，在某种意义上就是理解了。Demis在想什么，这期透露得很多。

39:13 卢正锡 上面写的Isomorphic这个形容词。

39:16 崔升准 Isomorphic，对。Demis担任代表的另一家公司嘛。

39:24 卢正锡 对，Isomorphic Labs，这是做生物科技新药研发的公司。而Isomorphic这个形容词在《哥德尔、艾舍尔、巴赫》里也是核心形容词。

39:30 崔升准 是吗？这样啊？

39:37 卢正锡 对，归根结底一切由关系支配，最后只剩关系。不管载体是什么，只要关系一致，就是同一个东西。这就是同构原理。

39:48 崔升准 我还真没这么想过，我也得再看看。Demis还说他睡不好，原因很多，既兴奋也忙，还在做自己一直梦想的事。

39:59 卢正锡 在很多方向上都站在科学绝对最前沿。以前Noam Brown也说过，早上起来看frontier又推进了多少，是一种属于自己的privilege。特权，对。

40:14 崔升准 对，是有说过这个。

40:16 卢正锡 真羡慕。

崔升准 时间已经过去很多了，我就快进：比如AI领袖之间关系、担忧点，然后最终还是担忧与期待。这里有个有意思的地方，Demis说自己的使命是帮助世界安全跨过AGI。post-AGI是其他人的工作。当然如果有人邀请我，我是合作型的人，会参与。但我的任务是帮助世界安全跨过AGI。然后他还说想休个长假。之后就差不多这样收尾了。这期可能比《The Thinking Game》那期更能让人理解Demis是什么样的人。他讲了很多很坦率的话。

41:12 卢正锡 用脑很多的人脱发真的来得很快。Ilya Sutskever也是。

x.com x.com

41:18 崔升准 当然也有不是这样的。我们这边大致一路聊下来了。然后有个叫roon的人，据说可能是OpenAI tech staff里的某位，但没被确认。不过他讲了很多有意思的内容，今天还是昨晚凌晨来着，他又发了一段对AI批判论的反驳，和我们今天介绍的内容有些相似，roon也提到了。他说我们会看到一种新组织形态，它们把机器智能当作一级生产要素出生。这点让我印象挺深。

41:57 卢正锡 就是我们最近说的AI-native company那种。

42:05 崔升准 他说有一类新组织把机器智能当作一级生产要素。还有个有趣点，我让模型去fact check他那段话里我标注强调的部分，讽刺的是GPT-5.2现在fact check做得挺好。虽然LLM会hallucination，但因为有可调查工具，fact-checking反而做得相当不错，这很有意思。

结果会给出“大体属实”“部分属实”，还会附上准确引用与依据。比如Terence Tao做过这件事，这是事实；有强推测；难以断言；这段可能是假的，夸大可能性很高。现在只要让它做一次fact check，就能给出这些。

Andrej Karpathy的2025年AI年终盘点 42:52

karpathy.bearblog.dev karpathy.bearblog.dev

42:54 崔升准 已经快聊一小时了。年终盘点方面，Andrej Karpathy也做了年度review，timeline里已经传播很多了。就是说今年发生了什么。另外Karpathy相对中立，所以像幽灵 vs 动物、新层、Cursor和LLM、Claude、Codex、vibe coding、图像模型创新、LLM GUI，也就是Generative UI在后半段也有大事件。对，然后结论是“系好安全带”。

43:29 卢正锡 我们公司有位工程师说过这话：AI把UI layer都写了，我们公司一切都建在Next.js上，那为什么还用Next.js？直接用native JavaScript就行，把框架拆掉吧，类似这种话。

blog.google blog.google

43:47 崔升准 我最近其实还有很多相关想法，但时间关系先略过。Gemini 3 Flash也出来了。对，挺快的。性能上可能有些遗憾，但肯定会有一些很契合的场景。所以总之它出来了。

40:14 卢正锡 对，没错。

44:09 崔升准 总之Flash出来了，模型还在继续发。离圣诞还有4天，但感觉他们还在不停工。这些人年末假期到底什么时候放？应该马上就去吧。

44:21 卢正锡 可能去不了，去不了吧。对，这几乎是chicken game了。还在不断发布。

44:30 崔升准 对，发布是有原因的。其实现在OpenAI也站在十字路口，“十字路口”这个词可能不太准，但确实压力非常大。彼此都得不断压住对方、确认自己、证明自己，所以即便年末这种事还在持续发生。

44:48 卢正锡 OpenAI和Google有点双雄突围，Anthropic挖了编码护城河，但那部分感觉在一点点变薄，大概是这种感觉。

手绘示意图——模型发展阶段依次为幼小蒜苗（Garlic model early checkpoint）→ GPT-5.2（current）→ more training/more data/more tuning → 完全长成的大蒜（Garlic model full-blown）。

44:59 崔升准 还有Sonnet 4.7的传闻。有人猜可能是接近Opus 4.5级性能，同时有4.7级速度之类，这些推测在timeline上能看到，但还没确认。最近Claude有过故障，也有人奇怪猜测是不是在试验模型导致故障。然后GPT-5.2这边，The Information有篇文章说它可能只是early checkpoint。所以他们一直在往外放。

而且GPT-5.2作为基础这一点，像我们上次说的第二弹，叫什么来着，Shallotpeat？不是那个模型，而是代号Garlic的模型，据说现在这个是early checkpoint，full-blown Garlic会在明年初见到。然后卢正锡说你研究了很多NVIDIA Nemotron，这是什么？

NVIDIA Nemotron与混合架构的未来 45:54

nvidia.com nvidia.com

45:58 卢正锡 NVIDIA Nemotron是NVIDIA像Llama那样完全公开的模型。我会认真看的原因是，它把dataset和training recipe，连代码都全部公开了。全都公开了。

46:13 崔升准 那就不只是open model，而是open source了。

卢正锡 是完全open source。而且对NVIDIA来说，做这些的人越多越好，所以他们有充分激励把这些recipe做出来并分发给所有人。人越多，买芯片的人就会越多。

而Nemotron把我们一直在讲的pre-training、SFT、RLHF、RLVR、数学和science、编码这些部分的数据集，连他们自己做的数据都公开了，而且怎么做的也全都直接放到GitHub上，所以我最近一直在认真看。

我自己的直觉是，我们到底该往哪逃这个问题，第一当然是用当前frontier模型的harness解决现实问题；但另一种既视感是，computation效率比在持续增长。因为算法增长、dataset增长、dataset开放，Andrej Karpathy说的cognitive core那种层级，也许在10B参数以下也会出现能完整覆盖某个业务的模型。然后也会出现提供RLVR训练环境的公司，像新型SI公司一样。但差异在于，要做这些所需的基础信息门槛非常高。

所以我觉得那种世界会来。除了做harness，还得做model work，在业务逻辑内部也要拥有training、fine-tuning、RLVR、evaluation这些loop。我们公司也在努力内化这块。回到Nemotron，我们大概1~2年前，约1年半前聊过SSM和Mamba，24年末Falcon那边还做过Mamba-based模型，而SSM和Mamba非常有意思。

这个我们找机会也可以系统review一下怎么来的。先说intuition。最开始有RNN，对吧。实际上早期language modeling用的就是RNN。但它最后要用一个context vector去推所有上下文，性能就不行。

所以才有了attention模型。它保留前面输入的全部hidden activation，每次推理都再利用一次，于是发现attention可以完整解决这个问题。后来只把attention logic抽出来，就成了Transformer。

Transformer解决的是：RNN推理很高效，但training无法并行化，必须把句子全读完才能训，中间还有vanishing gradient和exploding gradient等问题。解决这个的就是Transformer。

但Transformer的坏处是可并行没错，可它内部attention logic计算在长度变长时，推理的context length一长，计算量就是O(n²)二次增长，这是Transformer的问题。虽然有很多解决逻辑出现了，比如grouped-query attention，或计算过程的FlashAttention，改善很多，但还是追不上RNN效率。

那问题就非常自然：如果把RNN的优点和Transformer的优点都拿到会怎样？如果像RNN那样推理时非常高效，同时又能像Transformer那样训练时并行化，不是很好吗？这个intuition做出来的就是SSM。在SSM基础上解决几个问题得到的是Mamba。你会看到中间很多感觉和RNN很像，论文本身在我看来就是数学trick，很有趣。有趣的是Nemotron是完全Mamba-based。

但Mamba的问题是，它像RNN一样把sequence汇总进一个context vector；attention则是持续计算token之间关系。所以RNN擅长摘要，Transformer擅长记关系，各有优劣。现在新模型都叫hybrid。

比如我们熟悉的Transformer模型是几十个Transformer block堆起来。Nemotron是先堆8个Mamba block，再放self-attention，中间放FFN。FFN是MoE方式照样有。再堆8个Mamba block，上面一个attention block，这种组大概有8~9组。所以它是30B总规模、约3B activation的模型，但速度非常快。虽然我不想直接说“几倍”，但它确实快很多。我会想这东西1年半前就诞生了，而这个hybrid本身也是一种新算法基因。

我觉得这个模型会广泛落地。因为hybrid的优势在计算侧压倒性强，在inference time下用更少计算量、更小模型规模，就能给出比Transformer略好的结果。现在说“好几倍”可能有风险，但确实在输出这类结果。所以我个人判断，下一代frontier很可能往这种Mamba+Transformer hybrid迁移。

52:43 崔升准 你刚才说“替代性基因”这个表达很关键。替代架构以前没有足够投资去做到可scale，但一旦证明能跑起来，就可能迅速大规模替换架构。

52:59 卢正锡 对，所以这种东西还不多。不多，但Nemotron一直在推。如果这里再一次证明“小算力也能做出接近frontier且适配自己domain的模型”，那所有vertical都会有动力往这个方向冲。对NVIDIA来说，这套framework能帮他们卖更多芯片；对我们这种公司来说，frontier级knowledge、recipe、代码、dataset都给了，那就值得深挖。所以我在考虑亲自做一轮Nemotron fine-tuning和RLHF。

53:52 崔升准 归根结底就像你开头说的，要做hedging。既要继续搭现有frontier方向的harness，也要在可行处做model work，理解当前态势并深入，因为不知道会往哪走，也不知道哪里会有gain。

54:10 卢正锡 对，但模型这块不能放弃。现在大多数value capture都在模型公司手里。不是模型公司的其他公司都得在很薄的层面竞争。

54:26 崔升准 你刚才也提到过，像处理新型基础设施的TML这类公司也存在。总之有这些讨论，下次深入会是很有意思的一期。

54:37 卢正锡 我们可以来一期SSM漫谈。

小米（Xiaomi）等最新AI模型动态 54:40

白色背景上以黑色粗体字写成的“Xiaomi MiMo”标志文字。

54:40 崔升准 小米这个也是卢正锡告诉我的，我也去看了，小米也在做。

54:45 卢正锡 paper我没细读，只看了abstract。不是拿别家模型来模仿，他们确实是from scratch自己做的。所以。

54:56 崔升准 最近韩国也在做from scratch。所以中国现在推进得非常猛，确实让人有紧张感。

55:07 卢正锡 体感上中国就是美国级别。至少我看是这样。

55:12 崔升准 某种意义上就是当前双强。总之就是这样的时代。然后也是中国那边的模型，现在好像是按层来做生成。不是把层抠出来，而是生成本身变成layer化。

55:28 卢正锡 这个得试试。

55:30 崔升准 还有Yao Shunyu，之前在OpenAI的人去了腾讯。

55:36 卢正锡 是明星研究员，跳槽去腾讯了。

friendlybit.com friendlybit.com

55:40 崔升准 现在有点累，不知道能不能展开这个。Simon Willison最近又回到底层，发了篇关于“今天能做什么”的很有趣文章。JustHTML不是Simon Willison本人做的，是他引用了别人的故事，但内容很有意思。讲他们是怎么做的。做了很多测试，用非常小的步子推进，去porting或重做某些东西，整个过程都展开讲了。我是一周前读的，当时觉得很有意思，但现在记忆又有点淡了。如果有人感兴趣，可以看看他们具体是怎么做的，应该还能拿到一些insight。

总结与下期预告 56:31

56:31 崔升准 所以即便年底了，每周新闻和信息还是不断。

56:38 卢正锡 因为机器还在持续运转。pre-training代码和RLHF代码此刻也在高强度跑，也许就是这个原因吧。

56:45 崔升准 是啊。我们今年收官前还有机会再录一期吗？

56:52 卢正锡 应该有。还会再来一次。不是约了27号和成贤一起录年终总结吗？主题大概是今年frontier如何推进。到时候可能最后还会再聊一次模型。

57:11 崔升准 要做总结的话最好那周没新消息，这样才能回顾；但如果那周又有消息就很难办。好，今天就到这里。

57:15 卢正锡 好，今天又快速过了一遍。

57:20 崔升准 对，感觉只是扫了一遍。真正深入的不算很多。好，了解。

57:23 卢正锡 好，辛苦了。

57:23 崔升准 好，辛苦了。