AI Frontier

EP 80

2026年会成为科学之年吗?AI与科学

· 卢正锡, 崔升准 · 57:27
整页
查看本期参考资料

走过2025编码之年,迈向2026科学之年 00:00

卢正锡 今天录制时间是2025年12月21日,周日早晨。是的,2025年已经在走向尾声了。 要说2025年最大的事件,恐怕还是从Claude Code发布开始的“编码之年”。 2026年会是这样的一年:编码已经结束,接下来科学也将被AI“做完”。 现在已经出现了很多这种总结2025、展望2026的讨论。今天就和升准一起把这些内容梳理一遍。

00:40 崔升准 是,关于2026年的展望。也就是说,2025年其实还剩大概10天。今天是21号嘛。

00:45 卢正锡 对,还剩10天。准确地说。

openai.com openai.com

OpenAI 博客《通过 GPT-5.2 推动科学与数学发展》—— 发布于 2025 年 12 月 11 日。介绍文字称 GPT-5.2 在数学和科学领域展现出最强性能。

00:49 崔升准 是,不过最近会有种“2026已经开始渗进来”的感觉。所以我把最近这些timeline里的消息整理了一下。我们之前聊过OpenAI播客、《AI与科学的未来》、Google DeepMind的纪录片The Thinking Game,还有Google DeepMind联合创始人Shane Legg的观点,对吧?所以现在这个脉络其实一直在连起来。

我们之前提到过一些关于科学的“预告片”,而最近10天相关的新闻、证据、迹象都变得非常密集。比如OpenAI在12月11日,也就是大约10天前,发了篇博客《通过GPT-5.2推进科学与数学》。现在连韩文博客都在发了,所以读起来更方便。

与GPT-5.2一起推进科学与数学发展 01:32

openai.com openai.com

OpenAI 研究页面《评估 AI 开展科学研究的能力》—— 说明 FrontierScience 是一个用于评估物理学、化学和生物学领域专家级科学推理能力的基准。

01:49 崔升准 啊,我这边忘贴链接了,应该又出现了一个叫Frontier Science的benchmark。结果就是一旦benchmark建立起来,性能就会上升,这种有点讽刺的情况还在持续发生,总之有这方面的消息。 然后GPT-5.2在那篇博客里有个案例其实很有意味,不过内容有点难。 这是关于它如何解COLT,也就是Conference on Learning Theory那边公开的问题:先让GPT-5.2 Pro来解,再由专家审核与验证,最终完成证明的案例。

所以在整个过程中,人类的作用不是提供数学脚手架,而是集中在验证和清晰写作上。也就是说模型正在朝这个方向推进。而且这个问题本身也有点“指向性”,它本来就是跟擅长这类能力有关的内容。 不过我个人感受是,到今年的编码新闻为止我还能跟得上,但2026年的科学新闻就算读了也不太懂了,大概就是这种感觉。

03:08 卢正锡 没错。其实数学、化学、物理里有很多内容已经远超我们高中或大学学过的层次, 因为我们在那边的domain knowledge确实比编码领域明显不足,所以要深入看懂“这到底在讲什么”会比较难, 但从整体常识层面,这些技术还是会把“这是什么”表达得比较清楚,多看几次应该也会有收获。

03:33 崔升准 而且借助AI,用AI当杠杆去读这些内容,只要愿意投入,多少还是能抓到一些,但我也会担心这未必能变成真正内化的感觉。

AI改变实验室速度:与机器人结合的生物学研究 03:47

openai.com openai.com

OpenAI 博客《评估 AI 在实验室环境中加速生物学研究的能力》—— 发布于 2025 年 12 月 16 日。介绍称 GPT-5 提出了新的实验室流程改进方案,将分子克隆流程的效率提高了最多 79 倍。

03:49 崔升准 接着这个是几号来着,12月16日,内容是评估AI在实验室环境中加速生物学研究的能力。据说GPT-5把分子克隆协议效率提升了79倍。 不过这里如果只看图,最有意思的是“实验室连接”这一点,好像意味深长。 也就是说不只是模拟,后半部分有图显示通过机器人系统来跑这些流程,似乎成功做出了“真实实验与数据获取”的反馈回路。 还有机器人执行和人类执行的对比也出现了。

04:34 卢正锡 左边单位是什么我没看得特别清楚。

04:39 崔升准 我也没认真看这个。

04:41 卢正锡 大概就是比人类快约2.5倍。

04:49 崔升准 所以是比人类执行更快,而且性能表现相近。

04:56 卢正锡 哇,这发展速度真的太快了。我们之前聊pre-train和RLHF其实也就到2024年8月,而这一切都是GPT-5之后开始的。Thinking模型出来后,大家关注它到底怎么做出来。然后到2025年1月,R1论文出来,Thinking logic是这么构成的,再后来GRPO出来,大家就更相信:只要能构建verifiable reward,这就是模型可以解的游戏。于是编码、数学、逻辑这种由规则主导的部分几乎都被征服了,现在已经跨到科学领域了。

05:40 崔升准 我们上次聊过的Period Labs也是做超导体相关的,有furnace,也就是有窑炉,会烧制、实验,重点是搭建能做这些事情的环境,感觉有点类似。 而且如果说2024、2025是工程师发现了模型能做什么,那现在数学家、科学家开始说“在我们domain里也能跑起来了”。

06:06 卢正锡 而且很多科学家都在讲,你刚才展示的人类亲自做实验的那种环境,真实地倒液体、在烧杯之间转移材料的实验环境,我们叫wet lab。 那部分其实一直是绝对瓶颈,但AI已经能先用逻辑尽量筛出候选材料和方法论, 至于到底对不对,最终reward signal还是要靠真实实验,而实验环境本身也正在被机器人automation。对,所以2026年这种lab会大量出现, 不管化学还是生物,每个vertical都要建立自己的verifiable reward,而生物和化学本身又有很多sector,所以看起来2026会是这些东西大量出现的一年。

崔升准 你这么一说我想到Google DeepMind播客里,带Gemini 3的机械臂机器人和人形机器人,虽然不如最近中国冒出来那些fancy机器人那么fancy,但他们这次介绍了很多真正能进实验室用的机器人,大概两周前。 所以这应该是连起来的事情。也就是说此前人类在操作烧杯、处理材料这些方面的瓶颈,也会被机器人突破, 而且尤其不是“普通机器人”,而是带reasoning能力的机器人,会被投进实验室这种场景。

07:44 卢正锡 Tesla自动驾驶按Elon Musk的说法,如果类比LLM现在就只是instruct模型。但他也在说要加reasoning。 对,所以当车辆陷入僵局之类情况时,现在只是靠模型本能地往后退来糊过去, 而引入reasoning后,应该会先制定策略再行动。

08:10 崔升准 这种事现在正在多点同时出现,而且接下来还会推进。

攻克数学难题:AI与人类协作(Terence Tao案例) 08:14

卡片式缩略图《埃尔德什问题 #1026 的故事 / The story of Erdős problem #1026》—— 成堆金币通过方向箭头连接成网络图,并配有瓷砖图案的插图。

08:17 崔升准 数学这边有个非常有意思的事件。这是对Terence Tao博客的翻译内容。 有位著名数学家Erdős提出的问题,文里有很长篇幅讲怎么解,我把数学公式都让它改成文字解释了,因为有公式我自己也会觉得太难。

但TLDR提炼核心的话,里面有利用群体智慧的部分。也就是线上协作,研究者在Erdős problems网站论坛交换思路,同时有AI工具介入,比如自动定理证明Aristotle,再加上Google DeepMind的AlphaEvolve,这个我理解不是谁都能用,但Terence Tao应该是拿到access在用。

所以有Terence Tao使用AlphaEvolve的内容,也有其他人跑deep research去做文献检索,包括发现人类难以主动连起来的线索。总之是通过多层次、多单元的人机协作来解题, 非常有趣。

也就是说,1975年提出的问题如何被解决:先在线协作,再有数学家借助AI工具得到提示,然后Terence Tao看到后说“这个AlphaEvolve能做”,做完又反过来给人类新想法,最后走到最终解。我没有把细节全部吃透,只看了整体流程。结论是“协作已经可行”。而且还出现了与Lean这类证明辅助工具连接的部分。总之就是数学问题正在被解开。不只是Terence Tao及其周边,其他地方最近也在反复出现。Sébastien Bubeck在OpenAI,也是数学家,他转推了很多内容。现在到处都有数学家用GPT-5……比如什么?“解决了自己关于曲线moduli空间交叉数的未解问题。”至少能看出是数学。

所以是在数学某个狭窄domain里通过GPT-5解了问题。这里有个很有意思的表达,我把后面的内容提前说了:数学里有很多low-hanging fruit,是可以借AI摘到的。

11:07 卢正锡 也就是说,反而在高难度domain里存在不少低垂的low-hanging fruit。对,这对我们也有启发。因为在business domain里我们还没进入的领域非常多,所以我也认为里面依然有很多很好的“果子”。

卡片式缩略图《数学证明的现在 Human×AI / The Present of Mathematical Proof Human×AI》—— 白色背景上的手写体签名图像。

11:30 崔升准 这里又有COLT,刚才那个Conference on Learning Theory里出来的另一个问题好像也是。GPT-5.2把它解了。 然后这次证明过程、和Lean的连接,连prompt都公开了,这是在翻译某位数学家介绍该过程的内容。 但不止这个,类似内容还在持续出现。Sébastien Bubeck转推很多,所以进他的timeline会看到最近在数学和科学领域大量“把模型当杠杆”的故事。 这看起来像是“数学证明的现在时”。去年还不是这样,去年几乎没这种声音。

12:17 卢正锡 对,我们开玩笑说地球上所有聪明人都已经接上AI了。过去数学家、物理学家,包括医生律师等专业层,经常说AI还不行,但现在他们真的都把“与AI协作工作”当成默认方式了。所以就会这样。

12:46 崔升准 是啊,是啊。我们在逃亡者联盟里很惊讶的一点是来了很多医疗领域的人。 所以就像卢正锡刚说的,2025年初OpenAI播客里那个做黑洞研究的科学家在2025年初还说 “我原本有点负面,但看见能做什么以后就瞬间点开了。”然后马上就跳进去。 所以现在很多数学家、科学家以及这个领域的人都开始了,像是“我也参与”。

13:24 卢正锡 没错。我们YouTube有位订阅者留言也提到这点:我们这里说“哇这个模型真好”的通常是昂贵模型。

像GPT-5.2 Pro这种模型,再加上prompting做得很精细才会出现的结果;但很多人只是给免费模型丢一句抽象prompt,得到很弱回答就下结论“AI还不行”,这种情况我们看到很多,确实可惜。 学习如何做好prompting依然非常有效。

崔升准 对,是专家抛出好问题,然后反复艰难地back and forth地prompting,发挥群体智慧,才逐步解开;那种“咔哒一下就解决”还不是今天的现实。 另外当然也有使用强模型的部分,就像你刚说的,使用当前最旗舰、最前线的模型。

美国的新挑战:Genesis Mission 14:18

anthropic.com anthropic.com

14:18 卢正锡 不过现在还有这个,国防部,也就是美国国防部,准确说是White House,也就是白宫,直接下令了。发布了Genesis Mission。 我这边做了整段翻译。Google DeepMind、Anthropic、再到OpenAI都响应了,属于“共同参与”的状态。

把Genesis Mission快速看一遍,本质上是国家级科技挑战任务,有点像过去的阿波罗计划,或者苏联发射Sputnik后60年代美国科学界高度紧张、全力投入,最终与计算机发展联动的那种历史场景。 所以确实有类似感觉,总之是要以跨政府方式推进。 Google DeepMind也发布了博客,说将支持Genesis任务,以“国家使命”的方式加速创新和科学发现。

也就是向美国科学家提供尖端AI工具。像刚才Tao能用AlphaEvolve一样,会开放AlphaEvolve、AlphaGenome、WeatherNext,我记得这个可能是super computing方向,让更多人能访问。 这些事情此前就在推进了。 所以围绕参与这件事,方向就是解决当前挑战,从能源到疾病,再到安全。 Anthropic这边则简要提了下:“参与”。

16:01 卢正锡 这是Manhattan Project级别。中美之间谁先抵达超智能,这直接关系到安全,所以已经形成国家级项目了。

openai.com openai.com

16:16 崔升准 对。阿波罗之前有Manhattan。现在Jared Kaplan也是物理学家。 他之前在Johns Hopkins。虽然在科学相关语境上OpenAI和Google DeepMind都在强烈发声,但联合创始人里科学家最多的其实是Anthropic。 那里物理学家很多,也大量招了物理学家,所以虽然他们也在全力做编码模型,但也许还有别的盘算,我有这种猜测。 然后OpenAI是说和能源部深化合作,展开得更细。内容整体都差不多。

16:57 卢正锡 真让人羡慕。真羡慕。

17:02 崔升准 所以这些脉络现在是,美国有国家级mission,也有证据在不断出现。那我们回到一开始Demis Hassabis的访谈,我来收下这个tab。卢正锡你也看了是吧?

Google DeepMind CEO Demis Hassabis访谈解析 17:14

YouTube 缩略图——Google DeepMind The Podcast。Demis Hassabis 与 Hannah Fry 隔着播客录音室的桌子相对而坐交谈。标题:《The future of intelligence | Demis Hassabis (Co-founder and CEO of DeepMind)》。

17:18 卢正锡 对,看了。Hannah Fry教授我看太多次了,现在很熟。对,感觉是这一季收官篇。

17:26 崔升准 是,今年最后一期Google DeepMind播客。内容还是很有意思,但问题是我短时间看太多,这些内容很快就挥发了。我们边聊边把记忆再调出来吧。

17:42 卢正锡 这段对话很像是在总结一种持续已久的视角变化、sentiment变化。对,今年年初大家还在预测AGI会不会到来、什么时候到来, 到后半段已经变成“这是必成之局,只是何时成”。 而现在25年收尾时最大的变化是:大家都在把“这一定会成”作为结论收束。

18:12 崔升准 Demis Hassabis本来是很谨慎的人,但Google DeepMind最初使命就是走向AGI。所以他其实是这件事做得最久的团队负责人之一。现在连Demis都说出这种话,发言已经很激进了。

18:32 卢正锡 以前他总是谨慎地说,不管谁说能做到,都还要再观察。

18:38 崔升准 对。所以“科学方法最重要”,这是2024年Google和Google DeepMind合并前他们强调的讯息:我们要谨慎推进,不能追着hype跑,就是这么说的人。

18:56 卢正锡 我们来看看Demis讲的几个要点。

AI与能源:核聚变的未来 19:02

19:02 崔升准 开场很有冲击力,他先讲了一个假设:能源问题被解决。比如核聚变解了,当然也有SMR小型反应堆,但如果核聚变解了会怎样?他是从“丰裕时代图景”切入的。 和Hannah Fry对话里也提到这点,感觉像在问他们是不是也在做能源相关,结果确实在做。据说他们宣布了和Commonwealth Fusion的深度合作。 这当然也合理。所谓“解了”,正如我们一直说的,能源与智能、瓦特与智能之间是可互换关系。

19:39 卢正锡 没错。我们现在不太说“NVIDIA GPU几张”了。这是申正奎代表说过的,要用电力量来换算算力,已经成了新单位。现在千兆瓦、吉瓦级好像成了一个基准。

19:58 崔升准 是啊。所以现在听起来有点SF,但如果能源问题解决了,很多现有问题就会消失。开头就是这么铺的。

20:06 卢正锡 对,都可以替代。

20:08 崔升准 所以如果能源便宜、可再生、清洁,而且有24小时365天持续生产的能源,那最终也会被用到AI上。开头有这种很具想象力的讨论。接着他说当前还是起伏很大,大概只走到50%。显而易见的问题确实存在,也确实波动,但不是不可解的问题。

数据枯竭的终点?AI的自我学习与进化 20:37

20:41 崔升准 数据枯竭这件事好像在后面提到过。结论是并非如此,数据完全可以生成,而且也会走向摆脱人类依赖型数据的体制,这部分就是重点。如今缺的是online learning,也就是continual learning,当前还不完善,但字里行间已经在处理这些问题。

上次Shane Legg那期也是,我们能读到类似观点。然后这部分里Hannah Fry问了Google DeepMind过去的态度:是不是应该更久地关在实验室里?Demis说合并后自己也大量参与产品发布,所以这种路径也有好处。于是就是有失有得。

他说如果更久关在实验室,也许已经解决癌症了。也就是说若更集中在做AlphaFold这类东西,可能能解那类问题;但真实做产品也带来了很多收获和可能性。 对。然后他说这制造了疯狂竞争环境,所以严格科学更难做,但他们在努力平衡。这也很有意思。 还有一点也很有趣:普通大众实际上只比最前沿落后几个月,所以人人都有机会感受到AI是什么。政府也更理解走向AGI这件事。

22:18 卢正锡 前不久晚饭时我又偶然见到申正奎代表,他也说了这个。他说,卢正锡提到的Elon Musk或Sergey Brin比我们早看几个月frontier,这个判断可能不对。就算往多了算也就早一个月左右。 frontier和开放版本之间的gap其实比想象小。可能中美竞争、OpenAI和Google竞争都起了作用, 反过来从我们这种普通人、爱好者角度看,没有资本参与training的人来说是幸福世界,因为我们被纳入进来了。

23:04 崔升准 当然别说每月200美金了,连每月2、3万 원对不少人也是成本,所以不一定人人都能上,但门槛确实已经大幅降低,对吧?

23:12 卢正锡 而且200美金套餐在我们春夏那会儿还是大多数人不用的区间。但现在我经常看到有人在用200美金套餐。也就是确实值这个钱。

23:23 崔升准 但问题是认知地平线这件事依然有很大波动。

23:31 卢正锡 gap已经被拉得非常大了。跟得上AI frontier的人,和我们定义为“逃亡者”那种拼命想靠近的人,以及选择不去靠近的人,gap太大了。

23:50 崔升准 总之就是这样的时代。接下来他还讲了scaling。 这里也说了,合成数据等这些都表明我们从没说过不能scaling。 而这段有意思的是:即便不是每次都陡升,也一直有可获得的收益。不是0或1二分,而是中间有很多区间,所以我们一直在scaling,我是这么读到的语气。

24:23 卢正锡 这部分如果想有点数字感,我读Nemotron paper时有个感觉:训练frontier模型使用的token通常超过20万亿。总共用了大概27万亿token。有意思的是,里面数学、科学以及核心逻辑相关部分,像我们以前在Qwen 30B等paper看到的那样,pre-training dataset质量在持续提升。但这种高质量dataset目前量还不到1万亿。大概是5000亿左右。所以未经精炼的raw pre-training data也在后台持续提质、反复再用,因此这一侧依然是scale在主导。 这和RLHF完全不同,是纯pre-train领域,但只要dataset质量继续提升,单位能耗产率就会提升,所以这里依然有很大的upside。

25:36 崔升准 而且它在bootstrapping,系统足够好之后会自生成数据。像编码和数学这种在某种意义上可验证答案的domain,可以无限生产数据,Hassabis是这么说的。

25:53 卢正锡 所以什么scaling极限、wall这种说法,到25年结束时已经在变淡了。

25:59 崔升准 他说50%投入scaling,50%投入创新。也就是既在原有regime里继续做scaling,也在其他方法上做创新。至于幻觉问题,幻觉仍然存在,但有可能被解决。他在这没给非常确定的说法,不过整体语气是正在变好。 当然他也承认了,问题还在。

模拟世界:World Model的潜力 26:33

26:33 崔升准 然后他讲了world model。提到Genie、Veo和SIMA,这部分其实非常SF但又很有意思。

再往下看,本质上Demis Hassabis从起点就有游戏背景,不是吗?他小时候做过类似主题乐园或知名模拟类游戏开发。所以他现在介绍SIMA和Genie时会说,这类问题如果可模拟就可解决。 Genie是生成环境,对吧。SIMA则是能进入环境中行动的agent。 所以他提了一个问题:如果一个拥有Gemini推理能力的SIMA agent在Genie生成的环境中持续解题,会发生什么?

27:32 卢正锡 那就会变成去搜索我们无法事先定义的问题空间,problem space都可通过search求解,也就是只要给无限computation,所有问题都能解。

27:46 崔升准 那应该是8月的事。Genie出来后可以进这个空间并实际navigation;SIMA是11月出来的。 它在里面,比如在No Man’s Sky这种游戏里探索,本质是可进入任意游戏的agent。 而他们内部现在在尝试把Genie接到SIMA上,即时生成世界。我漏贴论文了,但Google DeepMind确实公开过相关论文。 就是把这个loop做出来了,我看信息太多有点模糊,可能有误,但我印象里是有。

28:32 卢正锡 是啊。Demis的感受和Elon Musk有点像,他觉得Yann LeCun或Sutton那套说法有点old school。

其实不管模型结构如何,只要尽量去掉inductive bias,让模型尽可能general,再堆无限computation,就不存在解不了的问题,这是他们的基本视角。Transformer本来就是跨语言做attention计算,但放进general logic再放图像,现在全都在用。 所以最终过了某个阈值,就会出现另一种形式系统把问题都解掉,他们也是这么说的。举例就是Genie或Veo:只是训练出来的东西,却已经呈现出非常精细的物理引擎感。

所以我个人也认为,围绕AGI、ASI说Transformer架构或这类模型在architecturally上有硬限制,这种old school叙事,不管是Yann LeCun还是Sutton,都没有太大意义。

崔升准 Demis也有类似说法。他先说当前模拟还是“肉眼精度”,不是绝对完美精度,但方向就是朝那边去。也提到是否能承受真正物理学等级实验这类问题。

所以他讲了自己关于模拟的长期思考,还提到Santa Fe Institute的一些实验,像某些经济结构在grid world中的涌现,也谈到意识。总之Demis的想法是:如果能被模拟,那不就成立了吗?这点在这里提了一次,后半又提了一次。

AI是泡沫吗?与工业革命对比 30:28

30:29 卢正锡 再往后看,这个问题也很有意思。Hannah Fry直接问AI是不是泡沫,泡沫破了会怎样。Demis很坦率地承认,现在确实有泡沫,AI生态中的一部分可能就是泡沫。 但关于“破了怎么办”他没正面回答,而是说Google、Google DeepMind就算泡沫破裂也安全。讲了我们有哪些hedging、有什么基础。 比如有TPU、研究体系怎么构建等,意思是这条路继续也好,不继续我们也能做得好,稍微有点“秀实力”的味道。

卢正锡 对,这点申正奎代表那次晚饭也提过,以前来我们播客时也提过:是不是过度投资,最后会不会过剩,不是这么说过吗? 说到算力资源尽头,但现实例子已经很清楚:互联网流量97%是视频,就是YouTube和Netflix。 只有3%用于文本等其他数据传输。即便token生成也是,像我们要在Claude里用100万token有多难,用很多也就25万token左右, 但如果去Nanobanana只生成一张图就是2万5千token,生成一个30秒视频就会吃掉几十万token,所以这方向还会继续变大,现在才刚开始。 而且这里绝大多数token将来自多媒体,也就是视频这类内容,而文本、编码、science、logic在里面只占很小一部分。 对,所以很makes sense。

32:23 崔升准 看来你那顿晚饭很精彩啊。

32:26 卢正锡 对,所以半导体投资周期不能看成“过度投资阶段”,而是“刚开始”。 对,而且外面传闻还不多,但像李晋源这类做芯片的人每次见面都在说,想开发点东西却买不到RAM,不只是HBM,连买LPDDR交期都要1年后、2年后。 而且三星LPDDR也卖光了,价格翻倍了,之类的。 所以内存超级周期又开始了。 那这意味着什么呢。

33:05 崔升准 既然说到晋源,下次请他来聊一聊吧,我们也聊聊这个。

33:09 卢正锡 我们得听一场半导体专题。

33:15 崔升准 这里有一段echo chamber方向,sycophancy,就是谄媚相关,我先略过。 然后关于AGI这段和上次Shane Legg那期有连接,也稍微介绍了一些。总之是在向某种emerging靠近AGI。 所以现在proto-AGI候选差不多是这样:如果Genie、SIMA这些都整合起来,可能就算proto-AGI候选。 还有这部分也有意思,工业革命的教训。Demis最近读了很多工业革命相关书。他说为了缓解未来混乱,想重新学习那段历史。 他说这次会比工业革命大10倍、快10倍。不是一个世纪,而是在约10年里展开。 工业革命按我印象是跨了接近200年。

34:25 卢正锡 但我们看实质影响大概是100年,从19世纪后半到20世纪后半。

34:32 崔升准 但那时世界已经很动荡了,而现在如果10年内发生,实际会更剧烈。

34:38 卢正锡 换成现实话讲,当年变化跨代发生,父母失业了,孩子还能活在有新职业的世界;现在可能是父母和孩子同时失业的世界。

34:54 崔升准 这不是能笑着说的话,但确实有点荒诞。

34:58 卢正锡 对,确实不是笑着说的事。但最终我觉得政府系统会更重要。财富会极端集中到少数公司,然后要把其中产出拿来做真正的普遍收入,basic income,甚至不止普遍收入,Sam Altman不是说“巨量收入”吗?会更多。

35:20 崔升准 对对,也有人在讨论不是basic income的方案。

35:29 卢正锡 大家都在预测,26年会把25年积累的这种生产力变化带到现实。公司大裁员很可能真的会在26年发生,而且会很快。

35:40 崔升准 所以这又和能源话题重新咬合。如果能源问题解决,相当一部分经济压力或个人必须承受的压力可能被缓解。当然能源就算解了,其他问题也还会缠在一起,但总体感觉是很多变量在联动。

36:02 卢正锡 我们别在社会议题上走太远。

36:08 崔升准 我也同意。不过这是Demis自己说的,他这期确实讲了很多这个。像新经济系统之类也提了。

36:16 卢正锡 我们先以快速适应变化为目标,所以先快速适应变化吧。

36:23 崔升准 像post-AGI这类,Shane Legg好像在推动相关思考。也就是说会和一些经济学家、政府在这个语境里沟通。对,我刚才说的就是这个。他说从经济学家朋友那听到有趣观点,希望这类工作更多,也有哲学层面。工作会变,很多东西会变,但也许核聚变已经解决了。那如果能源充裕、世界进入后稀缺时代,货币怎么办?大家都更富足了,但目的感怎么办?因为很多人从职业中获得目的,也从养家中获得目的,这是很高贵的目的。如果这被拿走,那么一些问题就会从经济问题混合成哲学问题。这些是他这期讲的。总之,这方面需要国际合作。

但实际进展比想象慢。那要让所有人重视,是不是需要某些事件事故?他说多数研究所是有责任感的,但也有开放模型,所以不可能控制一切。那也许发生一些“可控程度内”的事件反而能推动。那个rogue AI,rogue,就是那种危险路线的说法。

37:43 卢正锡 对,rogue,对。

37:45 崔升准 对,虽然X战警里也有Rogue,但总之就是“失控”。要阻止流氓国家、流氓组织很难,但如果出现中等程度事件,可能会成为警示射击。那国际合作和标准也许会更快建立。他也有这些讨论。

AI的边界到底在哪里? 38:05

38:05 崔升准 所以,人类独有的事情还有吗?他的说法是,没有边界。

所以这部分和我们,尤其和卢正锡关注的点很相关。Demis也是相信计算的人。他说在von Neumann体系和Turing machine方法下,目前没有证据表明这条路不行。会继续沿这条路推进。

所以“一切都可被经典计算机复制”。这里Hannah Fry问了个挑衅性问题:我们坐在这里,感受到灯光温度、背景机器噪声、手中触感,这些也都能被经典计算机复制吗?Demis就是这么说的,她又强调了一遍。 然后Demis提到两位哲学家,Kant和Spinoza。我对Spinoza也不熟,去查后发现挺有意思。 他说模拟出来的世界也重要。可模拟性的边界是什么?如果能模拟,在某种意义上就是理解了。Demis在想什么,这期透露得很多。

39:13 卢正锡 上面写的Isomorphic这个形容词。

39:16 崔升准 Isomorphic,对。Demis担任代表的另一家公司嘛。

39:24 卢正锡 对,Isomorphic Labs,这是做生物科技新药研发的公司。而Isomorphic这个形容词在《哥德尔、艾舍尔、巴赫》里也是核心形容词。

39:30 崔升准 是吗?这样啊?

39:37 卢正锡 对,归根结底一切由关系支配,最后只剩关系。不管载体是什么,只要关系一致,就是同一个东西。这就是同构原理。

39:48 崔升准 我还真没这么想过,我也得再看看。Demis还说他睡不好,原因很多,既兴奋也忙,还在做自己一直梦想的事。

39:59 卢正锡 在很多方向上都站在科学绝对最前沿。以前Noam Brown也说过,早上起来看frontier又推进了多少,是一种属于自己的privilege。特权,对。

40:14 崔升准 对,是有说过这个。

40:16 卢正锡 真羡慕。

崔升准 时间已经过去很多了,我就快进:比如AI领袖之间关系、担忧点,然后最终还是担忧与期待。 这里有个有意思的地方,Demis说自己的使命是帮助世界安全跨过AGI。post-AGI是其他人的工作。 当然如果有人邀请我,我是合作型的人,会参与。但我的任务是帮助世界安全跨过AGI。然后他还说想休个长假。 之后就差不多这样收尾了。 这期可能比《The Thinking Game》那期更能让人理解Demis是什么样的人。他讲了很多很坦率的话。

41:12 卢正锡 用脑很多的人脱发真的来得很快。Ilya Sutskever也是。

x.com x.com

41:18 崔升准 当然也有不是这样的。我们这边大致一路聊下来了。 然后有个叫roon的人,据说可能是OpenAI tech staff里的某位,但没被确认。 不过他讲了很多有意思的内容,今天还是昨晚凌晨来着,他又发了一段对AI批判论的反驳,和我们今天介绍的内容有些相似,roon也提到了。 他说我们会看到一种新组织形态,它们把机器智能当作一级生产要素出生。 这点让我印象挺深。

41:57 卢正锡 就是我们最近说的AI-native company那种。

42:05 崔升准 他说有一类新组织把机器智能当作一级生产要素。还有个有趣点,我让模型去fact check他那段话里我标注强调的部分,讽刺的是GPT-5.2现在fact check做得挺好。 虽然LLM会hallucination,但因为有可调查工具,fact-checking反而做得相当不错,这很有意思。

结果会给出“大体属实”“部分属实”,还会附上准确引用与依据。比如Terence Tao做过这件事,这是事实;有强推测;难以断言;这段可能是假的,夸大可能性很高。现在只要让它做一次fact check,就能给出这些。

Andrej Karpathy的2025年AI年终盘点 42:52

karpathy.bearblog.dev karpathy.bearblog.dev

42:54 崔升准 已经快聊一小时了。年终盘点方面,Andrej Karpathy也做了年度review,timeline里已经传播很多了。就是说今年发生了什么。另外Karpathy相对中立,所以像幽灵 vs 动物、新层、Cursor和LLM、Claude、Codex、vibe coding、图像模型创新、LLM GUI,也就是Generative UI在后半段也有大事件。 对,然后结论是“系好安全带”。

43:29 卢正锡 我们公司有位工程师说过这话:AI把UI layer都写了,我们公司一切都建在Next.js上,那为什么还用Next.js?直接用native JavaScript就行,把框架拆掉吧,类似这种话。

blog.google blog.google

43:47 崔升准 我最近其实还有很多相关想法,但时间关系先略过。Gemini 3 Flash也出来了。对,挺快的。性能上可能有些遗憾,但肯定会有一些很契合的场景。所以总之它出来了。

40:14 卢正锡 对,没错。

44:09 崔升准 总之Flash出来了,模型还在继续发。离圣诞还有4天,但感觉他们还在不停工。这些人年末假期到底什么时候放?应该马上就去吧。

44:21 卢正锡 可能去不了,去不了吧。对,这几乎是chicken game了。还在不断发布。

44:30 崔升准 对,发布是有原因的。其实现在OpenAI也站在十字路口,“十字路口”这个词可能不太准,但确实压力非常大。彼此都得不断压住对方、确认自己、证明自己,所以即便年末这种事还在持续发生。

44:48 卢正锡 OpenAI和Google有点双雄突围,Anthropic挖了编码护城河,但那部分感觉在一点点变薄,大概是这种感觉。

手绘示意图——模型发展阶段依次为幼小蒜苗(Garlic model early checkpoint)→ GPT-5.2(current)→ more training/more data/more tuning → 完全长成的大蒜(Garlic model full-blown)。

44:59 崔升准 还有Sonnet 4.7的传闻。有人猜可能是接近Opus 4.5级性能,同时有4.7级速度之类,这些推测在timeline上能看到,但还没确认。 最近Claude有过故障,也有人奇怪猜测是不是在试验模型导致故障。 然后GPT-5.2这边,The Information有篇文章说它可能只是early checkpoint。所以他们一直在往外放。

而且GPT-5.2作为基础这一点,像我们上次说的第二弹,叫什么来着,Shallotpeat?不是那个模型,而是代号Garlic的模型,据说现在这个是early checkpoint,full-blown Garlic会在明年初见到。然后卢正锡说你研究了很多NVIDIA Nemotron,这是什么?

NVIDIA Nemotron与混合架构的未来 45:54

nvidia.com nvidia.com

45:58 卢正锡 NVIDIA Nemotron是NVIDIA像Llama那样完全公开的模型。我会认真看的原因是,它把dataset和training recipe,连代码都全部公开了。全都公开了。

46:13 崔升准 那就不只是open model,而是open source了。

卢正锡 是完全open source。而且对NVIDIA来说,做这些的人越多越好,所以他们有充分激励把这些recipe做出来并分发给所有人。人越多,买芯片的人就会越多。

而Nemotron把我们一直在讲的pre-training、SFT、RLHF、RLVR、数学和science、编码这些部分的数据集,连他们自己做的数据都公开了,而且怎么做的也全都直接放到GitHub上,所以我最近一直在认真看。

我自己的直觉是,我们到底该往哪逃这个问题,第一当然是用当前frontier模型的harness解决现实问题;但另一种既视感是,computation效率比在持续增长。因为算法增长、dataset增长、dataset开放,Andrej Karpathy说的cognitive core那种层级,也许在10B参数以下也会出现能完整覆盖某个业务的模型。 然后也会出现提供RLVR训练环境的公司,像新型SI公司一样。但差异在于,要做这些所需的基础信息门槛非常高。

所以我觉得那种世界会来。除了做harness,还得做model work,在业务逻辑内部也要拥有training、fine-tuning、RLVR、evaluation这些loop。我们公司也在努力内化这块。回到Nemotron,我们大概1~2年前,约1年半前聊过SSM和Mamba,24年末Falcon那边还做过Mamba-based模型,而SSM和Mamba非常有意思。

这个我们找机会也可以系统review一下怎么来的。先说intuition。最开始有RNN,对吧。实际上早期language modeling用的就是RNN。但它最后要用一个context vector去推所有上下文,性能就不行。

所以才有了attention模型。它保留前面输入的全部hidden activation,每次推理都再利用一次,于是发现attention可以完整解决这个问题。后来只把attention logic抽出来,就成了Transformer。

Transformer解决的是:RNN推理很高效,但training无法并行化,必须把句子全读完才能训,中间还有vanishing gradient和exploding gradient等问题。解决这个的就是Transformer。

但Transformer的坏处是可并行没错,可它内部attention logic计算在长度变长时,推理的context length一长,计算量就是O(n²)二次增长,这是Transformer的问题。虽然有很多解决逻辑出现了,比如grouped-query attention,或计算过程的FlashAttention,改善很多,但还是追不上RNN效率。

那问题就非常自然:如果把RNN的优点和Transformer的优点都拿到会怎样?如果像RNN那样推理时非常高效,同时又能像Transformer那样训练时并行化,不是很好吗?这个intuition做出来的就是SSM。 在SSM基础上解决几个问题得到的是Mamba。你会看到中间很多感觉和RNN很像,论文本身在我看来就是数学trick,很有趣。有趣的是Nemotron是完全Mamba-based。

但Mamba的问题是,它像RNN一样把sequence汇总进一个context vector;attention则是持续计算token之间关系。所以RNN擅长摘要,Transformer擅长记关系,各有优劣。现在新模型都叫hybrid。

比如我们熟悉的Transformer模型是几十个Transformer block堆起来。Nemotron是先堆8个Mamba block,再放self-attention,中间放FFN。FFN是MoE方式照样有。再堆8个Mamba block,上面一个attention block,这种组大概有8~9组。 所以它是30B总规模、约3B activation的模型,但速度非常快。虽然我不想直接说“几倍”,但它确实快很多。我会想这东西1年半前就诞生了,而这个hybrid本身也是一种新算法基因。

我觉得这个模型会广泛落地。因为hybrid的优势在计算侧压倒性强,在inference time下用更少计算量、更小模型规模,就能给出比Transformer略好的结果。现在说“好几倍”可能有风险,但确实在输出这类结果。所以我个人判断,下一代frontier很可能往这种Mamba+Transformer hybrid迁移。

52:43 崔升准 你刚才说“替代性基因”这个表达很关键。替代架构以前没有足够投资去做到可scale,但一旦证明能跑起来,就可能迅速大规模替换架构。

52:59 卢正锡 对,所以这种东西还不多。 不多,但Nemotron一直在推。如果这里再一次证明“小算力也能做出接近frontier且适配自己domain的模型”,那所有vertical都会有动力往这个方向冲。 对NVIDIA来说,这套framework能帮他们卖更多芯片; 对我们这种公司来说,frontier级knowledge、recipe、代码、dataset都给了,那就值得深挖。 所以我在考虑亲自做一轮Nemotron fine-tuning和RLHF。

53:52 崔升准 归根结底就像你开头说的,要做hedging。既要继续搭现有frontier方向的harness,也要在可行处做model work,理解当前态势并深入,因为不知道会往哪走,也不知道哪里会有gain。

54:10 卢正锡 对,但模型这块不能放弃。现在大多数value capture都在模型公司手里。不是模型公司的其他公司都得在很薄的层面竞争。

54:26 崔升准 你刚才也提到过,像处理新型基础设施的TML这类公司也存在。总之有这些讨论,下次深入会是很有意思的一期。

54:37 卢正锡 我们可以来一期SSM漫谈。

小米(Xiaomi)等最新AI模型动态 54:40

白色背景上以黑色粗体字写成的“Xiaomi MiMo”标志文字。

54:40 崔升准 小米这个也是卢正锡告诉我的,我也去看了,小米也在做。

54:45 卢正锡 paper我没细读,只看了abstract。不是拿别家模型来模仿,他们确实是from scratch自己做的。所以。

54:56 崔升准 最近韩国也在做from scratch。所以中国现在推进得非常猛,确实让人有紧张感。

55:07 卢正锡 体感上中国就是美国级别。至少我看是这样。

55:12 崔升准 某种意义上就是当前双强。总之就是这样的时代。然后也是中国那边的模型,现在好像是按层来做生成。不是把层抠出来,而是生成本身变成layer化。

55:28 卢正锡 这个得试试。

55:30 崔升准 还有Yao Shunyu,之前在OpenAI的人去了腾讯。

55:36 卢正锡 是明星研究员,跳槽去腾讯了。

friendlybit.com friendlybit.com

55:40 崔升准 现在有点累,不知道能不能展开这个。Simon Willison最近又回到底层,发了篇关于“今天能做什么”的很有趣文章。JustHTML不是Simon Willison本人做的,是他引用了别人的故事,但内容很有意思。 讲他们是怎么做的。做了很多测试,用非常小的步子推进,去porting或重做某些东西,整个过程都展开讲了。 我是一周前读的,当时觉得很有意思,但现在记忆又有点淡了。如果有人感兴趣,可以看看他们具体是怎么做的,应该还能拿到一些insight。

总结与下期预告 56:31

56:31 崔升准 所以即便年底了,每周新闻和信息还是不断。

56:38 卢正锡 因为机器还在持续运转。pre-training代码和RLHF代码此刻也在高强度跑,也许就是这个原因吧。

56:45 崔升准 是啊。我们今年收官前还有机会再录一期吗?

56:52 卢正锡 应该有。还会再来一次。不是约了27号和成贤一起录年终总结吗?主题大概是今年frontier如何推进。到时候可能最后还会再聊一次模型。

57:11 崔升准 要做总结的话最好那周没新消息,这样才能回顾;但如果那周又有消息就很难办。好,今天就到这里。

57:15 卢正锡 好,今天又快速过了一遍。

57:20 崔升准 对,感觉只是扫了一遍。真正深入的不算很多。好,了解。

57:23 卢正锡 好,辛苦了。

57:23 崔升准 好,辛苦了。