AI Frontier

EP 81

DeepSeek 改变的一切:MoE 与 RLVR,2025 年 AI 回顾

· 卢正锡, 崔升准, 金成贤 · 1:11:40
整页
查看本期参考资料

EP 81. DeepSeek 改变的一切:MoE 与 RLVR,2025 年 AI 回顾

开场:2025 回顾与 2026 展望 00:00

00:00 卢正锡 今天录制的日期是 2025 年 12 月 27 日,周六早晨。2025 年终于要结束了。真的发生了很多事。尤其是 2025 年变化速度太陡了,所以我觉得做一次 recap,再预测一下 2026 年会发生什么会很有意义,因此今天邀请成贤来聊这个宝贵的时间。成贤,欢迎你。

DeepSeek-R1 之后:RLVR·agent post-training 00:29

00:29 金成贤 没想到会以这种形式做 2025 年回顾。不过应该会是一次很有趣的机会。2025 年确实发生了很多事。但我为了做这次回顾重新把过去的记录都看了一遍后,又觉得变化好像没有想象中那么多。

2025 年初 R1、DeepSeek 事件引发范式大转向之后,后面发生的事更像渐进式发展。2025 年初出现了 RLVR 和 agent post-training 这套新范式,整个 2025 年似乎都在围绕这套范式进行发展、理解和探索。

和学术略有区别,或者说跨在学术与产业之间的最有趣变化之一,是出现了大量开放前沿模型。DeepSeek、MiniMax、Z.ai、Xiaomi、Tencent、Moonshot、Ant、Alibaba、Meituan 等等等等,很多公司都公开了模型,

2025 变化 #1:中国发起的开放前沿模型热潮与主导权 01:20

01:40 金成贤 这些模型并不只是像以前那样做 70B、最多 70B 这个量级、接近 Llama 2 那种规模再公开。2025 年公开的模型几乎都是前沿或准前沿级别。而且这些公司大多都在瞄准前沿。我认为这是 2025 年最大的变化。

像 2024 年时,大家更像是在“我们能动用的资源里尽力而为”。与其说做前沿,不如说更多关注小模型、效率模型,或者说也可以理解为那就是当时的上限。大致是那样。但到了 2025,这类模型几乎减少了。几乎所有公开模型的主要公司都在冲前沿,都在追求更大、更强的模型。我认为这是思维和趋势上的巨大变化。

02:42 崔升准 全都是中国。

02:44 卢正锡 你列的这些模型不是 100% 都是中国的吗?

02:50 金成贤 是的,100% 都是中国。中国以外几乎没有能称得上前沿、且做出令人印象深刻结果的模型。比如有过 Llama 4,但没留下什么有冲击力的痕迹。年末 Mistral 好像也要发模型,但那看起来也不是开放的前沿级模型。所以基本是中国主导了。

而且中国是在相对受限的算力条件下,依然都在瞄准前沿、想往下一阶段走。我觉得这是重大范式转移。大家对“小而适中”的模型兴趣已经没那么高了,基本都在追更高性能、更大模型。我觉得这是 2025 年最重要变化之一。真的有很多不同公司在做模型。

03:39 卢正锡 只剩中国了,真的。

03:43 金成贤 只有中国。尤其是公开模型这一块,只有中国。

DeepSeek 改变的一切:所有人都在冲击前沿 03:47

03:47 金成贤 这种变化之所以可能,本质上是中国在算力上仍有很大约束。按这个前提,本来可能是“在现有算力里做能做的事,做小一点但更强的模型”的路线;但现在证明了即使在小算力下也能冲前沿,所以才有了这次变化。

其中作用最大的我仍然认为是 DeepSeek。DeepSeek 展示了在受限算力资源下,比如 800~2,000 台这个级别,也能冲前沿。这个被证明后,大家就转向“那就都去冲前沿”。于是都开始走向更大、更强的模型。

MoE 图表解读:dense vs MoE,计算倍数 04:34

04:34 崔升准 这个图该怎么读?

04:40 金成贤 其实我很纠结要不要放这张图。

如果想直观理解,最浅的天蓝色部分可以看作所谓 dense model。

上面的这些线可以看作 MoE 模型。这里的 legend 有点写错了,这些是 MoE 模型。

这张图很重要也很有冲击力,因为横轴下面的是训练计算量。假设训练计算量在 10 的 24 次方左右,这大概还没到最前沿模型的级别。

在这个计算规模下,MoE 模型性能相对 dense model 超过 7 倍。换句话说,在同样用 10 的 24 次方算力训练时,MoE 的效果接近于 dense model 多投入了 7 倍算力。

也就是说,dense model 用 10 的 24 次方计算量时,若同样计算量改做 MoE,那么 MoE 的表现大概等于 7 乘以 10 的 24 次方那个量级的 dense 表现。

更有冲击的是,随着训练计算量增加,这个倍数还会变大。这是很罕见的现象。

在模型领域里,线性维持双倍都已经是重大发现,但目前已知情况是 MoE 在训练计算量越大时,这个倍数还会继续扩大。也就是会越来越好。

相对 dense model,已经越来越没有不用 MoE 的理由。到这个阶段,不用反而变得奇怪。

sparsity 与 compute multiplier:为什么 MoE 有优势 06:14

06:14 崔升准 但这里为什么会分成三种 MoE 模型?

06:24 金成贤 这叫 sparsity。可以理解为总参数里,在一次 inference 预测 token 时实际使用参数的比例。

06:32 崔升准 是不是那种切得更细的感觉?

06:35 金成贤 对,比如这个是总参数里只用四分之一。上面这个是总参数里只用五十分之一。比如说,使用参数越少,或者越稀疏,这个“乘数”怎么说呢?我们叫 compute multiplier,计算倍数会更大。斜率在变大。当然这基于 FLOPs 计算,所以考虑实际推理条件、内存带宽等因素时,不一定总是完全如此。但仅从纯训练计算量来看,出现这种模式本身就很惊人。

07:20 崔升准 虽然还不是 scaling law,但有种类似那个感觉。

07:26 金成贤 某种意义上就是 scaling law。这个 scaling law 里有两个 component,一个是 exponent,也就是幂次指数,另一个是前面的系数。如果出现 exponent 变化的模式,就会出现这种现象。那样的话,不用它反而会变成一种不自然的技术演进。MoE 就扮演了这个角色。

MoE 成为主流与 DeepSeek recipe 的扩散 07:48

07:51 金成贤 到 2024 年为止 MoE 模型还很少,但 2025 年出的模型几乎全是 MoE。除非是 edge device 那类场景,不然几乎全是 MoE,连 GPT-OSS 也是相当稀疏的 MoE。把这套 MoE recipe 系统化,DeepSeek 的贡献非常大。某种意义上,DeepSeek 设计的架构已经成了上一代 Llama 那样的基座架构。

所以像 Kimi,比如 Moonshot 的 Kimi,直接说没必要硬改 DeepSeek 架构,这架构已经足够好,沿用基本结构就行,于是就直接采纳了。Mistral 大概也做了类似选择。可见 DeepSeek 先驱性地做出了非常成熟的 MoE 架构,并让所有人都体验到:只要采用这个架构,就能在极其受限的算力下冲击 GPT-4 甚至以上。这是非常关键的组成部分。

MoE 原理:稀疏性·模块化·路由视角 09:01

09:01 卢正锡 MoE 在直觉上是“对,这样应该很好”,但同时又是“还是不太懂”的领域。我们说 expert 时很容易想成“数学归这个 expert,科学归那个 expert”,但其实不是那样。每个 token 都走不同 expert 路由,里边还有共享的,也有 7 个同时 activation 的,这些全都是 hyperparameter。成贤,这方面理论背景有更清楚吗?它为什么成立?

09:37 金成贤 最近看 MoE,我觉得最好的理解方式还是“稀疏性”。用稀疏性概念去想会很合适。假设有上百个潜在模块,但每次实际只用其中一部分,这就可以称为稀疏。通过这种稀疏性,每次实际使用的计算量是受限的。因为实际使用参数只是一部分,这是固定的。由于总参数很多,而且每次会因情况、因 token 而使用不同模块,所以可以理解为总参数被放大了。解释起来确实有点难。

10:26 卢正锡 对,很难。难点就在这,确实不太好解释。

10:34 崔升准 虽然有点模糊,但它是不是有种模块化、正交化、可组合的感觉?

10:38 金成贤 对,是这样。打开这种可组合性的也是 DeepSeek。它是模块化的,每次只用部分模块;但因为准备了很多模块,从整个系统角度看,就能产生超大模型的效果。23、24 年大家就觉得 MoE 是好方向,但没人想到会这么好。即便 GPT-4 是 MoE 这件事已被知道,随着经验积累,大家感觉也从“挺好”变成“是不是好得离谱了”。

11:13 崔升准 所以这是 2025 年第一条。

11:17 金成贤 MoE 是第一条。现在几乎所有模型都转成 MoE,非 MoE 的情况非常少见。

11:23 崔升准 卢正锡你评测过的 Kimi k2 里,MoE 切分单元是不是也很多,几千个来着?

11:32 卢正锡 不是,几百个级别。是比 DeepSeek 增加了数量,但整体架构是一样的,也做了你刚才说的那些 sparsity 效率最优点之类的实验。

11:46 崔升准 关键字又变成 sparsity 了,和 MoE 连在一起。

11:53 卢正锡 你把 2025 年第一名给了 MoE。MoE 就是 Mixture of Experts,意思是把 experts 混合起来。

11:58 崔升准 这名字有点怪。继续往下走吧。

2025 变化 #2:RLVR 公开与推理模型扩散 12:01

12:03 金成贤 接下来应该是 RLVR。它几乎把 o1 的方法公开了,带来巨大变化,而这最终也是 DeepSeek 做的事。

12:14 卢正锡 是啊。

12:15 崔升准 现在想想确实很惊人。

12:19 卢正锡 真的干了件大事。24 年末 DeepSeek-V3 论文出来,基本把 MoE 这些都定了下来;而 RLVR 是 2025 年 1 月随着 DeepSeek-R1 模型和论文一起出来的方法论。

12:38 金成贤 其实 DeepSeek 的影响力甚至可能被低估了。它对范式和市场状态的改变太大了。RLVR 这套方法是“用可验证方式、用正确答案给奖励,推理能力就能被学会”。在 2024 年大家探索过的各种方案中,它用最简单可想的方法为核心问题画了句号。并且它给了 o1 方法非常强的线索,让开发类似 o1 的推理模型成为可能。推理本身显著提升了模型性能,也打开了所谓 agent post-training 的一个方向。

所谓推理,不只是认真解数学题,也包括模型使用工具、与外部环境交互,并通过这些交互作为 agent 完成任务。对这一整个过程在 RLVR 框架下给奖励并训练,模型本身就开始以 agent 身份学习。

这件事影响非常大,也已在市场上体现。现在的前沿模型,以前可能是简单做 base pre-training 再轻量 post-training、做点 instruction following post-training 就能发布;现在的模型基本都把 agent post-training 和推理作为标配。这本身带来了很大变化,也在模型可用性和可能性层面造成巨大变化。

agent 模型在市场上带来的冲击其实无需强调。现在的 coding agent 等各种 agent,都是通过这种 agent post-training 才变得可行。

14:27 崔升准 那这么说会不会不严谨?如果 RLHF 是为了做 chatbot 的 post-training,那 RLVR 就是为了做 agent 的 post-training。

14:39 金成贤 对,可以这么理解:通过 RLVR,模型可以被训练成 agent。

14:43 卢正锡 这个话题我们在成贤上次那场里深入聊过,我记得非常有意思。想再了解的朋友可以去听成贤上一次那期。

14:56 崔升准 不过那时候你似乎还没用“agent post-training”这个术语。

15:04 金成贤 对,当时还没讲 RLVR 怎么连接到 agent。比如可以这么看。

用 RLVR 训练 agent 的方式:工具使用·最终结果评估 15:07

15:11 金成贤 要让模型作为 agent 工作,必须给模型各种工具。比如调用某个工具来使用编辑器,或者在 coding agent 场景里读 source code repository、读文件、写修改,这些都通过工具发生。

模型通过这些工具与外部交互。那问题是,怎么让模型把这件事做好,怎么训练它,让它能用工具完成目标任务。RLVR 给了一个非常简洁的答案。

先让模型可以使用工具,至于“具体怎么用工具”先不展开,直接看最终产物来评估,范式就转成这样。

比如是编码任务,就评估编码任务最终产物是否令人满意。

比如 unit test,最典型。通过 unit test 就能验证编码是否正确、最终结果是否达标。

那达到最终结果之前的过程,人就先不必逐步设计。让模型自己使用工具,不管怎样去到结果。

一旦达到期望结果,就给奖励。

通过这个过程,RLVR 驱动了 agent post-training。

当然这非常简化,像 cold start 等问题都在,但基本思路是这样。通过只评估最终结果,模型就可以被训练成 agent。

如果是以前,这些都得人手工设计。

16:58 崔升准 这张图又是什么?

17:00 金成贤 我也想了很久用什么图最能解释 RLVR,但没找到特别合适的。就从 DeepSeek-V3.2 论文里拿了一张“随着 RL 训练进行,性能提升”的结果图。更具体说是用合成环境做 RL 训练得到的结果,但这个细节不算关键。

17:30 卢正锡 x 轴是 training step,左边是对应性能指标,

17:35 金成贤 是性能变化指标。

17:37 卢正锡 是 benchmark 指标。上次成贤你那场关于 RL、RLVR 到底产生什么影响的分析,我印象特别深。你说这些能力本来就在 baseline 里,RL 的作用是把这些能力更好地“调出来”,这点对我影响很大。

18:04 金成贤 关于这个我现在应该可以再多讲一些。还有我开头说过,发生了新的范式转移,RLVR 就是这个转移。2025 年很大一部分时间都花在扩展、改进、深化对它的理解上。

2025 年 RL 基础设施的爆发增长与稳定化课题 18:22

18:26 金成贤 这和模型性能是稍微不同的问题。和 RL 相关最有意思的一点,是 RL 基础设施的发展。LLM RL 有非常麻烦的要求。

首先要能训练模型,所以要有训练基础设施。

还要用这个模型去生成并与环境交互,所以要有采样引擎基础设施。并且要有通过采样结果与环境交互、从环境得到变化或结果的基础设施。

而且这些基础设施彼此全连着:训练结果传给采样引擎,采样传给环境,环境结果再回到训练。

但从基础设施角度看,单做其中一项都很难。仅把训练这一部分单独拿出来并做到高效,本身就很难。这几乎就是 pre-training 时代的全部重点。

现在不止如此,还要让高度异构的基础设施协同。模型要快速训练,采样也要快,训练与生成要快速切换,评估和奖励也要快,而且整个流程还要准确。

如果这个过程中有一点误差,就会妨碍训练,这类研究在 2025 年出了很多。但“快”和“准”同时做到一直都难,这带来了很多新问题。

随着 MoE 成为主流,如何稳定做 MoE RL、如何稳定训练 MoE 的 RL,也成了重要话题。这很难,但中国那边贴得很紧,所以进展很快。我认为这也是 2025 年非常关键的一条主线。

另外,对 RL 的理解也有很大进步。其中一条主线是 RL 方法改进。当然也有很多研究在问:RL 到底怎么发生?在 RL 过程中 LLM 里到底发生了什么变化?为什么在 LLM 上 RL 这么有效?

但在“理解 RL”这件事上,我个人最感兴趣的一项研究是:从 LLM、RL 初期就一直存在的问题,即 RL 到底是在赋予新能力,还是只是在提取已有能力。也就是能力本来就有,只是被埋住了,RL 把它拉出来。早期很多观点都认为这大概就是全部。随着对这部分理解加深,关于 RL 赋予新能力出现了新的想法,也就是所谓 atomic skill(原子能力)和组合这些原子能力的能力。

atomic skill vs 组合能力:对 RL 作用的新理解 21:10

21:18 金成贤 说到原子能力,可以把它理解成四则运算。四则运算是原子能力,而把这些四则运算组合起来去解更复杂问题,这是组合能力。原子能力重要,组合能力也同样重要。现在大家怎么看 RL?通常认为这些原子能力是在 pre-training 学到的。比如四则运算这类能力是在 pre-training 过程里学到的。那 RL 学到什么?大家认为模型可以通过 RL 学会组合 pre-training 里学到的能力。

21:55 崔升准 这不是和刚才 MoE 说的有点像吗?

22:01 金成贤 和 MoE 还是不一样。这里是说存在一些简单基础能力,比如四则运算,这些基础能力本身 RL 不太容易学。但把这些基础能力按顺序组合、从而解新问题,这种组合能力看起来可以通过 RL 学到。这可能是 2025 年在理解 RL 上最有趣的话题之一。

22:28 崔升准 以我现在听来,这个 skill 1、2、3 的结构似乎是另一层意思。这很关键吗?

22:38 金成贤 skill 1、skill 2、skill 3,可以看作彼此独立的技能。不只是这个问题,在其他问题里也会出现。通常认为这些技能是在 pre-training 学到的。也就是这些单项技术在 pre-training 学会。但真要解题,必须把它们组合好。

23:03 崔升准 这个组合是 chaining 那种感觉吗?先做一个,再接下一个?

23:05 金成贤 对,chaining 是组合的一种方式。

把这个 skill 的结果接到下一个 skill,再把下一个结果接下去,这样的结构可以看作组合。

即便是简单四则运算题,通过不同组合也能做很多事。

所以虽然有单独技能,但“如何组合这些技能”本身也是另一种能力。

而很多人认为这种组合能力是 RL 赋予的。通过这个理解,我们对 pre-training、所谓 mid-training、post-training 如何分工有了更清晰认识。

当然 atomic skill,也就是“原子技能”到底该如何定义,仍有些微妙。

说 pre-training 学 atomic skill,那 atomic skill 到底是什么?可能不止四则运算,还可能涉及更复杂、更大粒度能力。

这部分仍有很多需要继续理解的地方。

但通过这些研究,我们对模型如何改进、RL 究竟在做什么,有了很多新理解。

如果 RL 能带来组合能力,那 pre-training 就应更注重培养这些原子能力,把基础能力打磨好,这样模型就会更强、能做更多事。这样的理解就出现了。

24:40 崔升准 这是经验观察吗?RL 为什么会产生这种新的、也就是组合能力,其实还不知道吧。

24:43 金成贤 对,到那一步还没有理论性分析。是通过相对简单设定得到经验结果。比如:没有基础能力时 RL 本身效果不好;有基础能力时,模型可以把它们组合,并且通过 RL 学会更长链路、更复杂组合。这些是经验上验证出来的。因为很多分析发生在较简化设定下,所以它在真实场景影响多大,仍需继续思考。

不过已经有人开始转变思路:在 pre-training 或 mid-training 阶段,先集中把这些原子能力,尤其是 agent 需要的原子能力,单独注入好。因为如果这些原子能力注入得好,组合可以交给 RL。这种想法已经在发生。

12:14 卢正锡 是啊。

25:51 崔升准 mid-training 是更偏 domain specific 训练吗?

25:56 金成贤 mid-training 不是严格定义的概念。但可以理解为进入 post-training 前,做一些能帮助 post-training 的训练。因此如果 post-training 负责学组合能力,那在 mid-training 里就可以更聚焦学这些原子能力。这种路径就成立了。

随着对 RL 理解加深,很多问题也能开始回答。比如“通过 RL,我们是否能做到以前无法建模的事?”“是否真的能解更复杂问题?”这些都能回答了。

看起来 RL 确实可以做到这些。随着 RL 算力提高,模型会越来越能通过组合单项技能来解决更复杂问题。我们能持更乐观的预期,而不只是“只能提取已有能力”。如果只看作提取已有能力,就会变成“pre-training 没有的就做不到吧?”这种想法。但现在看起来,pre-training 的边界是在被突破的。

27:06 卢正锡 对。我们也有个有趣类比,高中数学考试不就是这样构成吗?通过例题学基础技能,再通过后面大量练习题的多样性,实用性就上来了。

27:21 崔升准 现在高中还用“例题”这个词吗?

27:29 卢正锡 其实只要把例题真正吃透,也能解很多问题,但后面还得做三十道练习题才能上考场。

27:33 金成贤 有些东西不亲自做就学不会,也只有通过这个过程才能学会把这些技术用到具体问题上。现在大家认为这可能就是 RL 的最大作用。

27:48 卢正锡 2025 年确实是 RL 之年。MoE 和 RL 其实是不同层的话题,一个偏架构,一个偏上层训练与 curriculum,所以是不同维度。RL 真的是大议题。2025 年,没错。

“真正的 RL”争论与 LLM RL 的意义 28:01

28:01 崔升准 那“这到底算不算真正 RL”的争论现在结束了吗?

28:08 金成贤 还在。一直存在。冲突还在。那些比较“正统”做 RL 的人还在说这不是真正 RL。不过我也不太确定。追求“真正 RL”这件事到底有多大意义,我也会想这个。以及,上一代 RL 真的就是能把好问题都解决的方法吗?实际上通过 pre-training 与 LLM RL 的结合,可做的事情已经大幅扩展了。

28:39 崔升准 先不说别的,确实是。它在利用强 prior。

28:42 金成贤 对,是在利用 prior。如果没有它,现在这种解题能力显然不可能。像 atomic skill、技能组合这些问题,传统 RL 里本来就不是核心关注点。但有了 LLM,才有了这种视角。按这个视角看,如果 RL 学的是组合能力,那就反过来说明在 LLM pre-training 里培养 atomic skill 这类能力非常重要。正如卢正锡刚说的,2025 年确实是 RL 之年。

现在所有人都开始关注 RL,意识到必须做 RL,并且承认、接受了它。研究方向也都围绕 RL:做更高效的基础设施、改进 RL 方法、设计更好的 objective、提升对 RL 的理解、理解里面到底发生了什么、以及改进 RL 所需的 mid-training 准备工作。所有这些最终都和 RL 相关。再重复一次,扩展理解、打基础、再把技术打磨精进,这就是 2025 年很重要的事情。

所以有点讽刺的是,如果 2025 年里出现好几次范式级地震会很刺激,但真正的大事件似乎都集中在前期,集中在 DeepSeek moment。其余阶段与其说是“范式彻底变了”的震撼,不如说是“打磨期”。

30:23 卢正锡 对。应该说是方法论被拉到可 scale 的阶段,尤其是 2025 年后半段。

30:30 崔升准 但 recipe 都公开了,为什么只有美国和中国做出来?

30:36 金成贤 这个我也不太清楚。有人在推特写过:DeepSeek 把 recipe 都公开了,中国也都在照着做,为什么结果只在中国出来?大概也许是意志问题,也可能是环境和资源问题。不过再过些时间,应该会有更多成果吧?韩国也在做 RLVR 这些东西了。

31:06 卢正锡 对,我们不就在旁边一直看着这些能力在变好吗?

论文之外的 recipe:数据·基础设施·隐性知识竞争 31:11

31:17 卢正锡 升准这点提得很关键。其实成贤和我们讨论的那些“论文上看到的方法论”“直觉是什么”,都只是冰山一角。

表面上我们看到“原来是这个形状”,但水面下是数据集精炼、computation infrastructure,以及你刚才展示的、因 RL 而变得复杂很多的训练 pipeline。我们把这些统称 recipe。但这些里面有很多不会被干净写进论文的隐性知识。比如“这个 hyperparameter 这么调会在那儿挂、在这儿挂”,这些经验基本都在做过的人脑子里。所以掌握整套 recipe 的人身价才这么高。

32:11 金成贤 尤其最不透明的是数据部分。pre-training 数据如此,post-training 所需数据怎么构建更是隐性知识,很多公司应该都在这里竞争。它们在内部开发技术、积累“数据该怎么做”的 know-how,而这些 know-how 最终会体现在产品质量上。

所以从某种意义上说,前沿公司就是在这里竞争。比如目标是做更强 coding agent,那一定存在“为此需要构建的高质量数据”,但怎么构建、长什么形态,这些都是隐藏 know-how。大概只能靠亲自做、持续迭代来掌握。这些知识本身就是隐性知识。

33:02 崔升准 它在人脑里,可能还是 dirty engineering,所以最终是这些人所在 cohort 才能跑起来。中国和美国都一样。

33:11 金成贤 对,但我个人看法是,既然这么多公司都在到达那个层级,说明它并不是“不了解某个关键秘密就绝不可能做到”,而更像是“条件具备就能做到”。虽然这么说可能不完全准确,但我觉得大概率是任何人都有机会达到。因为如果真是绝密,不会有这么多公司都做出来。

从这个角度看,模型也越来越不像纯研究对象,而更像产品。研究视角下做到 90% 也许就够了,但要成为成功产品就得打磨到 99%、99.9%。因此“把 AI 模型当产品看”的视角,以及相应文化,正在变得更重要。要像做产品一样做 AI 模型,也要像做产品一样做研发。

前沿标准:比起模型规模,更看训练方法·数据 34:17

34:17 卢正锡 成贤,刚才你讲中国前沿模型时,这些中国模型好在规模和架构都公开。说到前沿模型,比如 Opus、Gemini Pro,大家会估计在 1T 到 2T,也就是 1,000B 到 2,000B;而 DeepSeek、Kimi 发布的模型在 600B 到 700B;再往下像 Sonnet、Gemini Flash 可能在 100B 以下。现在中间也在不断出模型。

但其实只要超过 30B,就已经聪明到人类很难区分。你脑子里对“前沿”和模型 size 的关系怎么判断?是不是有个分界,比如到某个规模才能算前沿?

35:23 金成贤 比起模型大小本身,我觉得“这个模型是怎么训练和做出来的”对前沿更关键。

不过以前像 DeepSeek 也是超过 600B 的模型,所以会让人觉得至少要 600B 到 1T。但现在 MiniMax、Z.ai 这些模型大概总参数 100B,实际 activate 使用参数只有 10B 这种很小规模,也做出了很多有意思结果。而且像你说的 Flash、Sonnet 若是 100B 级,那在总参数 100B 的模型里也已经能看到前沿痕迹。

而且这些模型只要训练得好,确实能执行很有意义的任务。

12:14 卢正锡 是啊。

36:11 金成贤 再往下的规模,我感觉大家就不太考虑了。大体上是这样。

36:18 卢正锡 也就是现在大概在 100B 这种模型上,也能闻到前沿味道。

36:22 金成贤 前提是做得好。

36:23 卢正锡 对,资源更充足的人会继续探索更高规模区间。

36:29 金成贤 对。虽然说 100B,但实际使用参数只有大约 10B。其实是很小的模型。

36:36 卢正锡 这就是 MoE 才可能做到的。

36:38 金成贤 对,靠 MoE 才行。不止 MoE,也因为大家对模型训练方法和理解更深了,所以才可能。100B 这个规模本质上和以前 70B 差距并没大到离谱,但在这个规模上已经能做出很多有趣东西了。这个就是……

37:04 崔升准 这个我不太懂。那前沿里以前说 GPT-4 大概 2T,不就是和 serving 上限有关吗?那放到现在,4T、4T 这种只要是 MoE 就也能 serving 吗?

37:24 卢正锡 按 Bay Area 硅谷流传说法,现在 Opus 级前沿大概 1T。1T。

37:29 崔升准 但那本质还是和 serving 上限耦合的,对吧?

37:33 卢正锡 也可以这么看,但真相我们也不知道。

37:38 金成贤 serving 的难点应该也有,但这块我不太清楚。

37:43 卢正锡 Long story short,也有人很激进地把我们看到的深度学习和模型进展都归结为数据问题。最近 NeurIPS 上崔艺珍教授 keynote 就很强调“数据就是全部”,我印象很深。

38:03 金成贤 最近听到一句话:模型是产品,数据是模型。有人这么说,我觉得很对。数据确实重要。虽然没有 AI 研究者或工程师会否认数据重要,但还是得不断强调“数据最重要”,不然大家会忘。

38:23 卢正锡 而且前沿实验室确实在数据质量上投入了巨大努力。这次 Nemotron paper 也是,tech paper 一半以上都在讲数据。几乎不讲 hyperparameter 或架构,主要在讲他们为构建数据集做了什么努力。

38:47 金成贤 在深度学习里数据一直是最重要问题。绝对不能忘。但“数据重要”这句话要反复讲,恰恰说明人会不断忘记它最重要。

38:58 卢正锡 对,我们作为观察者也更容易被图、架构、做了什么就变好了这种东西吸引,毕竟更有趣。

39:06 金成贤 但打磨数据一直都是关键问题。从 product 视角看,为了把产品做出来,把数据提升到“足以成为产品”的水平,是极其关键的问题,现在也是如此。

39:21 卢正锡 Nemotron paper 还有个补充:他们做数据加工时大多用的是 Qwen 30B 模型。

39:33 金成贤 有点悖论,但那些开放模型在数据加工上确实发挥了巨大作用。

39:37 卢正锡 基本都这样。

39:42 金成贤 做模型需要数据,但做数据也需要模型,所以第一步模型角色现在正是由开放模型承担。

39:49 崔升准 现在是数据加工?还是生成?

39:55 金成贤 都是。两者都越来越模型化,所以都需要模型。到这里就是我对 2025 的感受。

40:02 卢正锡 MoE 和 RL 之年。

2026 展望 ① scale-up:更大的 pre-training 与 active 参数 40:06

40:06 金成贤 上面这些算是梳理完了。再看下一阶段,我认为现在所有公司,尤其中国公司,最想要的是 scale-up。

大家都能看出对 scale-up 的渴望。会有种“要是模型能再做大一点、pre-train 能再大规模一点就好了”的遗憾。RL 好像已经做得比较充分了,想基于这些经验把 pre-training 再 scale-up。我觉得这种动机在 technical paper 里都能看出来。中国公司尤其想要,而且越难做到越想要。中国现在毕竟有算力约束,所以更渴望这件事。

所以从这个意义上,scale-up 明年我认为一定会出现。这是自然趋势。应该会出现比现在更大、训练更久的模型。

40:57 卢正锡 成贤,能再具体解释下你说的 scale-up 吗?你这里说的 scale-up 是指硬件算力扩张、由此带来的模型规模增长、数据集增长、RL 环境增长,还是这些全都包括?

41:14 金成贤 都包括,但这里更关键的是模型基础 size,也就是基础量级。它更接近 pre-training 的量级。比如模型说 1T、2T,但大多数模型实际使用参数像前面说的只有 10B 或 30B、40B、50B 这种级别。低于 100B 的实际使用规模。

如果总参数是 1T、2T,实际只用其中大约 100B、甚至不到 100B。做 RL 时就会想:这个规模都这么有效,那再放大呢?不是 100B,而是 200B、300B active 参数会怎样?一定会这么想。还有 pre-training 长度,中国模型现在大概是 15T token 训练。

如果 15T 已经这样,那 50T、100T 会怎样?就会这么想。那时候会发生什么?当然没做过就不知道。但大家会预期可能再跳一阶。也就是有机会发生跳跃。所以都在追求这种 scale-up。如果给更多算力,能训练更大模型,那就可能做更强的 RLVR 和 agent 学习,大家就是这么想的。

42:37 崔升准 你链接里说的是不是类似这种,中国那边播客也在讲?

42:41 金成贤 这个是另一回事。这里主要是 DeepSeek 最近技术报告里提到的。它们会说希望进一步强化 pre-training。希望能处理更长上下文、模型更大。其实 DeepSeek-V3 里一个有趣点也是:模型变大后 RLVR 更好,这种效果他们观察到了。也就是 R1 论文里,小模型不太行,大模型上 RLVR 突然开始更有效。既然这个跳跃已经出现,那大家自然会想:只会在这个点跳吗?更大模型会不会解锁更多以前做不到的事?

43:20 崔升准 11 月 Gemini 3 不是也提到 pre-training 突破很关键吗?方向一样。

43:31 金成贤 对,方向一致。既有 pre-training 方法改进,也有 pre-training 规模本身改进。大家都意识到这点,也都想要。

43:40 崔升准 也就是 pre-training scale-up 后,RL 的 scale-up 或性能提升会自然跟上。

43:44 金成贤 对,会自然跟上。而且提升可能不只是分数上升,而是“原来做不到的现在做到了”。

43:50 崔升准 甚至可能会有新能力涌现,也可能出现新的能力。

43:56 金成贤 这应该就是中国公司 2026 年目标之一。所以它们都在想办法聚集更多算力,估计也都在纠结要不要买 H200。还有一个一直在说的观点:沿着现在的方法持续推进,也会持续产生经济价值。

就像这样,沿当前方法不断提升性能、扩展 domain、攻克更多以前做不到的事,比如扩到白领工作,像科学场景这种实际需要实验的领域,把 agent 学习和实验需求结合起来。这类 domain 扩展是非常自然的目标。没理由不做,也完全值得做。

瓶颈在数据:99%→99.9% 的长尾问题 44:40

44:44 金成贤 但最大瓶颈会是数据问题。这个播客也是前两天刚出的,里面也说了同样观点:前沿公司正在把巨大资源投入到“制造好数据”上,但这到底要做多久,本身就很难。

也就是,模型和 agent 如果要做更复杂、更高质量工作,那数据本身也必须更复杂、更高质量。那就意味着要产出更高质量、更多样的数据,资源投入会非常大,成为瓶颈。这个播客里用自动驾驶做类比,我觉得很贴切:做到某个程度很容易,比如 90%;但从 99% 到 99.9%,就必须收集大量 edge case、corner case 以及长尾数据。

只能不断收集数据,持续收集,一点点往上抬。这本身就是巨大瓶颈。大家会想这种方式到底还能持续多久,也会想有没有突破办法。我觉得这可能是当前拖慢开发速度的最大问题。

45:58 崔升准 稍微岔开一下,中国播客那边的话语水平是不是很高?黄东成翻译的我也看了,感觉讨论已经很接近前沿,内容很有意思。

从中国播客看前沿话语 46:03

46:17 金成贤 不是每期都让我觉得很有意思,但确实有很多非常精彩的讨论。机器人、AI 等等,而且是研究者直接来讲。比如这种播客,来的不只是 CEO,还有研究者、Chief Scientist 这种级别的人,会直接讲他们现在在解什么问题、看重什么。这样的信息在英语圈其实也不算常见。

46:54 卢正锡 这点崔艺珍教授在 keynote 里也半开玩笑说过:现在这个前沿,是“在美国的中国人”和“在中国的中国人”一起在推动。

47:00 金成贤 而且中国这边出来聊的 Chief Scientist 这类研究者,都是前沿公司内部的人,所以也能听到一些前沿公司内部视角。对我来说这很有价值。

47:11 崔升准 也就是说中国新闻也得看。

47:17 金成贤 对,如果有兴趣,去看会学到很多。

47:24 卢正锡 对,这播客名字就不简单。小宇宙,拼音我不太确定,应该就是“小宇宙”。

47:28 金成贤 播客标题好像是“Language is World”,“语言即世界”这种感觉。很有意思。这期也很精彩,但它的 transcript 不太方便共享,所以内容也不太好转述。

47:41 卢正锡 是中文对话吧?

47:43 金成贤 对,中文。

47:44 崔升准 但现在可以翻译着看了。

47:46 卢正锡 对,抽中文对话 transcript,再转成英文或韩文就能看。

47:51 金成贤 我是翻成英文在看。

47:55 卢正锡 对,中文到英文翻译几乎已经很完美了,阅读上问题不大。

48:00 金成贤 Gemini 3 做得很好。到这里还是对现有范式的扩展;而在这之外,我仍然认为去思考完全不同范式依然很重要。我也期待明年能看到新范式的轮廓。

2026 展望 ② 更自主的 agent 与界面变化 48:05

48:21 金成贤 说到新范式,我认为一个非常关键点是更自主的 agent,这对创造经济价值非常重要。现在 coding agent 已经很自主了,但人还在持续下指令。给指令、看结果、不满意就要求修改,这样的反馈循环虽然也自动化了很多,但如果要产生更强经济价值,我认为必须更自主。

也就是 agent 自己去改进代码。把事情交给 agent,它自己持续优化代码。人不下指令也能运行,比如可以想象:让它跑着,它会在夜里一直改进代码、加更多功能、持续优化,直到人给下一条指令。再往前一步,甚至可以设想能直接完成整个项目的自主 agent。

如果这样,这类 agent 创造的价值相比现在 coding agent 会有巨大且质的提升。并且我觉得只有这样,才会出现真正意义上的经济价值。模型必须能自己干活。人有自主性,能自己改代码、自己实现功能;这些能力也必须在 agent 上出现,才会导向更大经济价值。

49:40 卢正锡 我个人觉得这事会成。现在很多人已经通过 Harness 在模拟这个了。只是它在单一模型内持续保持这种自主性并连续行动,这不也是很快会实现的问题吗?

49:57 金成贤 我也希望它能实现。至于能不能实现,我觉得这里要继续看跨越到下一阶段所需的技术问题。但从我的立场,更接近“希望它实现”。

而且这种 agent 一旦出现,现在这种仍偏聊天式的接口就会变。现在是人下指令,它按指令完成任务,再等待下一条;未来更可能是 agent 持续工作,人随时看阶段性结果并给反馈。agent 会持续工作。

如果能发生这种范式变化会很好。然后就会进入持续学习。前面提到的中国播客就这么说:现在硅谷,尤其 San Francisco Bay Area,都在谈持续学习,这是最大的热点,大家都在关注。

2026 展望 ③ continual learning:模型自己寻找该学“什么” 50:42

51:00 金成贤 对,我认为持续学习会是很关键的范式变化,这也和数据问题相关。前面说了,靠人把数据全做出来太难。那就会想到,不如不是人做数据给模型学,而是模型自己发现数据并学习。这就和持续学习相关。

持续学习不只是不断加数据。这里说的持续学习更接近“模型自己学习”。那样的话,人不必对每个场景、每个复杂情况都手工造数据,而是模型自己为场景构造或发现数据并学习。

持续学习当然有很多技术约束。很多人会去想是不是该扩展 in-context learning 之类,但我觉得更关键问题是:模型学什么,为什么要学这个。发现这些,才是持续学习最核心的 component。

“能学习”本身不是最重要。真正重要的是,当它具备学习能力后,能在真实环境里学到真正关键的东西。不是学习本身可行,而是落到真实场景时,能学到需要学的东西。这才关键。我认为这可能是通向范式变化最重要的 component。

52:28 卢正锡 那就会发生科幻里的事了,模型自己控制自己的学习。

52:33 崔升准 既然是在说 2026,那成贤你给这件事多大概率?

52:39 金成贤 大概 50%。

52:43 崔升准 50%,也就是 2026 年 continual learning 可能有 50% 成立。

52:45 金成贤 对,至少 continual learning 的一个非常关键 component 可能会出现。因为大家都在研究。也有说法说 OpenAI 在这部分进展很大。看这些消息,我觉得 2026 年左右也许能看到一些轮廓。我是这么期待的,虽然也带点希望成分。

self-play 的难点与“有趣问题”生成的困难 53:10

53:10 金成贤 另一个和 RL 常被提到的是所谓 self-play。像 AlphaGo 通过 self-play 提升性能的案例给人印象太深,所以大家会期待通过 self-play 去解决数据问题,也就是不依赖外部给数据、让模型自己学。但我们处理的数学题、agent coding 这类问题并不是围棋那种游戏。它不是 zero-sum game,所以实现 self-play 很难。

比如说,有一个出题 agent 和一个解题 agent。出题 agent 持续出更难题,解题 agent 持续解更难题,二者互动推动模型提升。听起来可行吧。那出题 agent 会不断出更难题,越难奖励越高。但这里有陷阱。围棋先不说,拿数学题来说,要做出正确率 0% 的题太容易了。

随便造一个离谱题就行。那就说别做 0% 难度,做“适中”难度,正确率大概一半。但这也很容易。比如四则运算里不断拉长链路就能调难度。

这说明什么?说明 self-play 在我们真正感兴趣的问题上非常难跑通。关键不是把正确率压低、把题变难,而是要产生“人看来有趣”的问题,真正高价值的问题。这个问题很难,也有很多研究在做。最近论文里很多观点也在说:如果不和人类对齐就不行,人和模型不对齐就不行。

55:27 崔升准 这和你刚才第 2 点有点共振。再上一个层级,2 和 3 都是在往上一层走。无论是学会学习,还是生成 non-trivial 的、带好奇心的问题,现在关键都在这里。

问题收敛到内在动机·人类对齐 55:42

55:45 金成贤 所以我觉得这三类问题会收敛到同一个点:内在动机、与人类对齐。self-play 也一样,要生成人看来有趣的问题。模型本身如果有这种动机会更好。比如人会自己出数学题再自己解,因为有“这题很有趣”的感受。continual learning 也一样。

人学习某件事时会有“这很有意思”“学这个能拿来解题”的动机。自主 agent 也是。比如做优化时,人看代码会想“这里还能再优化”“这里可以加个功能”,这是动机。

56:27 崔升准 没错。

56:28 金成贤 如果模型也被赋予这种动机,那这种动机必须和人的目标与价值对齐。要把“人看来有价值”的动机赋给模型,也就是让它追求有价值的东西。

56:42 崔升准 这和我们在 Ilya Sutskever 那期说的“情感是 value function”也有关吗?

56:50 金成贤 可能有一定关系。情感和动机不一定完全一致,但很多情况下联系非常强。心理学里好像把情绪看作更短时,动机看作更长期。不过两者高度相关。因为我们对动机的感受通常也伴随强烈情感。

对,所有这些都相关。像 Ilya Sutskever 的 SSI、Mira 的 Thinking Machines 之类公司,据说也都很关注这些。我希望 2026 年能看到这类问题的轮廓。如果能看到,我觉得最重要的范式转移很可能就会在这里发生。

那时我们经历的 agent 变化会非常大。比如在 RLVR 之前、现在 coding agent 之前,其实也有 agent,用 RLHF 模型做的 agent 也有。但和那些比,现在 coding agent 强得多,也创造了更大经济价值。如果下一次再发生范式转移,agent 会再次发生质变。届时与新范式结合的 agent 所创造的价值,我认为会和现在 coding agent 在质量上完全不同,而且会更有用。

58:17 崔升准 这其实很让人头疼。

58:19 金成贤 对,很头疼。没错。

投资·泡沫·FOMO:2026 需要的质变逻辑 58:21

58:21 金成贤 我还觉得,要解释现在这级别的巨额投资并创造相称价值,这大概是必要条件。因为大家现在都在质疑:投资这么大,真的能创造足够价值吗?对吧。domain 扩展、现有性能提升当然也会有帮助,但我觉得要解释“所有这些投资”,可能必须有范式转移,以及由此带来的质变改进。

58:57 卢正锡 像 Elon Musk、Sam Altman 讲的其实就是你刚说那层意思。他们说 AI 创造的价值会接近无限增长,会带来近似无限丰裕。从总财富视角是这么讲。但在这个系统里靠现有方式赚钱生活的人,短期冲击会很大。

59:24 崔升准 我会想到 hyperstition,自我实现预言。也就是为了让当前投资合理化,必须到达那个阶段。要让现在成立,2026 就必须打下这些里程碑,逻辑是这样吧。

59:44 金成贤 我也这么看。现在为了给投资正名,AI 泡沫论一直在出现。如果 2026 只有渐进改进,没有这种级别创新,可能会招来很多怀疑。当然也会有人说仅靠渐进改进就足够。

59:59 卢正锡 这又和刚才升准问成贤“概率 50%”直接相关。大概在超过 50% 的概率上,2026 还会有新的进展发生。

1:00:13 崔升准 那就又会出现 FOMO。

1:00:20 卢正锡 对,而且我觉得这是自然的,我们也得据此做计划。比如刚才说的 scale 欲望,所以会有人说“半导体这不是泡沫吗?不是循环持股吗?”逻辑上人们想这么理解,但现实是即便如此也必须继续转,因为推动继续转的激励正在高速运转。

1:00:24 金成贤 泡沫……

1:00:40 卢正锡 你们觉得是泡沫吗?成贤、升准,我们自己聊聊?是泡沫吗?

1:00:47 崔升准 这不是我个人观点。我们上次 Demis Hassabis 那期聊过,Demis Hassabis 的说法是“其中混有部分泡沫”。

1:00:55 卢正锡 对,但在转型期……成贤你说。

1:00:58 金成贤 我看这件事时会想,人类技术发展史里有没有过这种局面:必须持续推进新技术,用技术进展来证明投资合理。这种局面以前有过吗?不过“FOMO”这个词很贴切。也就是说,现在还不是已经完成的技术。

但如果这项技术被做出来的概率不是 0,而且有人会做成、有人会做不成,那大家会把由此产生的冲击效应看得极大。从这个意义上,它就变成某种 AI 战争。谁能成功开发这项技术,其实现在无法确定。我虽然说 50%,但也是在没有先验信息下的估计。

但如果有人成功了,外溢效应和经济价值可能大到难以想象,于是没人愿意接受“在这里失败”。所以为了避免这种情况,大家把能调动的钱都拉进来竞争。我再重复一次,我会想这种局面在人类历史上是否有先例。但至少参与者当前感受到的情绪,大概就是这样。

AI 战争类比:Manhattan Project·Apollo Project 1:02:20

1:02:20 卢正锡 类似案例以前应该也有过几次吧?

1:02:24 金成贤 对,应该是有的。

1:02:30 卢正锡 Manhattan Project、Apollo Project。当时都投入了天文数字资金。那时候主体都是国家,而现在是民营企业,规模事实上已经到超越国家的水平。对,所以这场游戏里先拿第一的人,确实可能把后来者的梯子都踢掉。就像核武发展案例一样,拥有核保护伞的国家在一个世纪里都保持强权地位。

我觉得逻辑可能很类似。作为单个个体的人来思考,这叙事太大了,但这里又会回到“逃跑”的概念。我们该怎么办?我们“该怎么办”这个问题还在。活在现实里的我们,在这个体系内到底该怎么做,这个问题依然很大。

我们在 2025 年初聊过资深、初级、coding agent 会变多强。到 2025 年末,人们的话语已经变成了,Andrej Karpathy 也发帖说,比起有既有 prior 的资深工程师,从一开始就接触 AI 工具的原生人群,AI native 初级反而工作更好。但如果像成贤刚说的,模型本身获得这种自主性,那这些讨论也都会结束。

1:03:53 崔升准 对。你刚说那三点只要哪怕出现征兆,冲击都很大。而且不是单独发生,是互相咬合运行,一个成立其他可能跟上,所以这真的很头疼。

个人态度:在不确定中享受与 unlearning 1:04:07

1:04:07 卢正锡 所以成贤你打算怎么活?突然问这个不好意思,但你一直这么观察这个世界,肯定也会想“自己该怎么活”。

1:04:21 金成贤 我决定享受它。

1:04:25 崔升准 这话好像在哪听过。躲不过就享受。卢正锡你以前也说过类似的。

1:04:32 金成贤 对,其实这一切都建立在预测上。仍然有不确定性,很多“会不会发生”都没定。我就选择享受。未来好像越来越不可预测。尤其当结果都押在某种概率事件上时,更难预测。所以我就决定享受它。

1:04:59 崔升准 虽然难预测,但因为一切都在竞争中推进,结果未必确定,可副产品一定会出现。因为追逐过程本身在发生,所以很可能出现相当高水平副产品。我现在是这样看。还有一个倒是能预测:2025 年那些“啊这已经成了”的判断,2026 年很可能要 unlearning。

1:05:21 金成贤 对,有可能。现在很多关于 agent AI 产品的判断都这样。大家都盯着“这个还不行”。因为还不行,所以还有机会。但也可能这些判断都得扔掉重想。

1:05:40 卢正锡 现在是那种你得瞄着前两步、前三步说“我要做这个”才说得通的局面。

1:05:43 崔升准 对。明年肯定会出现“诶,这个以前很好用、我很熟,不能继续吗?”这种时刻。虽然不想学,但也只能继续跟上。

1:05:56 卢正锡 这些我们等进了 2026 再聊一次。

1:06:01 崔升准 我们这一年的最后,不会要往有点忧郁或暧昧方向收吧?我们得开心收尾啊。

1:06:11 卢正锡 我们第一期播客在两年半前和升准开始时,标题是“Geoffrey Hinton 的忧郁”。而且那位比我们看得更前。他应该早就看到了我们没看到的东西。他两年半前讲的很多事,现在都在现实化。

1:06:33 金成贤 如果只聚焦技术进步本身,应该最能享受。技术本身会让人持续惊讶:“这也能做到?”“真的能到这一步?”可以这样专注。至于它衍生的社会影响……一想到就会有点沉重。

1:06:44 卢正锡 对,只当爱好者会很快乐,但现在……

1:06:49 崔升准 我的生活是重叠的,既是爱好者也得过现实生活。总之 2025 就是这样。

总结:2025 是 MoE·RL,2026 是 scale·新范式 1:06:57

1:06:59 卢正锡 我们总结了 2025,也预计 2026 会比这更快。大方向成贤已经指出了:第一是 scale,这方面投资完全没有停止迹象;第二是会出现不属于当前范式的、断裂式下一层范式。还有 continual learning,以及另一个是什么来着?你刚也点到了。

1:07:36 金成贤 都是相关问题。像 continual learning、self-play,或者由此出现的更自主的 agents,应该就是这些。

1:07:44 崔升准 这不只是 coding agent 吧。可能是 co-scientist,甚至“co”都可能没了。

1:07:48 金成贤 对,没错。要创造更大价值,至少得跨到所谓白领职业层面。而且这具体会怎么实现还不确定,但如果可实现,我觉得帮助会非常大。因为现在这些工作都要一项项造数据。比如 Photoshop 的使用方法都要教;但如果模型能自己学,它可能自己看视频学会 Photoshop,然后就能用,这类事就可能发生。

结尾:新年问候 1:08:24

1:08:24 卢正锡 好,那我们就给这一年做个收尾,也差不多结束吧。每次跟成贤学完,脑子里都会变得软乎乎的,很多想法像经纬线一样缠在一起。每周六我都能从你们两位这儿学到这些,对我来说真的是人生很大的福气。谢谢你们。

1:08:45 崔升准 我也是。首先今天内容本身就非常有趣。成贤今天又用很有意思的 storyline 织在一起,听起来很沉浸。有种把一整年“哗啦”转过一遍的感觉。不过 2026 不就是又要来一波多巴胺了吗?太让人期待了。1 月会发生什么,AlphaGo 周附近会发生什么,Google I/O 附近会发生什么,我都很期待。

1:09:17 卢正锡 估计下周一到 1 月中旬就会开始又一波涌出来了。对吧。

1:09:20 崔升准 对,那我们也到那时再见,现在该去休息了。成贤最后还有什么想说的吗?

1:09:36 金成贤 没什么特别的。我每年这个时候都会写回顾,现在能以这种形式做回顾,对我来说很有趣。而且我写回顾时都会写“明年会发生什么”的预测。可能这个习惯还在,所以今天也在回顾里写了 2026 年会发生什么。正因为不确定性还在,怀着“会发生什么”的期待迎接 2026,应该会很有意思。

1:10:05 卢正锡 不过我们毕竟还在人的框架里,大家还是先保重身体。2026 年我也打算在健康相关业务上做更多投资。

1:10:12 崔升准 那下次见就跨年后了。

1:10:14 卢正锡 对,2025 年大家辛苦了。谢谢成贤、升准。我们 2025 年真的真的非常开心。虽然也累,但真的非常非常开心。2026 年看起来会比现在变化更快,所以我们得把心态拉紧,也得更努力地生活。也非常感谢我们的订阅者、逃亡者联盟的订阅朋友们。好,升准、成贤也各说一句,我们就收尾吧。

1:10:49 崔升准 对,这一年我也非常开心。每周六当然也有累的时候,太高频见面时也会这样,但一直都是值得期待的时间。能一起聊、一起看同一片风景和不同的风景,真的很开心。而且意识到一直有订阅朋友在看,也非常有帮助。所以一直都想说谢谢。祝大家 2026 新年快乐,万事顺利。

1:11:18 金成贤 对,虽然我在这个播客还没满一年,但能持续参与真的很感谢。我们对 2025 说了很多,但它依然是技术上非常有趣的一年。也祝大家 2026 新年快乐,身体健康。

1:11:33 卢正锡 祝大家都健康,我们新年再见。

1:11:36 崔升准 新年见。

1:11:38 卢正锡 好,辛苦了。