AI Frontier

EP 77

Gemini 3 与 Antigravity:陡峭到惊人的变化曲线

· 卢正锡, 崔升准 · 1:15:44
整页
查看本期参考资料

开场:Gemini 3 发布与一周 AI 时间线 00:00

antigravity.google antigravity.google

00:00 卢正锡 今天我们录制的时间是 2025 年 11 月 22 日,周六早晨。这周终于等来了 Gemini 3。感觉这 2、3 天一直拿着 Gemini 3 和 Antigravity 这两个家伙玩得很开心。升准。

blog.google blog.google

00:23 崔升准 还有 Nano Banana Pro。

00:25 卢正锡 好,那我们就围绕 Gemini 3 看看都发生了什么,再看看其中的意义。

openai.com openai.com

00:34 崔升准 这周感觉是多巴胺拉满的一周。不过已经有点可惜了,这种一爆发然后又慢慢降温的氛围,多少有点遗憾,但也正说明这周确实很有意思。所以看最近的时间线,已经有种很久以前的感觉了。9 月 30 日,秋初发布了 Claude Sonnet 4.5。然后 10 月 1 日,Periodic Labs 这些地方开始出现一些跟科学相关的信号。接着 10 月 21 日是 Atlas,10 月 30 日是卢正锡上次也提过的 OpenAI 内部目标发布。

01:19 卢正锡 对,就是宣告要成为 full-stack company 的那一天。

01:23 崔升准 没错。还发布了大概 26 年 9 月的 AI 研究实习生级别,以及 28 年 3 月可自主执行的 AI 研究员。然后 11 月 12 日出了 GPT-5.1,所以像 GPT-4o 风格的一些东西在 GPT-5.1 里回来了。还有个相对没那么火的功能,我也只试过一次,但感觉挺有意义,就是 ChatGPT 里的 group chat。我也拉人一起聊过一两次,挺有意思的。

02:02 卢正锡 对,我还没打开过那个。

x.ai x.ai

02:04 崔升准 现在 app 里也能直接用,可以试试看,也许会有新想法。另一方面也能看出来,“哦,OpenAI 这个也在继续扩张”。它在做应用、做社交,方向是连贯的。然后 11 月 17 日,这天也是 OpenAI 在韩国办 DevDay 的日子。我们也受邀了,我去了。然后 17 日还发布了 Grok 4.1,我记得基准成绩还不错。

02:42 卢正锡 大家都知道 Gemini 3 要发,所以 ChatGPT 和 Grok 也像是在这期间发了“我们也进步到这个程度了”的公告。

openai.com openai.com

02:52 崔升准 对。不过一贯如此,最后发的才是核心,所以这一轮里 Gemini 3 是 11 月 18 日(美国时间)发布的。结果 19 日马上出了名字挺长的 GPT-5.1-Codex-Max,OpenAI 也说我们有对应方案,但从整体氛围看,天平还是更偏向 Gemini 3。

竞品模型的应对:GPT-5.1-Codex-Max 与 Nano Banana Pro 02:54

03:25 卢正锡 对,要挡住 Gemini 3 和 Antigravity,GPT-5.1 还是不够。

arxiv.org arxiv.org

03:31 崔升准 对,总之还是传达了 Codex 现在很好、之后会继续好的信息。20 日发布了 Nano Banana Pro,有趣的是它已经全面进入 Google 生态了。处理图片相关的地方几乎都接了 Nano Banana Pro,现在在出协同效应,比如 NotebookLM。甚至 Antigravity 里也能用。所以我感觉它整合得非常顺。

不过前面说的 Periodic Labs 不是 OpenAI 本体,而是衍生出来的组织,和 Google DeepMind 这些也有关联。但如果能读出科学方向上的信号,那这个秋天 OpenAI 一直在持续强调科学。夏天、秋天都是,意思是科学领域似乎有新发现的征兆,并且在往这个方向推进。

这个跟前面说的 AI scientist 是同一脉络,虽然说的是做 AI 研究的科学家,但终究是在更广义的科学上发力。Google DeepMind 本来就是以这个为主,Demis Hassabis 一直这么说,而 OpenAI 现在也在持续一致地说这个。几天前这个事也有新发布。

标题是 Early experiments in accelerating science with GPT-5,出了博客、论文,还有播客。因为忙着看 Gemini 3,我也没细看。但信号是存在的,而且这大概就是 2026 年的预告片。

AI 与科学的结合:OpenAI 与 Google DeepMind 的战略 04:02

05:03 卢正锡 对,2026 年大概会在 AI 结合生物这块有很多进步,可能会像这次模型一样集中爆发。怎么说呢,这么讲可能不太合适,但和股市 hype 关联最大的领域毕竟是生物,所以大家关注也会更多集中在那边。

而且不管是研究者还是做这块业务的人,激励最终都只能流向盈利模型明确或回报非常巨大的地方。比如比起“解决社会问题”或“解决全球变暖”这种更美的叙事,大家还是更容易去商业目标明确的方向。

这类方向主要就是生物,或者金融之类的。

05:58 崔升准 我对生物看的不多,但“边实验边做 verifiable 的事情”这件事,在科学内部很多分支都适用,所以我在想它可能会有更广泛的影响。

06:14 卢正锡 对,我们上次聊 Periodic Labs 也说过,也可能是因为我们并不懂那个领域,所以没法评论。哪怕我们有一点相关知识,我又正好对生物更感兴趣,所以接触这方面消息更多,才会感觉信号更强。材料工程、电子工程、能源这些整体领域其实也可能有很多变化。

06:43 崔升准 是啊,所以如果各个领域专家用各自的镜头来解读这种现象、这个时代,也会很有意思。

06:55 卢正锡 没错。我们几个月前还在说“领域专家和 AI 专家的结合很重要”。

但其实那些 AI 专家,也就是传统软件工程师之所以重要,是因为他们擅长做 harness。不过我们后面聊 Gemini 3 和 Antigravity 时会提到,我现在强烈感觉他们的角色在持续缩小。

07:21 崔升准 总之要思考的事情很多,继续吧。

07:25 卢正锡 后面章节内容很多,升准已经定好主题了,我们继续。

x.com x.com

07:32 崔升准 我总结了几个点。我重点关注的是 Google DeepMind 的 Oriol Vinyals,他以前和 Ilya Sutskever 是同事,在 Google 的时候。去年 Ilya Sutskever 曾用石油做比喻,说 pre-training 已经到了高原期,语气是那个方向。但 Gemini 3 说不是,pre-training 和 post-training 都有提升。也就是说,和“AI scaling law 已经结束”的大众认知不同。这个大众认知其实就是去年那次发言加固出来的。

但事实是有跃迁。2.5 到 3.0 的 delta,是目前见过最大的差异。还看不到极限。

post-training 方面,意思是 pre-training 语境下还看不到墙,而 post-training 完全是 greenfield,没有遮挡。算法进步和改进空间还非常巨大,3.0 也是它的副产物之一。

Scaling Law 结束了吗?Gemini 3 展示的 Pre-training 跃迁 07:35

08:42 卢正锡 对,这部分我们可以简单解释一下。升准,怎么讲更好?其实关于 pre-training 的既有看法是:互联网里高质量数据都用完了,没新数据了。一个是“数据枯竭论”,第二个是大部分是垃圾数据,所以大家在做数据清洗、提升数据集质量。

第三个是承接这些数据的 neural network 结构、现行 training 算法,以及可投入计算量上限等问题。虽然没明确说到底在哪个环节有突破,但总之结论是“不是你想的那样”。

他们的意思是我们正在跨过这些限制。

09:37 崔升准 对,到底是解了 OOM,还是解了数据问题,现在还不清楚。但这个也许得等中国那边先讲出来,不是吗?

09:48 卢正锡 希望后续有消息,Kimi 或 DeepSeek 能出论文系统梳理一下。

metr.org metr.org

09:57 崔升准 不管怎么解的,先解出来了。这个我问 GPT-5.1 时,它也确认这是 24 年就有的讨论,墙还没到,现在也还没到。

METR 的时间地平线,很多人知道但又会忘,我也会。它不是模型执行时间,而是对应“人类执行时间”。现在 Gemini 3 还没反映进去,GPT-5.1-Codex-Max 在 log scale 看是略高于直线一点,时间地平线还在延展。 不过模型实际执行现在已经不是小时级,开始往天级走了,不是吗?它们就一直在跑。

10:56 卢正锡 现在的说法是,看你给它套什么 harness,时间可以无限拉长。

11:04 崔升准 对。评论区也有人说这不就是 for loop 反复跑拉长时间吗。但不管怎样,模型执行能力确实可以覆盖更长时长了。等这轮用 Opus 4.5 收尾之后,虽然还没出,下一轮大概就是 3 月或 5 月了。

如果那时图还持续贴合,现在是 2 小时多一点的话,到明年 5 月大概会到 3 个半小时,3、4、5 月这个区间。

所以就像 Oriol Vinyals 说的,要一直记住:还没撞墙,还在前进。

11:59 卢正锡 这内部也是,Google 也好 OpenAI 也好,流水线肯定不止一条,应该是多条并行。我自己的 wild guess 方法是看 knowledge cutoff。Gemini 2.5 出来时 cutoff 是 2025 年 1 月,说明用了非常 up-to-date 的数据集。现在 3.0 出来,knowledge cutoff 还是一样。也就是说 2.5 和 3.0 很可能来自同一 vintage,2.5 是中间牺牲品,后面持续推进产出了 3.0。接下来到新 vintage 时,knowledge cutoff 就会明显往后移。

模型 Vintage 理论:数据收获与知识更新 12:00

12:57 崔升准 你说的 vintage 是葡萄酒那个比喻吗?

12:59 卢正锡 对,就是哪一年的产物。把某一批收获的数据集看作葡萄采收。

13:07 崔升准 对,对,某年某批葡萄收成。

13:10 卢正锡 对,所以现在 2.5、3.0 都是 2025 年 1 月这个 vintage。

13:15 崔升准 也可以说是土壤?

13:17 卢正锡 对。

13:17 崔升准 也能看成是 vendor。

13:18 卢正锡 然后这里会产生很多创新,以及大量中间产物数据集。还有像 AI Studio 这些地方,用户不断塞问题进来,会产生大量高能量数据。在这些里它们也会学到很多。

13:42 崔升准 所以我们一边用一边喂数据,这本身规模就很大。

13:49 卢正锡 当然。

13:50 崔升准 大量“有馅料”的数据,也就是路径数据。不是单纯数据,而是数据生成路径。

13:58 卢正锡 其实关键就在这。大家会很容易觉得 pre-training 结束后就会长期停在高原,但看人类历史进步也是这样:无数诺奖成果,从爱因斯坦到 20 世纪初科学文艺复兴,本质上是那些 thought token 相互影响,数据集不断增广。 这么看,pre-training 和 post-training 说到底也不是截然分开。post-training 产生了大量数据,而我们往 AI Studio、Antigravity 里灌进去的强意图方向,也会反过来扩充 pre-training 数据集。pre-training 数据集一扩充,我认为就会进入下一地平线。

14:50 崔升准 当然也可能还藏着完全不同的思路,只是当前这个 regime 运行得太好,其他路线暂时被遮住了。

14:58 卢正锡 对,目前看这个 regime 的正循环还在继续。

15:03 崔升准 所以 Opus 4.5 现在有不少传闻,昨天会不会出、今天会不会出,结果还没出。

不过最近传闻大多都准。有意思的是,像 GDE 这些人因为 NDA 反而不能说,但时间线上会有泄漏。如果同一种传闻分布反复出现,基本就准了。

15:31 卢正锡 Antigravity 的 Claude Code 版本就是 Claude Code Desktop,这个快出了。

15:37 崔升准 对,有这种氛围。因为 Antigravity 现在确实成了关注焦点。

15:48 卢正锡 这个我们等会聊 Antigravity 时再深入。

dwarkesh.com dwarkesh.com

15:51 崔升准 这个也是,前一天 model card 一度被分享,很快就被存档,大家就在那边问“这啥,Antigravity 是啥?” 也就是 Gemini 3 发布前一天。还有那个押传闻的网站 Polymarket,我看到前一天概率到 91%,也就是说大家其实都知道了。 另外这个今天没法展开,Dwarkesh Patel 那时也写了篇 RL 相关的有意思博客。 还有 bits per sample,虽然有点文字游戏,但“bit”这套词延伸到 watt。申正奎最近不是去了超级计算机会议吗?

新的计算尺度:为什么瓦特(Watt)比 GPU 数量更重要 16:30

16:46 卢正锡 在那边,马上要回来了。对,Supercomputer 25。

16:50 崔升准 他说最近大家都不谈 GPU 数量,改谈瓦特了。

16:57 卢正锡 因为相比 GPU 算力或数量,指标正在向瓦特收敛。就像按重量称反而更方便一样,现在大家也更倾向按“重量”说。

17:12 崔升准 能量正以更高信息效率转换为智能。

17:17 卢正锡 总投入计算量最终就代表智能,而关于总投入计算量,信息含量最高的 precursor(先行指标)就是电力。瓦特。也就是这里消耗了多少瓦特,就在描述其承载的 intelligence 规模。

x.com x.com

17:42 崔升准 对,这篇帖子挺好。Gavin Baker 19 号发在推特上,我做了翻译。不只我,很多人也在发这条时间线。

17:57 卢正锡 你总结一下。

17:58 崔升准 pre-training 的 AI scaling law 仍然有效,Gemini 3 也是这个判断。pre-training 的核心是稳定 FLOP,不管是 Blackwell 还是 TPU 都一样。

然后他也讲了 token economics。Grok 4.1 之所以还能冲出来,也是因为有基础设施。接着顺着这个讲电力不足的问题。于是当瓦特成为瓶颈时,什么最重要?每瓦 token 会主导决策。因为 token 在某种意义上就是收入,所以整体逻辑是这个方向。

基础设施方面当然还涉及光缆、散热,这篇没展开散热,但申正奎似乎也很看重散热。最后结论是:这一切都说明我们仍处在 AI 非常早期阶段。并且以 OpenAI 的焦虑作结。我这里只摘了整场讨论里的几段。

19:06 卢正锡 对,OpenAI 的焦虑这点你后面会接 Sam Altman 的推文,所以马上就到了。

OpenAI 内部备忘录与 ‘Shallotpeat’ 项目 19:14

theinformation.com theinformation.com

19:14 崔升准 这是 The Information 的报道。我不是直接读了原文,而是顺着推特上的讨论查,感觉 Gemini 3 给的压力不小。

因为应该是提前知道了,所以给员工发了备忘录。重点是 Sam Altman 提到一个叫 Shallotpeat 的新模型、pre-training 改进、AI 研究的雄心自动化。雄心自动化就是 10 月那套说法。然后这里又提到 pre-training 改进。 我查了一下,shallot 是葱蒜类,peat 是泥炭土,意思是这种土壤里长不好。 所以这像是在比喻:pre-training 土壤,也就是数据、方法论、基础设施有问题,而他们可能在做一种即使在这类土壤里也能长得好的新东西,作为代号。

20:27 卢正锡 简单解读就是 Google 在 Gemini 3 的 pre-training 阶段确实有进展,OpenAI 有对应动作。

20:39 崔升准 就是已经有了。可能已经有模型,但还没到可发布级别,或者有模型但还没法 serving,也可能是这种情况吧?

20:53 卢正锡 也可能。我有个阴谋论式猜想,没证据,但很多进步本身常常只是个想法。 我们现在进入了“想法=产出”的时代。做 pre-training 的地方里,Google 会有直觉,这种东西很快就会口口相传扩散。OpenAI 很快也会做,xAI 也会做。只是有时差,整体上升同质化速度越来越快。

21:34 崔升准 对,按现在趋势,明年 6 月出现“今天 Gemini 3 的中国版本”才是合理节奏。

21:42 卢正锡 半年,对。以前 o1 是 9 月出,揭开秘密的 DeepSeek R1 是次年 1 月出,约 5 个月。所以到明年春末,DeepSeek 该出“如何抬升 pre-training 高原”的论文了。

22:02 崔升准 说着都觉得离谱,但必须能想象这个。我们谈 6 个月后的业务时,不相信环境会剧变就根本想象不到,所以必须持续具备这种想象力。

Unlearn-Learn:丢掉复杂装置(Harness),相信模型 22:20

22:20 卢正锡 这里又回到我们一直说的 unlearn-learn framework。两个月前聊 Claude Code 还在说,怎么把 harness 做好,让它工作更久,而工作更久就意味着产出质量提高。 于是出现了 Claude 的 skill 等等。现在很多 framework 都在想怎么扩展 Claude Code,harness 也在一层层往上贴。 但反过来说,我们等会讲 Antigravity 时会提,这个时代可能 3~4 个月就结束了。

23:05 崔升准 是啊。最近我也越来越觉得,对这个节奏的感知非常关键。

23:14 卢正锡 没错。以前工程师通过强化 harness 来打磨模型,但这些 harness 现在又被模型直接吃成 capability overhang。比起官僚式约束,只保留最小 guardrail,把事交给模型,产出更好的世界正在更快到来。

23:43 崔升准 这是 Noam Brown 今春说过的话。

23:45 卢正锡 对,这和你刚才说的完全连上了,又到了 unlearn 的时点。我们公司里 harness 也很厚,我最近也在得到一个 insight:把很多 harness 再拆掉,给模型更多自由,产出质量反而会提升。

24:08 崔升准 所以 Gemini 3 今天能让我们震惊,但 6 个月后它可能会变得非常便宜且普通。很难想象,但有可能。

24:19 卢正锡 是啊。All-In Podcast 的 Chamath Palihapitiya 说 AI 是冰箱,是 refrigerator 行业本身,真正好吃的菜还没做出来。就像你刚说的,智能持续变便宜,正因为变便宜,软件价格会变成 0,做出想要产品的价格也会变成 0,至少在软件领域会这样。那到时候会发生什么?需要想象。

24:59 崔升准 需要想象,但不容易。想象时既要想会发生的,也要想不会发生的,两边都得想,这确实难。

25:13 卢正锡 后面再聊。

基准测试的局限与 Andrej Karpathy 的 ‘Vibe Check’ 25:15

every.to every.to

25:15 崔升准 我做了下 vibe check。Andrej Karpathy 讲了个挺有意思的点。不是那种极其重大的结论,但核心是他和模型来回对话时,模型很有意思地说了“oh my god”。Andrej Karpathy 说了些事,模型因为 cutoff 先说“那不会发生”。但后来发现 Andrej Karpathy 当时是关了 web search 聊的。开了之后模型说“oh my god,你说的全对”。有点像冷冻人突然知道现实。通过这个意外时刻,反而体现了模型能力。

Andrej Karpathy 能捕捉这种情况、修正自身错误并推出结论。至于他的主张是:看 benchmark 要谨慎,因为太容易被 hack。所以更该实际对话、做 vibe check、和其他模型对话,训练自己的感知。

他还有句意味深长的话:当你明显偏离登山道,进入泛化丛林某处时,模型本质最容易在那些非预期瞬间被看见。听着有点玄,但意思是不要只信 benchmark,要亲自用,靠感觉。

Every 也做了 vibe check。Every 通常很早上手,这次似乎没早太多。我做了翻译,核心在于他们有一套长期培养的 benchmark set,也就是一支准备好的团队。不管什么新模型出来,都能立刻自我 onboarding,几天内分享结果,快速学出模型气质、能做什么不能做什么。这个能力很强。

但 Gemini 3 发布时,我问周围人,反应很分裂。有人不知道有新闻,有人只看新闻。模型都发布了,可以马上输入试,但有些人就是不试。还有人喜欢讲优点,有人喜欢讲缺点。 所以这里也有明显风格分化。还有一类人什么都不说,但可能已经拿到想法进入压力状态。

28:06 卢正锡 这种人很多。

28:08 崔升准 所以每次有新东西出来,温差都非常明显。

28:16 卢正锡 没错。我觉得就两类人。一类是“反正会继续变好”,因为过去很多公司太早创业,后来都被模型超人能力抹掉了,所以他们想等模型“完成”再做应用。 第二类是一路跟着变化走的人,边走边经历无数成功和失败。我认为最终赢的人非常明确,就是第二类,毫无疑问。 第一类不知道什么时候是终点,而且这可能会永远 exponential 加速下去,那就永远等不到启动时机,或者说可能根本不会来。

aistudio.google.com aistudio.google.com

29:11 崔升准 业务层面我不敢说,但在个人层面我也会这样。第一次给新模型下 prompt 时,明明什么都能输,却会暂停一下:“新模型,我该怎么用得更好?”反而会卡住。但我觉得先用再说。新模型一出,哪怕一边放新闻,一边把官方示例复制粘贴进去,也得先跑起来。

所以我想强调这点。还有本周我在时间线上印象最深的是这个。AI Studio 直接做了个 Vibe Check 网站。左边还能改代码。现在看到这个标注 silly 的东西其实一点都不 silly,很有意思,voxel 在动。 这是 Gemini 3 生成的。而且不只是做 3D,还能让它动。比如来个骷髅跑步场景。 我现在先不现场看,但把样本缩成两个后它变成 SVG 了,本来该是 voxel,我再改回去。然后会排队,等会儿再看,但大概就是这么生成。

Gemini 3 的压倒性能力:Generative UI 与 Voxel/SVG 生成 29:45

30:54 卢正锡 这就和第二部分的 Generative UI 连起来了。

research.google research.google

30:59 崔升准 我就想它是怎么做到的。之前不是传闻,是真有提前试用的人说 SVG 特别强,3D voxel 也很强。但实际用过感觉还是不一样。 它的含义是,虽然速度还有问题,但它已经变成一个非常擅长 front-end 和 user interface 的模型。基本什么都能做。 而为此他们做了课程化训练,我翻译了博客,也有论文。像网站 onboarding landing site 这种都做得很好。 而且可能还没全量给所有用户,但这个功能已经有了。你看这里有 Visual Layout Labs。 除了这个,agent 功能现在好像还是 ultra 用户先用。出来了,骷髅在跑。

32:11 卢正锡 是啊,真是疯了。

32:14 崔升准 让人震惊的不只是结果,而是它怎么做出来的。 通过反馈让它持续变好。通常这类不像编码那样 verifiable 的领域,现在也被做成了 verifiable。 视觉、设计这些方面,虽然质量还没超过人类最精雕细琢的上限,但已经非常接近。博客和论文里都在讲他们怎么实现的。

32:43 卢正锡 方法上我们大体能理解。对这些看似 non-verifiable 的部分,也会在 training phase 里构造“这是好、这是坏”的奖励信号。可能是某种 simulator 或 decision maker,可能是同一个模型,也可能是别的 policy model。

33:07 崔升准 就是在那个算法里做的。

33:11 卢正锡 本质上就是堆计算资源然后就成了。

33:15 崔升准 所以文末又引用了今年年中提过的“这个研究的魔法循环”。就是说这是 bootstrapping,会继续变好。要读这层意义,Gemini 3 有很多可咀嚼点,但我的 one pick 就是这个。 而且你再想象一下,现在还是要时间的。刚才这个生成也花了大概 1 分钟。 做个像样页面时,虽然说出来有点好笑,也要 5 分钟。5 分钟就行,5 分钟,其实已经非常短了。哈哈哈。

速度超智能(Speed Superintelligence):快 100 倍且更便宜的智能未来 33:30

33:56 卢正锡 这种世界只能笑了。

33:59 崔升准 如果按 Nick Bostrom 在 Superintelligence 里说的速度超智能来想,在 Gemini 3 当前这一级智能和执行能力下,速度只要快 10 倍或 100 倍会怎样?这也是想象点之一。 再加上价格下降,如果便宜到 1/100 且快 100 倍,这真不可能吗?就会开始这么想。哪怕智能水平不再上升,只要近未来真能做到,影响也会巨大。

34:35 卢正锡 是这样。不过 Gemini 3 或 AI 模型现在替代的工作,本质是我们原本认定为“人类认知能力”的工作,所以我们才会又惊叹又不安,这是站在我们的视角判断。 但如果把这个判断镜头从我们两人对话的高度,拉到历史高度去看,这类事情在历史上其实经常发生。

先是农业,然后工业革命中的纺织业。拿农业举例,大家都知道几乎所有产业都曾是农业。现在可能只有 2~3% 的人口从事农业。

当时全人类都做农业时,天天讨论的事其实和你我现在讨论的差不多:这样播种更好,那样也许更好,那边有人做了肥料提高产量、糖度更高等等,那就是全部日常。但后来因为农业革命、工业革命、机械革命,机器替代耕作,化学发展让肥料更好。回看产业里的变化,从业者几乎都失业了,全部企业化了,农产品价格大幅下降,但整体极大丰富了。站在从业者角度,生产手段都失去了;站在人类整体角度,却进入了大丰饶时代。现在几乎没人饿死。人类史上第一次,不再担心饥饿,而是担心怎么靠 GLP-1 减肥。

在我们今天看来理所当然,但在 200 年前、150 年前的人看来无法理解。所以我们也要用这种 magnitude、order of magnitude 的变化尺度看现在世界。这样看,结局就很清楚。

历史视角:农业·工业革命与认知劳动替代 34:40

37:11 崔升准 这就是非线性,不是线性。200 年发生的事现在会变成

37:15 卢正锡 2 年内发生。

37:18 崔升准 就是这个意思。

37:19 卢正锡 对,把“过去 200 年发生的事将在未来 2 年发生”作为假设,也许是对的。

37:25 崔升准 某些领域吧,不一定所有领域都这样,但

37:30 卢正锡 会按 vertical 不同速度到来。但看模型发展和它们正在吞噬的 domain,最先结束的是 pure information 领域。verifiable 领域现在就是模型投入 computing power 自己 search 然后做完。所以我在公司里也说,未来 2 年要按 20 年来过。把 1 个月当 1 年,用未来 20 个月按 20 年强度拼命活,我们就能在下个世界找到答案,否则就会被整块丢掉。还有个有趣点,农业里至少丢掉一代人,工业革命也丢了一代到一代半,农业是两代,但人类都转移到下一领域了。 后来才构建出服务经济这些。而现在 AI 要消掉的是人类最独特、最伟大的能力,认知能力 cognitive intelligence,那我们该往哪逃……

38:45 崔升准 而且我最近强烈感觉新的瓶颈在出现。虽然今天没放进提纲,但我现在用模型时经常并行用,同一个 prompt 也会多次在多 session 或多模型跑,会非常疲惫。

人不擅长 context switching,但模型只要开新 session 就行。所以管理这些并行会形成很大瓶颈。再加上速度更快、内容更多,或者不一定更多但更高压缩知识密度的输出极速出现时,最终 orchestration 某些部分人还是得做,不做也不行。会很快疲惫。 所以我觉得现在在出现另一类瓶颈。

39:40 卢正锡 我们要处理、吸收、生产以及管理决策的信息量都在爆炸,我也会有很神奇体验,前天和昨天发生的事在上下文里直接消失。比如前天发生了什么我完全想不起来。

40:02 崔升准 最近真的太费脑了。一直读、一直让它执行、一直管理,太累了。

40:11 卢正锡 所以我们拼命跑是因为觉得在这个时间差里有机会,但也有一种预定的挫败感。我今天努力做出来的 harness,3 个月后模型自己就能做,那我现在做这个到底有没有意义?

40:29 崔升准 好,先到这。

40:33 卢正锡 暂时答不出,先往下吧。聊太深了。

40:37 崔升准 然后有个有趣点,我在时间线上看到后也实验了。给它 HWP 文件,不是二进制 HWPX,而是 HWP,它能读并重新格式化。这意味着什么?

HWP 文件识别功能所暗示的数据流动 40:40

40:54 卢正锡 这是不是意味着韩国所有政府和教育相关数据也都会进 AI 了?

41:00 崔升准 对。现在还不能“写”HWP,这难度更高。但“读”HWP 已经有不少不错库了。不知道他们怎么做的,可能也不是专门为韩国做的,但确实能进能出。看起来也不像中间有代码执行,就是模型直接做。为什么要做这个?

41:29 卢正锡 不知道。除了最近打官司时会用 HWP 之外,我和 HWP 生态几乎不熟。

41:38 崔升准 我也很想和它不熟……

41:41 卢正锡 没办法,还是得用。

41:43 崔升准 对。韩国很多东西都在 HWP 里,这在某种程度上既是围栏也是安全网,但现在信息看起来都要流过去了。

41:58 卢正锡 我觉得这种装置形态,OpenAI 的 app SDK 也一样,对平台方来说,外部信息流入自己体系永远是收益。 而且这些流入信息能级不同。有垃圾数据,但用户亲手在聊天框里写意图,哪怕只有一行,信息量都可能等于 10 页网页。

42:36 崔升准 密度高得多。

42:37 卢正锡 对,是密度高得多的信息。我们公司内部做这类信息处理时也发现,像我们以前做 “Right Questions Are All You Need” 那期说的, 最重要的是人到底想要什么,意图是什么。由发起者亲手输入 prompt 的能量大小与质量,这最关键。 所以我们甚至会做只管理这件事的框架。宏观上说,我们正在把这些有价值高能 token 全部喂给 Google 和 OpenAI。

43:14 崔升准 总之这也是让我印象很深的一个点。然后我自己虽然还没深挖,但有几个震惊时刻。第一个我做的是这个。Gemini 第一条 prompt 是在 Gemini web app 还是 AI Studio 我已经记不清了。后来选 AI Studio 是因为它现成功能更多。比如你下 prompt,它能自动变 spec,这方面 AI Studio 比 Gemini 网页版更强,所以我在那边试了。然后我让它做一个类似 Strudel 的东西,就是音乐人和媒体艺术家用的 live coding 库,做个类似的。现在这边有音乐,就是由这里写的代码生成的。实时改数字就会马上 live coding。

而且你在这里下 prompt 让它做 lo-fi hip hop,这几乎是 few-shot 就出来的。这个代码本质上是 DSL。虽然不是 Strudel 本体,但它做了个类似的。然后音乐就出来了。现在速度有点慢,这里调到 0.5……我给身边一些作家、媒体艺术从业者看过,他们都很震惊。聊天、live coding、可视化,直接就出来了。

意图即现实:编码与创作壁垒的崩塌 43:20

45:18 卢正锡 对,关键就在这。以前一个人有意图后,能不能把它变成现实,决定了这个人的能力评价。但我们几十年累积起来的这套能力,现在被它抹掉了。

45:38 崔升准 对,我最近有种感觉,一想到某事就会觉得“能成”。当然模型不同会有差异,但在 Gemini 3.0 这个级别,我一想到某事就觉得可实现,这种感知在形成。就是还没跑就知道。

45:55 卢正锡 对。我现在一旦想做什么,会先在脑子里反复打磨那最本质的三行 description。洗澡时想、路上想,凑出三行后,挑能量最高的三行,扔给顶级 thinking model 说“我要放进 Claude Code,帮我膨胀成 spec”,它就立刻给出来。 我投入那三行里的信息能级特别关键。所以我才说,提炼想法本质的能力正在变成最重要。 这样出来的 spec sheet 质量就高,再丢给带 harness 的 Claude Code、Antigravity 或 Codex,基本就结束了。

46:48 崔升准 就出来了。

46:49 卢正锡 就出来了。

46:50 崔升准 先想初始 prompt,再跑膨胀 prompt,中间再来一两轮确认问题,最后把 checklist 跑下去就能出。当然也有失败的时候,但很多时候能成。

47:07 卢正锡 对。当然拿去 production 是另一回事,不过那个也快会被解决。production 的 DevOps 也是,只要接上专门干这个的 agent 就行。

x.com x.com

47:24 崔升准 总之我试了这些。还有 Yi Tay 回 Google 了,他也发了些 prompt,我也试了。要不也看下这个?它会做个类似 Minecraft 的东西,Yi Tay 只写了一段话,让它做秋天落叶、无限延展空间。我一次没成,后来加了点声音,走路时捡到像橡果的东西就会有声音,就出来了。 这些都在那个 “Vibe Check”,也就是刚才给你看的 AI Studio bundle 里。

物理可视化案例:Nano Banana Pro 的应用 47:30

然后还有这个,我在时间线上看到物理学家韩正勋教授的内容,关于量子力学相关的图,我其实不懂,但看他发了就想昨天试试喂给 Nano Banana Pro,会怎样。结果做成这样。 它是那种离散推进、能看到计算路径的感觉。

48:40 卢正锡 这个 notation 我看不全,所以这是对的吗?

48:45 崔升准 韩正勋博士在评论里说这是对的,而且画得很漂亮,对写书有帮助。但评论区也有人说路径不该这么离散地形成干净 arc,另一位学者说应该更 zigzag 来回一点,于是给了这个 feedback。 然后 Nano Banana Pro 就画成这样了。我把这个输入到 AI Studio 了。 然后得到这个。当然不只输入图,也给了对话上下文。所以现在 auto-run,或者点一步,向量就在离散前进。

49:34 卢正锡 跑得不错。

49:35 崔升准 这好像和量子纠错有关。现在它已经能做交互式可视化了。这是从昨天开始的事。Nano Banana Pro 的 use case 现在非常多,好的很多。我这里只是切了一个横截面,像信息图那些也有。

50:01 卢正锡 你说“从昨天开始能做”是指昨天 Nano Banana Pro 发布了。

50:10 崔升准 对,这是我用 Nano Banana Pro 的第二条 prompt。做之前我就有“会成”的预感。这个会往这边成,那个会往那边成。

50:27 卢正锡 与其说预感,其实接近 99% 确信了。

50:33 崔升准 99% 倒不至于,但几乎是“会成吧”,“应该行”……

50:37 卢正锡 那就算 97%。对。

50:40 崔升准 不过现在识别表现还是有点忽高忽低。接下来收尾部分是 AX 相关。

现场 AI 转型(AX):幼儿园教学资料制作案例 50:50

50:52 卢正锡 AI 转型。这个 AX 好像只有韩国在说,全球并不常用 AX 这个表达。

50:58 崔升准 啊,是吗?那这个也得改一下了。

51:00 卢正锡 AI 转型。在数字转型都还没完成的世界里,现在又被迫做 AI 转型。

51:09 崔升准 上一集之后,很多人应该知道我在做幼儿园。Gemini 3 出来后,我觉得得做个 hands-on workshop,就做了些尝试。虽然我在 YouTube 说得比较自由,但这种信息量平时很难公开说,我认为必须非常谨慎。所以我小心做了几个案例。

这个例子可能比较好:老师把发给家庭的教育相关短文(两三段)输入 AI Studio,然后我们用两三句 prompt 让它转成交互内容。这里原文是声音物性实验,讲如何支持孩子探索各种声音。它看了那段文字和图片后,一次就做出了图、交互,以及可围绕内容发问讨论的部分。我就把这个做成所有班级都能用的案例。因为如果只是别人的场景,大家很难有感。所以我展示的是:自己做过的事怎么变化、怎么增强、会产生哪些新的思考点。我直接引用老师写过的文字做交互内容,并指出其中意义。大家确实惊讶,但还没到“特别贴身”的感觉。

那接下来该做什么?我做 AI 转型的策略是一开始先做 1 on 1。也可以集中培训,大家一起听短讲,但幼儿园太忙,挤时间要非常谨慎。所以先用我的时间做 1 on 1,再培养我的手感,再看做什么更好。结果过几天,不,是两天后,Nano Banana Pro 就出来了。我当时就觉得“这下能成”。用 Nano Banana Pro 做的内容,啊,就在上面。这里也是某个游戏记录。做信息图当然可以一键做,但更让老师有感的是:只要平时把记录系统化整理好,就能生成这种提炼意义的 slide。不是说要原样直接用,但确实非常有帮助,这是我拿到的反馈。

54:17 卢正锡 这是 PowerPoint 一键出片的时代。

54:22 崔升准 对。有趣的是这里还能看到我的 prompt。就是“请做一套介绍教师意图、推进过程及其意义的 slide deck。最好能体现教师如何倾听儿童叙述并进行再构成。”大概一段话。拿这个去收 feedback 后,大家说虽然图片是生成的,如果替换成真实教室图会更好,但内容本身已经很有意义。

这个在全体会议里也能做。整体有两个阶段:第一阶段先做 1 on 1;第二阶段基于 1 on 1 得到的反馈,面向全体介绍更有体感的 use case。 然后我又做了一轮 1 on 1。时间不长,但能听到更坦诚的反馈,比如印象如何、难不难。这是我这周做的事。 当然也有各种担忧,我也快速推进了“组织成员怎么理解、如何学习”的路径探索。 还有老师们不是开发者,所以需要认知转换。我把当时记的一些点直接贴了出来。 这事很难,这种方式不太容易 scale up,但又确实有点有趣,也有成就感。至少我的方法是,在几乎 zero-day 的时间里找到有意义的 use case。

56:22 卢正锡 对。你这个案例说明了:当一个积累了足够 context 的人带着明确意志方向按下按钮,魔法会立刻在眼前展开。

56:38 崔升准 对。但要做到这一点,得进入目标人群的语境。要推动变化,就必须贴着他们的上下文,才更有冲击力,这是学习点。

56:49 卢正锡 没错。你刚才讲的时候也体现了,你和 AI 之间几乎没有瓶颈。你一直在讲的不是“我和 AI”之间,而是“我和他人”之间的瓶颈。 大多数公司和组织也一样。组织里必须有一个像你这样的 champion,而且不能有人拖 champion 后腿。 如果 champion 在一个无能经理下面,整体大概就会退化到那个无能经理的上限。 所以决策层必须明确理解这个动态,并能做组织设定。但前提是他本人得思考、得有框架,知道这到底是什么。 所以回到你最开始说的,必须亲自上手,不然光看新闻就说“该这么做、该那样做”,根本行不通。

58:04 崔升准 对。不过并非所有组织都是开发组织,从更一般化视角看,我认为健康摩擦是有帮助的。 刚才老师们一开始没“哇”起来时,我心里当然可能会有点失望。 但这样就会逼我想:怎么才能更好触达?更好的 use case 是什么?

不是只看我的视角。比如一些更偏模拟式的方法,或者教育里绝对不能丢掉的关键点。有人适度踩刹车时,因为我们不是开发组织,反而能找到更有意义的教育方向。所以我觉得健康摩擦很重要。

58:48 卢正锡 很好。这就可以直接连到 Antigravity 了。

Antigravity 评测:降低 CLI 门槛的 Agentic 工具 58:50

58:53 崔升准 Antigravity,听说卢正锡你非常震惊。

58:58 卢正锡 也不是震惊,算是预期内。UX 做得不错。Claude Code 因为在终端里,过去一直有一些不足;现在用 Antigravity 后会更强烈感受到:命令行 CLI、打开终端本身,对非工程师是多大的门槛。

用 Homebrew 安装 npx、装 Node.js,这些对没做过的人都很难。而 Antigravity 下载、安装、打开,让里面 agent 去处理其他事。只是把这个小门槛改掉,就已经很有意义。

59:50 崔升准 对。我虽然还没做出特别像样的东西,但已经有“这能成”的点。普通用户不只是怕 terminal,还怕在 terminal 里 edit,不好来回切、不方便编辑,只能靠快捷键。

1:00:12 卢正锡 还有 folder 概念。project 在子目录里怎样展开,工程师习惯了,但对非工程师来说也是非常陌生。

1:00:24 崔升准 而 web app 做不了的 batch 工作,日常里又太多了。比如批量转换文件,或者把手头图片和视频织成内容,这些过去不容易,现在感觉可以了。

1:00:46 卢正锡 还有一点,我觉得 Antigravity、Claude Code 是一类方向,Antigravity 和 Codex 是另一类方向。 Claude Code 的感觉像坐进一个操纵杆很多的宇宙飞船 cockpit,而 Codex 或 Antigravity 更像坐进 Tesla 飞船。

1:01:15 崔升准 更 agentic。

1:01:16 卢正锡 对,更 agentic。所以想提升 controllability 的工程师会更喜欢 Claude Code。也因此 engineering community 会在那上面加 skill、加 agentic guardrail,拼接 MD 文件、prompt 块,很多都已经包成套件了。

他们会觉得那样更安心。但 Antigravity 或 Codex 的立场其实是:那些太官僚。因为你提出流程这件事,模型在 knowledge 上可能比你更强,为什么还要限制 team process?

这两条路线像是在分叉。我一开始很习惯 Claude Code,也会对 agentic “自己做完”有点不适。之前我在 Claude Code 上加了很多 harness,比如先写 TDD spec、再写 test、只实现通过 test 的部分,这些强约束我这两天几乎都撤了。 我现在转成:给 Antigravity 提供高能级、我真正想做的 essence,更划算。两天内想法就彻底变了。

1:02:50 崔升准 但这种话在 5 月 Codex 出来时 OpenAI 就讲过,用“丰饶心态”,abundance mind 那套。

1:02:59 卢正锡 abundance mindset。

1:03:01 崔升准 对,abundance mindset,当时讲过。但那时温度还没

1:03:07 卢正锡 还没那么有感。

1:03:08 崔升准 但现在会觉得“啊,就是这个”。

1:03:12 卢正锡 没错。Antigravity 把 Claude Code 里那些别扭点,尤其是和 IDE 的半融合不适感处理得更好。

它只是挂了个窗口,不像 Cursor 那种 editor 紧密融合。所以我以前宁可用 terminal+Emacs。坦白说我不是 Cursor 重度用户,Antigravity 给我的这些,Cursor 里可能早就有。 我几乎不用 Cursor。 也没付费过,所以也可能是我的“个人冲击感”。但 Claude Code 里那些别扭,在这里我觉得整合得很好,用起来很顺。

1:04:03 崔升准 对。还有它测试也挺夸张,不是走 Playwright 之类,而是先引导装个 Chrome extension,然后直接在浏览器里跑。看起来像用 CDP,Chrome DevTools Protocol,直接点按钮做前端 user test,再看 console log 并持续修。虽然也有不少不行的,但能行的明显增加了。而且它会录屏。

1:04:35 卢正锡 对,会录下来并保留 artifact。test 通过/失败 case 都给你看。 而且它的决策过程分支处理也很 agentic,因为这种判断模型本来就更强。 所以像我前面说的,用 Claude Code 基座不断强化 harness、往里塞 skill set,这条路意义不大。应该尽快掉头。

1:05:09 崔升准 对,模型是 Gemini,但 harness 核心人物来自 Windsurf,里头还隐约出现了 Cascade 这个名字。

1:05:19 卢正锡 不管模型怎么发展、agent 怎么发展,harness 都会一直存在。harness 不是某个固定层,而是任何层上的抽象我们都会叫 harness,所以 harness 会永存。但它承担的角色、所在层级会持续向更高 abstraction 上移。 这次 Antigravity 里,Windsurf 创始人出来做了十几分钟 demo,他用的 prompt 就是把想要的目标物清晰简洁说出来。 中间发生什么不重要,我会自己做完。

1:06:14 崔升准 一下就过去了。与其 verbose 地绕来绕去,不如直说核心,模型会干净利落又有 sense 地做完,这点好像也是 Gemini 3.0 主打的方向。

1:06:27 卢正锡 但确定方向是:模型 capability 会继续增长,我们在 Antigravity、Claude Code 留下的这些工作 trail,成功的会进 dataset,失败的会被丢掉。所以它 exponential 发展的趋势会持续加速。

所以我们的判断应该是这样:我们可能因更早懂 engineering 细节,靠更好 harness 抢到 2~3 个月优势,但这个世界会很快结束,所以不该再花太多力气深挖 harness 本身和纯 engineering。 最终更重要的是发现现实问题并定义问题的能力。以前这类事是 consultant、business consultant、McKinsey 在做的。

给工程师的建议:比起开发工具,更应聚焦问题解决(Business) 1:06:30

1:07:29 崔升准 但如果外推一下,是不是变成“相比解决问题能力,持有或发现问题”这件事更不对称、更有优势?

1:07:41 卢正锡 对,你说到核心了。持有问题的人很多,但因为 AI 世界变了,所以“我的问题可以这样被快速解决”的视角转换,大多数 problem holder 还没发生。 接下来 1~2 年我们会看到很多这种 case。从商业上看就是这样。

比如一个问题持有者,假设某中型企业。它过去为传统解法每年给很贵的 B2B SaaS 付 100亿。现在做 AI 的人,原来要一家供应商、30 到 50 人、加上维护甚至 100 人规模做的活,在这里可能 5 个人就能做。

5 个人做的话,会把原本 100亿 的方案报到 30亿,但实际成本因为模型能力可能不到 5천만 원。那这 5 个人就有 29억 5천만 원 的 margin,而另一边那个 100亿 的低效产业会整块消失。

这事什么时候发生?当那个原本付 100亿 的 problem holder 发现了能这样解题的公司,类似 Palantir;或者看到竞争对手用这种方式大幅降本并构建了更 dynamic 的 software 环境时,变化就会剧烈发生。

所以正确方向是:聚焦于“尚未意识到问题的 holder”和“AI 世界”之间的 time gap 与 domain gap,聚焦 AI 之外那些极其人性的部分。我认为几乎所有 value 都在那里。

1:09:54 崔升准 我听下来感觉是,time gap 的信号最终是“fast follower 可以复制的 best practice 出现”的那个时点。之后大家知道“能成”,就都会做。

1:10:11 卢正锡 对。那时供需双方会变多,市场会去到新的均衡点。人们总是只看结果来预测,但真正攫取财富的,通常是在转型期进入混沌、整理混沌并拿下 market leadership 的人。 所以关键是这个区间,而这个区间就在未来 2 年发生,我们现在得为它准备。 如果把这段长话压缩成给软件工程师的建议就是:现在“把 Claude Code、Antigravity 用得特别好、把 harness 做得特别强”这件事没那么重要。

如果已经具备一定能力,就该尽快找到有问题的人,解决他们的问题,让你搭出来的 workflow 能 lock-in 对方,并在里面形成 retention 或看到 scale。这类人性区间更重要。 说更直接点,尽快放下“纯软件工程师”身份,尽快转成“企业家心态”。以“只是比别人更早用了 Antigravity 和 Claude Code 的企业家”视角来行动,我认为这是当下最正确的方式。

1:11:54 崔升准 这也差不多该流到“逃亡者联盟”这个话题了。

‘逃亡者联盟’ 聚会通知 1:11:55

1:11:58 卢正锡 对。我们今天是周六录制,我大概今天下午会给逃亡者联盟发邮件。 而且有很多很优秀的人申请,里面 problem solver 和 problem holder 都混在一起,所以我觉得需要一个让 holder 和 solver 见面交流的场。 无论线下还是线上,这可能就是逃亡者联盟的方向。

1:12:36 崔升准 那等这期发布时,notice 应该已经发出了。

1:12:41 卢正锡 对,应该已经发出了。

1:12:44 崔升准 那今天最后一点,我们这个播客的优势之一是:虽然会讲类似话题,但成员像金成贤、卢正锡、金有珍、还有我,视角都不一样。 所以我觉得这会打动听众。今天聊下来也更确定了,现在这个现象本身是更高维的,我们看到的是它投下来的 manifold 阴影,但这个阴影本身也还是高维,所以必须从多个角度看。

结尾:剧烈变化时期,多元视角的重要性 (Syncretism) 1:12:45

1:13:21 卢正锡 对,同一个现象会因视角不同而成像不同。

1:13:25 崔升准 所以这个景观也不是静止的,它一直在变。你从工程师视角看还是从经营者视角看,以及你在移动路径上的位置不同,看到的景色都会变。所以要多人一起看、一起讨论,才可能拿到更高密度信息。 这就是我们当下时代的状态。 如果给一个建议,即便价值观不同,也不该排斥彼此。我看到一个词叫 Syncretism。

意思大概是,即使意见和信念不同,只要面对更大的敌人或更有意义的局面,就完全可以协作、可以放进同一个篮子。所以我会想,也许“对 tech 加速乐观的人”和“更审慎的人”之间,如果能形成这种沟通,也许会更好。可能有点 naive。 因为信念真的差太大时,确实很难共处。

1:14:40 卢正锡 对,没错。我们常说 unlearn、learn,要像学习一样快速丢弃旧东西。前阵子流行一个词叫“꼰대”。 就是视角固化、无法和其他视角妥协的人。现在这个时代,对他们最危险。必须更快、更有 plasticity,像孩子一样。

1:15:09 崔升准 就是脑可塑性,一种

1:15:11 卢正锡 对,要不断学。所以你上一期讲“为了孩子教育该做什么”时,我反过来也给我们组织学到很多 insight。感觉大家都变成幼儿园小朋友了。

1:15:27 崔升准 是啊,这里还有很多可想的点,不过今天已经很长了。

1:15:31 卢正锡 很长了,就到这里吧。

1:15:35 崔升准 今天也很有意思。

1:15:36 卢正锡 好,升准,今天也谢谢你的很多启发。

1:15:41 崔升准 好,谢谢。