EP 89: 一键与颠簸

引言：GPT-5.4 发布与一键的时代 00:00

00:05 卢正石 这周我们一直在等的GPT-5.4出来了。Claude也发布了新功能，到处都在一键一键地说“我做了这个，我做了这个”，我们正看着这种见证帖。今天我们就来看看GPT-5.4和这种一键，以及那无数次一键背后存在的现实，胜准把它表达成“颠簸”，我们就来聊聊这些部分。

AI Frontier 网站介绍 00:31

AI Frontier 팟캐스트 블로그 aifrontier.kr

00:31 卢正石 不过在开始今天的主要内容之前，我们有一个叫AI Frontier的网站。这是我们的剪辑师裕真做的网站。裕真，能给大家介绍一下这是什么吗？我们AI Frontier，其实我也是

00:48 金裕真 从忠实听众开始，后来主动提出来担任剪辑的。一直让我觉得遗憾的是，因为YouTube本身是封闭的，

00:59 像Claude或ChatGPT这种情况下，就算我们很用心地把字幕都整理好了，agents也没法读取这些内容，这是个问题。

01:09 所以我和Claude一起努力一键一键做出来的，就是这个AI Frontier网站。它提供了可以把整篇帖子直接下载下来

01:19 之类的各种功能。我们也做了功能，可以按章节单独提取链接，或者让你只复制特定章节，都已经做好了。

01:29 我们YouTube视频的说明页面等地方都有链接。里面有对应那一期的链接，所以你可以用来向ChatGPT提问，应该会很方便。

01:42 崔胜准 裕真虽然说这个是一键一键做的，但还是花了很多心思来做，我自己也经常复制粘贴后拿去和ChatGPT之类的聊，很多时候确实很有帮助。大家不妨多多利用看看。

GPT-5.4 主要功能与演示 01:57

OpenAI - GPT-5.4를 소개합니다 openai.com

Computer Use & Frontend UI with GPT-5.4 Thinking youtube.com

OpenAI Showcase developers.openai.com

OpenAI同时发布的三款产品介绍卡片：从左到右分别显示“GPT-5.4 Thinking”“Introducing ChatGPT for Excel”“GPT-5.3 Instant”标题的发布图片

01:57 崔胜准 那么，GPT-5.4出来了。虽然我还没来得及仔细看，不过我整理了几个链接，其中这两个视频很有意思，还有一个视频是关于Computer Use agent的，最近OpenAI在GPT-5.4出来之后，大家分享的那些“做了这个做了那个”的内容，基本都和这个有关。比如在很擅长制作某种游戏或3D场景时，会形成feedback loop，还有在对话过程中中途调整方向，因此能够继续追问，在CoT过程中可以提出后续问题，这个功能很不错。

02:38 另外，好的demo都在showcase官网上，进去showcase之后会发现做得相当好。像经常被提到的某种RPG游戏，或者类似SimCity的东西，包括这些做出来的案例都能看到。SimCity大概在左边这个，不过内容很多。总之，5.4所追求的各种项目都分享在这边了，值得参考。质量看起来确实非常好。

OpenAI 的当前位置与竞争格局 03:01

03:04 卢正石 我们上周和成铉聊天的时候，提到RL环境扩展可能会成为非常重要的因素，而且frontier labs似乎在这方面领先很多，也会取得很多进步，我们当时是这么说的，在Computer Use那边，他们把它叫作CUA，起了这么个名字来称呼，而像Computer Use agent这种情况，其实就是把底层环境学习做得非常好了。这不太可能是在pretrain里学到的，而是在那个环境里，针对什么时候该采取什么动作，经历了大量试错之后，通过跑RL才做出了这么高的质量。

03:42 崔胜准 是啊。最近OpenAI有些起伏，不只是各种开发情况，连所处局面也有些起伏，用户也一度大批涌向Claude，这种情况下还会有什么影响，也不好说。从时间线上被汇报出来的质量来看，

03:59 卢正石 现在大家似乎都认可，5.4是迄今为止已经发布的模型里最强的。在现实工作中使用时，它比标准水平的人类做得好得多这一点，已经到了必须很自然接受的时刻。虽然这是OpenAI的说法，

层出不穷的新功能与一键生产力 04:15

04:18 崔胜准 不过Google那边也出了个叫GWS的东西。我自己还没用过，但他们做了一个能让CLI在Google Workspace里运行的版本。就是这么个东西。这个最近好像也挺常被提起，除了GPT-5.4之外，

04:32 这位也是在开发Claude Code的人。有Schedule，也有Task，还有Voice，可以看到一直都写着shipping shipping shipping。现在新功能发布的速度快到让人几乎跟不上，感觉最近就是这样不断在推出，而之所以能做到，大概也是因为AI们在努力地构建吧。只要告诉它开始做，以及要产出什么结果，

04:57 卢正石 为了得到那个结果所需的几乎所有知识，模型本身都已经具备了，所以真的是在很多地方都发生了所谓的一键。感觉这已经不是按周发布，而是按天发布了，

05:09 崔胜准 所以Claude Code这边也有点让人应接不暇。然后在最近的氛围里，

Three.js 与 Ricardo Cabello 的 Quake 移植 05:12

mrdoob - 'Claude로 Quake를 Three.js로 포팅할 수 있을까?' x.com

Three.js Quake mrdoob.github.io

05:14 崔胜准 因为Three.js最近被AI大量使用，所以使用量一下子涨了很多。

05:21 不过Three.js的作者Ricardo Cabello，是一位西班牙人，通常以Mr.doob这个名字被大家称呼的这位开发者，和Claude一起把现在已经算经典游戏的，像Quake、Descent这些作品进行了移植。因为源码是公开的，所以把它移植过来，再加上素材之类的，

05:42 把像Quake这种可以实时运行的东西，几乎移植到了可以实际运行的程度。

05:50 还有Descent，也能看到移植3D游戏的例子。不过这件事重要的是，

05:55 卢正石 它是在非常短的时间内完成的，这才关键。看这里的GitHub就能看到记录。

06:01 崔胜准 而且有意思的不只是GitHub，连发帖开头本身都很有趣。“OK Claude，你能把Quake移植到Three.js吗？”然后一小时后就变成这样了。当然，实际花的时间比一小时更久，因为还能看到 GitHub 上留下的痕迹，也确实有各种调整的过程，但我们还是能看出这是怎样的一个场景。

Andrej Karpathy 的学习速度实验与自我改进循环 06:21

Andrej Karpathy - nanochat 자기개선 루프 x.com

06:21 崔胜准 Andrej Karpathy 几天前发的帖子，这个很有意思。几个月前训练 GPT-2 大概要 3 个小时，现在则可以在 2 小时内完成训练。用 8 个 H100 pod

06:34 卢正石 2 小时内就能完成 GPT-2 级别的训练。但这里有趣的是想象力，

06:41 崔胜准 因为是 interactive，closer to interactive，所以就会朝着几乎能即时学习的方向去发挥想象，

06:50 其中有一段是在说让 AI agent自动反复改进 nanochat，借此体验一下 post-AGI 的感觉，算是个玩笑。12 小时内发生了 110 次修改，还讨论了这让 loss 降低了多少之类的话题，感觉这也是最近的一种氛围。也就是所谓的自我改进循环。

07:09 卢正石 也就是说让它跑着，然后在旁边看着。

Mitchell Hashimoto 与 Harness Engineering 07:11

07:11 崔胜准 还有 Mitchell Hashimoto，最近很多人都很爱用的 Ghostty 就是他做的，而且他还是 HashiCorp 的创始人。现在他大概已经把公司卖掉了，以编程匠人的身份继续活动，做出了有趣、快速又漂亮的终端，我知道很多使用 AI 的人现在都在用 Ghostty，他也在 GPT-5.4 发布那天凌晨，还是说在 GPT-5.4 发布前不久发过一篇帖子，说 Codex 5.3 把他六个月来一直 struggling、苦苦纠缠的问题给解决了。他还专门写了一篇相关帖子。所以我也看到了一些最近氛围的侧面，尤其是相对年轻一代的一些侧面。

07:59 不过我再次提到 Mitchell Hashimoto，是因为 harness engineering 这个词就出自他的博客。他那篇《我的 AI 引入之旅》是我 2 月读过的文章里最好的一篇之一，这篇文章大概由 6 个章节组成。从“抛弃聊天机器人”到“设计 harness”，“始终运行 agent”，“把明确且简单的工作外包出去”，大致就是这样的结构，其中第 5 步就是“设计 harness”。所以我们也在这里思考了一下所谓 harness engineering 这个词，每当发现 agent 犯错时，就投入时间设计出一个让它以后再也不犯这种错的解决方案。把它当成一种 engineering 的概念来理解，也就是 harness engineering，他主要讲了两点，一个是 prompting，另一个是通过实际的编程工具，每当看到 agent 做坏事时，就努力让它以后再也做不了这种事，同时也为 agent 提供某种 harness，让它能够自行验证自己做的是否是正确的事情。这是篇相当好的文章，里面除了这些之外

09:11 还有很多内容，

09:13 推荐大家读一读。应该也会提到，不过实际上 harness 这个说法现在真的被广泛使用着。所以说到 harness，有些人会把像 Claude Code 或 Codex 这样贴在模型旁边运行的一整套程序统称为 harness，但 Mitchell Hashimoto 说的 harness似乎连更前端的部分也都纳入了这个概念里。不过它虽然是增强型工具，

Alloy Analyzer wiki.g15e.com

강규영 - Alloy 기반 실행 가능한 명세서 x.com

Mitchell Hashimoto 的博客封面图片，标题为“MY AI ADOPTION JOURNEY”，并配有如树枝般向外延展的网络图形

09:43 但同时也带有像马鞍或马具那样紧紧勒住的感觉，这种语感我觉得还挺强的。harness 这个词就是这样。所以作为这种验证并收紧的工具的参考案例，最近在 Corca 担任 CTO 的姜奎英从去年开始就一直在提 Alloy 这门语言。他从去年起就时常提到 Alloy 这门语言。所以 Alloy是一套使用非常 domain specific 的语言来构建形式，并进行精确验证的体系。而最近他马上就昨天还是前天发的一条推文里提到，可以这样利用 Alloy 来做 end-to-end 测试，以及附带自然语言说明的可执行规范，也就是从某种 working 测试、integrated test 的思路里获得灵感，从而让模型能够准确地完成某项工作，我觉得这类验证工具已经超越了 lint。感觉他就是在制作这样的工具，进行 harness engineering。所以最近我一直在进一步思考的是，

Harness 的意义：验证与控制的工具 09:50

10:44 崔胜准 该怎么感知哪些事能一键完成，哪些事不行。通常有些事情拆成这种小 step 之后就能做成，但也有些事情即使用这种方法也还是做不成，我最近确实有这种感觉。所以所有那些需要解决的问题，真的都能靠精确做测试和验证的方法解决吗？大多数应该是可以的，但如果有做不到的事，那会是什么样的事，我就开始思考这些问题。还有，该如何判断、如何感知这一点，我现在也产生了类似这样的一些问题。

韩国资深开发者们的 AI 编码案例 11:19

김민태 - 시니어 개발자가 AI와 6개월간 25만 라인의 시스템을 만들며 발견한 것들 medium.com

11:24 崔胜准 不过最近看我们国内开发者，尤其是资深工程师开发者的一些趋势时，就像之前来做客的正圭不是说过吗，他一个人花了 40 天处理了一个 100 万行代码的 code base。所以我们大概在两三周前还聊过这件事，感觉真的是非常惊人的工作量。而且这周又有一位叫金敏泰的人，以前在 KTH 那种聚集了很多有趣的人、很多厉害的人的时候，他好像也是其中一员，后来又在 NC、Woowa Brothers 这些公司工作过，一直长期从业的这位资深开发者敏泰，还给我们介绍了一个叫“发现的东西们”的博客。不过那篇文章里也有相当有意思的部分，我觉得是这样的。还有刚才提到的圭英也正在做很有意思的东西，那是 AI 独自工作了3周，写了大约4万 LOC，像这种规模的代码库，好像已经开始出现一种模式了，就是一个人独自和 AI agents 一起进行管理。正石也经常在看这些吧。

12:34 不过这里又回到了整理的话题。已经有人成功了，而那样的事情似乎会成为很大的提示。那么，某个人一键做出了什么东西。不过人物本身的能力固然重要，但其实之所以能做到，我觉得也是因为受到了模型和 harness 的影响。那么“哎呀我也行”，也就是说成功案例会变成“我也行，我也行”。某个人做出了什么东西这件事本身，就是非常大的提示。只要已经有“这事做成了”这个结果，而且如果还有那个成果对应的代码库，

如果已经有人成功了，那就是能做成的事 12:36

13:06 卢正石 其实就等于拿到了设计说明书，最后哪怕只看运行起来的 use，把它放进模型里，模型也会把它 decompose 后制定计划，告诉你该怎么做出来。

13:18 崔胜准 这会成为非常具体的提示，而且不止如此，哪怕只是听说“谁做了什么”，也是很大的提示。我是在什么地方感受到这一点的呢，就是在 Lablup，CTO 用 HWP、HWPX在 pairing 中做出了元语言，并成功生成了 HWP 二进制文件，正圭不是给过我这个提示吗。光是知道有一位叫准基的人能做到那件事，本身就是很大的提示。大致知道那个人具备怎样的能力，再知道他做成了什么之后，就可以去和模型讨论“他到底是怎么做到的”，所以即便那未必是正确答案，也有助于我们去推理。大概像这样去想“这是怎么做的”“是不是那样做的”之类的，该怎么说呢？我觉得这种进行 reverse engineering 的情况，应该已经很多了。所以我也思考过这方面的问题，

14:11 而且这件事本身也让我有机会更多去思考 pairing 的 meta。你看这里也是，A 和 B 之间有一种 pairing，而去思考“这个可以怎么做”，其实也和“人和成功之间的 pairing”有点相似，像这种情况里，如果进行了 pairing，而这次成功只是部分成功的话，其实只要不断扩大这种转换的 coverage，就能逐步逼近更完美的状态，所以这些似乎也会成为某种灵感。然后这个是我在9月份有一次，去年9月给大家介绍过的，

14:53 我再次想起了一点，就是能够滚动这种复利的时间可能并没有那么长的情况其实还不少。所以在这一点上，我目前的暂时感觉是，如果是别人已经成功过的事，那就是能成的事，如果是别人已经成功过的事，那就说明它已经成过，所以我有一种感想是，那应该是成功概率非常高的事。不过这种事也可能会比较难。

15:17 因为老手们在做的那些事看起来难度还是挺高的，像 Donald Knuth，就是那位正在撰写毕生著作《The Art of Computer Programming》的人，到 2026 年已经88岁了，这件事还上了新闻。他把解决一个未解组合论问题的过程以论文形式公开了，前几天 Hacker News 也讨论过，说本来觉得这事不可能，还是偏向不用 AI 的一边，结果看到它居然能做到，我们就可以看到那种顶尖高手把这事做成的故事。

Donald Knuth：88岁老将对 AI 的运用 15:20

15:50 卢正石 那是他自己一直当作难题的问题，借助 AI 的帮助把它解出来了。我在 Twitter 上看到有人说，把 Donald Knuth 的那个问题原样拿过去，放进 GPT-5.4 Thinking 里，它就把正确答案全解出来了。前提是让它别搜索，直接解。对。

16:08 崔胜准 所以组合论那边的问题，现在好像确实解开了很多。就是这种感觉。正好 Donald Knuth 现在还在写的那套书，大概目前已经出到 4B 了吧，是和组合论以及 combinatorial algorithms 相关的内容，我想他应该就是在写这些的时候得到了那方面的帮助。总之，连88岁的老将也正在通过 AI继续向前进步。

16:35 卢正石 就是在不断进步。

16:38 崔胜准 如果有人对 Donald Knuth 感兴趣，可以去参考一个很有意思的视频，讲的是年轻时的 Donald Knuth在打孔卡时代做的一个叫 Electronic Coach 的东西，还有就是，这位本来是想写文章、写书，结果因为没有排版系统，才做出了 TeX，不是吗？后来那东西最终发展成了 LaTeX，成了论文写作的系统，而他就是把它做出来的那个人。所以如果你对这些故事感兴趣，也可以去了解一下。像 literate programming 这样的概念，他也是非常早就提出来的人。而且我自己也很惊讶，

Guido van Rossum、Kent Beck 的 AI 转向 17:10

17:11 崔胜准 查年龄时发现，Python 的创造者 Guido van Rossum 今年已经70岁了。

17:16 卢正石 和 Andrej Karpathy 相差30年呢。

Kent Beck - '90%의 스킬은 가치 하락, 남은 10%는 1000배 상승' x.com

Kent Beck（@KentBeck）于 2023 年 4 月 19 日发布的推文：『The value of 90% of my skills just dropped to $0. The leverage for the remaining 10% went up 1000x. I need to recalibrate.』— 140 万次浏览

17:19 崔胜准 Guido van Rossum 最近也转向了使用 AI，开始用起来了，像“用了 Claude 做了什么”这样的内容，在时间线上都能看到。还有我之前介绍过几次的 Kent Beck，像 Extreme Programming还有软件设计模式领域里非常有名的人，也参与过 Agile Manifesto，而且和 Ward Cunningham 关系也非常好。那位今年64岁，他会拿一个叫 genie 的 AI 来做各种事，还会把现场编程的视频发出来，叫作 genie session。不过他在 2023 年是这么说的。因为有点 reluctant，虽然心里并不是很认同，但还是有点勉强地去用了 ChatGPT，结果发现“我 90% 的 skill 都消失了”，他在 23 年发过这样的内容，后来转向好好使用，现在变得非常兴奋。他说写代码变得很有趣，最近还计划做一场相关的发表和讲座。genie 是如何改变程序员该做的事和不该做的事，标题就是这个。

18:27 卢正石 你在下面写的那篇 23 年 4 月写的文章也非常抓住本质。我拥有的 90% skill 价值下降了，接下来 remaining，也就是剩下的 10% 的价值涨了一千倍。不是单纯写代码的能力，而是别的某种东西，我们最近把它概括称作领域默会知识，这部分的价值高了很多，你当时是这么说的。

Anthropic 报告封面：标题为“支持对编程技能形成的影响，2026 年 1 月 29 日”，配有一只手调节滑块的插图

18:54 崔胜准 那是我们刚开始做播客的时候，转眼已经过去很久了。所以到了 2026 年的现在，我开始觉得，有些事适合用 harness 来做，有些事适合用 scaffolding 来做。我是这么想的。scaffolding 就是给你一个辅助台阶嘛。harness 则是刚才说的收紧那一类，scaffolding 在教育学里也是常用术语，比如说搭设脚手架，虽然之后会拆掉，但它是帮助学习者能自己往上爬的某种情境或环境，也可以指这种设置。

Harness 与 Scaffolding：委托与技能形成的两难 19:04

19:30 崔胜准 有一段关于 GPT-5 和 scaffolding 的内容，我是从 transcript 里翻出来的，直接问它绝对做不到。遇到某个问题时，如果原封不动扔给 GPT-5，是得不出答案的，太难了。所以才在 GPT-5 周围搭建了 scaffolding。这里的 scaffolding 有很多种，比如给它提创意的 agent，执行的 agent，验证的 agent，还有负责合并不同结果的 agent 等等，不是一上来就把开放性问题直接丢给它，而是先让它热身，先去解它本来就知道解法的、它本来就会的问题，然后再把那个解法放进一个必须去解决更有挑战性问题的 context 里，再让它去攻克泛化后的问题，结果过程中产出的 CoT 之类的成果非常惊人。所以后半部分内容也很有意思。要怎么把它当成 asset 来使用，

20:34 以及再往前走一步，怎么去构建一种能自动发现洞察的方法，如何通过这个过程提出那些从来没人提过的问题，这里有很有意思的讨论。在这样的语境里，和 scaffolding 有关的，有些事是通过收紧约束、确认小单元就能做成的，也有些事是不断提出更有意思的假设，一边挑战一边推进的，

21:04 感觉这两种情况是并存的。到了这种时候，共同点终究还是委托，而在我的 AI 引入之旅中，重要的一点是，“我去做别的事”这种方式，我认为在某种程度上能抵消Anthropic 那篇广为人知的 skill 形成论文。所谓 Anthropic 的 skill 形成论文，意思是说，对于委托给 agent 的工作，人的 skill 不会形成；相反，对于我持续亲手做的工作，skill 会自然地持续形成。所以不管是 scaffolding还是 harness，我都是通过委托来使用 AI，但如果既想委托，又不想失去能力，不想退化，或者想发展出别的能力，

21:50 那该怎么做呢？也许有人会像 Kent Beck 那样，认为自己剩下的 10% 依然会增值一千倍，但对普通人来说，一旦开始委托，是有可能会丢失能力的。这部分就挺让人纠结。这类说法其实在 AI 或 agent 出现之前，就一直是各种自我提升书里常见的内容。怎样做才能让某些事情提升我的价值，而某些事情则不该拼命去做，而是应该委托出去，或者干脆不做，这种讨论其实一直都有。而且我们自己也在很大程度上陷在软件工程这个领域里。因为我们的出身就是这样。而且软件工程这个东西，怎么说呢，过去二三十年一直都在享受黄金时代。疫情那时候，哪怕只是上个 6 周的 bootcamp，也能进公司拿到 15 万、20 万美元的年薪，那个时代刚刚结束嘛。所以说到底，我们现在其实就是在大惊小怪。但每当供需关系发生变化，市场的 dynamics 就都会变。只是因为从某种意义上说，

软件工程的整体抬升与领域扩展 22:12

23:03 卢正石 我们正是这场卢德运动的当事人，所以才会对这件事反应过度、过分大惊小怪，我现在也开始这么想了。再比如说，这个 Claude Code 做到了什么，Codex 又做到了什么，过去这两三个月里，我们真的是每天都觉得很新奇，一做这些事就会 dopamine 爆棚，但不知不觉间，这已经成了日常，也不再是只有我能做的事，而是变成了谁都能做的世界，于是大家的思考都被推向了“那接下来该怎么办”这个问题。在那之后要做什么、怎么做，

23:44 刚才 Kent Beck 不是说过吗，那我就得去 recalibrate，让自己剩下的 10% 怎样才能拥有一千倍的价值。其实所有人都到了必须 recalibrate 的时点。而且就连软件工程这种在知识劳动里也算站在前沿的部分，都已经被模型席卷了。那接下来，当我们看物理论文、进入那个 domain 已经完全不奇怪了世界已经变成这样了。生物学论文、所以说，能够学习、定义问题，化学论文，或者律师写的法典文件时，并且能从新视角看待事物的那些人，其实还是没有那么切身的感觉。他们的 domain 正在变得极其宽广。而且那些东西如果没有其中的某种 skill，如果没有那样的工具，本来就是很难接近的，我这周也是但借助模型的帮助，工作特别特别多的一周，但越是这种时候，反而越会去看些奇怪的书，去看些难懂的论文，所以我看了几篇和生物工程相关的论文，放在以前，别说大胆去看了，我连一句话是什么意思都根本看不懂的那些东西，现在却能慢慢读下来，还会把内容都教给我，并解释它们的含义。甚至放进 GPT-5.4 里以后，它还会说，这篇论文之后未来大概会产出这个。我虽然也没有证据，但有将近 90% 的概率会变成这样，它会这么说。听着这些内容的时候，就会觉得，现在本来应该是那种冲击诺贝尔奖的生物工程学家才会说出来的话，就像刚才胜准说的那样，一听到“有人做成了这个”，就会变成“那我也能做”的世界，所以是不是也意味着通往其他 domain 的探索边界会不断扩大，我会有这样的想法。这是个很有趣的时期。总之，如果把我的话概括一下，

25:29 就是现在我们对 Claude Code 和 Codex，还有这些 harness 能做什么、有什么限制，这类讨论，似乎已经到了该收起来的时候了。这就是个已经能跑通的游戏。它会被 encapsulation，然后直接下沉到更底层，而我们要去到下一个 level，重新思考那个层面的游戏。说实话，我和胜准在今年刚开始的时候，还记得我们说过，这场 harness 争论很快就会结束，模型也会很快接近 AGI，那下一层就该往下一个 domain，比如 science 之类的方向，我们也该更进一步去看看了。但因为消息实在太多了，像 AI science，还有 Alpha Genome 之类的，biology 和 computation、AI 结合的部分，以及 chemistry 结合的部分，这些话题我们其实没怎么聊，所以我也在想，我们是不是也该把档位切到那边去了。不过听你这么说着说着，

26:28 崔胜准 我也有点想反问的一点是，我觉得正石现在大概率也已经不怎么亲自写代码之类的了，但即便如此，像刚才你说去看生物工程相关内容，或者吸收那些能把自己引向下一阶段的信息，这些事情反而是更做得好了，对吧。也就是说，那种能力反而正在被发挥出来。对。归根结底，还是作为一个学习者，

26:54 卢正石 我们以前在那些自我提升书里不也常说吗，持续学习、不断让自己变身是很重要的。过去是通过某种学习，把一种智力型 skill装进脑子里之后，它就能作为劳动价值被使用的时代。但那样的时代不是正在结束吗？擅长 Python 的人，擅长前端的人，擅长 DB 的人，擅长这个擅长那个的人，其实他们并不需要去操心问题本身，只要有人把问题定义好拿过来，他们就成了把它施工好的施工者。这和 1800 年代中叶那些擅长操作纺织机器、织布的人没有任何区别。只不过那些人好歹是用了二三十年、一个世代，这一切才消失，而我们现在几乎只有 6 个月。Claude Code 是去年 3 月出来的。

27:45 胜准，还有我们第一次用 Claude Code，好像是 5 月吧，也不过才一年，可就在这一年里，随着 Opus 的升级，还有 GPT 的升级，以及伴随它们做出来的这些 harness，一年就把这事几乎全结束了。现在还有很多人没在用。我觉得不用这些工具的人，还是远远多于在用的人。就连软件工程师里，开始用它的人也还是有时间差的。归根结底，这个问题最后会走向哪里呢，就是全面上移拉平。变成最厉害的人把所有事情都做掉的那种方式，最后全都被上移拉平。工业化是这样，纺织业也是这样，

28:26 铁路业也是这样，汽车业也是这样，钟表业也是这样，看起来好像总会出现这样一个高速增长期，但结束之后，往往总是三四家公司把一切都做完了。也许软件工程这个领域也是一样，我们也一直不断地说，啊，总还会有能逃去的 domain 吧，总还会有什么别的吧。可随着那种拥有强大 generality 的模型一路压过来，我们不是正在眼看着，连那些我们以为足够 specific 的领域，也一个接一个地被 steamroll 吗？就连像 Donald Knuth 那样说“我在算法上是绝对特化的”那种人，现在也没什么事可做了。因为 GPT-5.4 只要拿到问题，就会解得更好。

29:09 所以在这样的时期，我确实觉得我们得把自己的价值观镜头换一换档了。当然，由这个 time gap 产生的部分，仍然可能还有商业机会，但就算想察觉这个 time gap，并加以 exploit，压缩也实在太厉害了。压缩得太厉害了，归根结底，这是相对性的。正因为相对而言更难、更稀缺，所以仍然有很多那种只有特定专家才进入的 domain。

29:41 而且那些 domain 大得惊人，会让我觉得那里就像 coding 一样，也该去狠狠干一票，而且也终将被干穿吧。带着这种想法，我也像胜准对物理之类的方向感兴趣一样，我也在看化学和生物工程这些领域。

29:57 崔胜准 总之，如果稍微 recap 一下正石刚才的话，应该说不是创意本身，而是视角本身得看向别的地方。如果和别的 domain 往这类方向结合，

30:11 卢正石 那些我们至今还没触达过的领域，能做的事情也太多了。Coding 还有这种 AI 方向的发展，

30:18 崔胜准 就是说要把它的斜率看成常数。就是会一直越来越好。

30:22 卢正石 昨天正圭不是说过那个吗？就在那个群聊里。看起来会成的事就别做。因为那是没有价值的事。

30:30 崔胜准 我刚才也在想的点就是这个，会成的事和不会成的事，还有那些稍微努力一下就可能成的事，得对这些有感觉才行。所以我在 3 月第 1 周，正石在那一类方向上做了不少学习，我自己也算学了一些，但我到现在要对话的话，还是因为网页端方便得多，所以大多都在网页上聊，而且我也喜欢看 CoT，所以最后还是做了这边的东西，大概是从 3 月 1 日开始的，到昨天为止大概聊了 60 个对话。

3D 网格算法挑战记：论文到一键实验 30:38

31:03 卢正石 看起来全都是 3D 这类方向啊。都是为了解决一个问题的对话。所以每个对话里都有代码，

31:11 崔胜准 很多时候都有上千行，这样几轮下来，就算扣掉几轮不算，往少了算也有大概 6 万行代码在这些对话里。所以我当时想解决的是什么问题呢，是我 2020 年发在社交媒体上的一个帖子，啊，这种东西我也想开发一下。所以有一个叫 BMesh 的算法，是比较有名的。那个在叫 Blender 的 3D 工具里，还有在 ZBrush 那边，也很早就在用类似的东西了，它就是那种能把模型做得很平滑的东西。但我当时是在还没有 AI coding 的年代，试着靠人类智能去实现类似的东西，虽然没能把那个本体做出来，但做出了一个衍生版本，就是把小朋友画的图放进去，做成这种带了 skinning 的东西，像这样做出来。

32:00 卢正石 这是胜准 21 年的作品吧。

32:02 崔胜准 现在也还有这种可以马上看到结果的工具，比如说我在这里把某个 PNG 文件一个长这样子的 PNG 文件直接拖放到这里，它就会这样帮你生成。

32:16 卢正石 这是 3D 吗？看起来是 3D。对，是 3D，只是前后是一样的，

32:20 崔胜准 而且还能动，所以就做成了这样。如果是小朋友做的，我就会在毕业典礼的时候，把每个人画的东西都这样做出来。虽然只是让它们像是在跟孩子们说话的文字，但我以前做过这种东西。不过现在我已经不亲自去写这种代码了，

32:41 但当时没能挑战成功的不是这种前后一样的东西，而是想做成立体结构，可那一步我自己始终没真正做出来。即便已经有现成的论文和代码也是如此。

32:54 因为那个其实会依赖一些线性代数相关的东西，比如 Eigen，会依赖这类东西。有个叫 Eigen 的库，但它有点难搞，所以在网页环境里很难做。不过既然 GPT-5.4 出来了，

PoC 能做，但一键困难的节点 33:05

Claude Code 工作结果界面：左侧列出了 bmesh-mvp-preview.obj 等项目文件并带有勾选标记，右侧显示一个呈 T 姿势的人体白色 3D 网格模型

33:05 崔胜准 我就试了一下“论文到一键”到底行不行。虽然没完全成，但已经做出了八九不离十的结果。

33:11 卢正石 现在是到了“嗒嗒”的部分，但“咔”还没出来。

33:15 崔胜准 所以如果给你们看看这个“论文到一键”，这个大概做了 30 分钟，或者说 20 分钟左右，一开始是先简单起步，然后定计划、来回拉扯几轮，再把结构搭起来，就让它这样推进下去。所以本来是想做成 MVP 级别的最小实现，结果确实是做出来了，但老实说还是有不少遗憾。我还试了“源码到一键”。因为还有人看着那篇论文已经在 GitHub 上实现过了。所以我把那个 archive 下载下来做了，那个只花了 10 分钟。不过质量反而更低一些。因为这属于 porting，所以本来就是难度低得多的问题。但像这种区间，属于那种做不成的区间，虽然说是实现了，其实并没有真正成功，连一键都做不到的那些。但即便如此，它还是能展示出某种 PoC 级别的能力，用很简单的 prompt 就能做到，不过也确实有一些部分是一键搞定的。所以是从去年 3 月 1 日左右，大概 2 号那会儿，我做了这个。

34:17 这是什么呢，就是这里现在虽然不太看得清，但如果你输入“Godzilla”，它就会生成出来。然后还能做动画，接着这里我后来大概又输入了“Santa Claus”。如果输入“Santa Claus”，就会生成一个长得像 Santa Claus 的东西。

34:31 不过这个看起来和刚才那个有点像，但它用了 isosurface，所以这是简单得多的算法。这个虽然很容易做出来，但细节会差一些。像生成手指这种。这个大概花了 30 分钟。PoC 后来再打磨，又多花了一两天。接下来这个 PoC 也是大概 30 分钟做出来的。为了做得更像样一点，干脆朝着 modeling tool 那种方向走，比如有个人体形状时，可以把它拉长、再缩短一些，或者改造成别的形态，ZBrush 这个 3D 工具里有个叫 ZSphere 的概念，就是做这种东西的，像这种程度的制作，尤其是 Gemini 在 3D 方面做得很好，所以做起来特别轻松。到这里都还很容易。

颠簸路段：模型也未能解决的边界连接问题 35:18

Zsphere v5 HTML 查看器中显示人体 3D 网格的画面。“Boundary Edges”和“Gap Edges [*1]”图层已启用，躯干与四肢连接处清晰可见白色边界线

35:18 崔胜准 所以论文里的关键在于，要把这个做插值然后连起来。先把这个做出来，再以这个为目标，从那里开始就进入颠簸了。不过除了最末端那个接缝之外，其余部分的还原还是很容易的。但这一部分在人看来明明非常简单，可真要用数学去思考，里面其实有很多东西。

35:40 卢正石 就是关节部位。所以如果给您看一下这个的话这里和刚才一样，

35:47 崔胜准 把中间连上再关掉的话，就会变成这样，像 boundary edge 这样的东西会这样出现，把这些连接部位连起来这件事，并没有想象中那么显然。围绕这个去探索相关的数学和算法，把周限额都用光了还是不行，所以也用了别的模型。所以刚才大部分对话，都是在反复进行那个假设和实验。但是为了 divide and conquer 这个问题，

36:16 就把问题的一部分切出来，或者复现类似的问题，然后一个一个去看它到底能不能运行，就是这样去做测试。把 UI 接上之后，这件事本身能一键完成，确实很好。如果这是我以前要做的话，光是实现这个本身就要花很多时间，但像施加某种 perturbation，或者调节 vertex 数量，这些事情都能瞬间完成，所以我只需要提出假设，做实验的事由 AI 来做。所以就去试这个假设，

36:50 再去实验 convex hull，也就是凸包这个假设。这个我自己没想到，但和模型聊着聊着，它说可以用动态规划。但是动态规划这个 DP 算法，我没想到还能这样用。但我照着模型建议的方式去做之后，我去搜索了一下，发现在 mesh 里这样做其实比较少见。不是完全没有，但我确实从中学到了一些东西。

37:14 不过也有模型反对，但我还是坚持了自己的直觉。我的直觉是这样的，当有这样一些 ring 的时候，当有这些看起来像这样的东西时，虽然还不到拓扑同构的程度，但它们可以被展开成某种类似 ring 的形式，再把它投影到球面上，就会变成这样，然后用连接剩余部分的方式，也许就能实现 convex hull，我由此得到了“这样做应该可以”的想法。那么这个想法，是不是成了从另一个壳

37:50 卢正石 转到这个角度的某种出口呢？结论上说，还没有，不过确实成了一个很大的提示。

37:57 崔胜准 而且这本身也成了有用的副产物。以后还能用在别的地方。不过这个是虽然模型们反对，但我凭着某种直觉，认定“这个应该能行”并一路推进的。所以我当时觉得这应该能成，想着刚才那种状态下就该用这个了，结果它只是装作能运行而已。还是变好了一些。

38:19 卢正石 肉眼看上去是连上了一点，但其实还是没解出来。不过这个也是 GPT-5.4 做的，

38:27 崔胜准 问题在于，我复现的是那个问题，而不是把原有的问题原封不动地拿过来。所以其实有不少情境本身不同的 case。能行的 case 和不行的 case 混在一起，要想把这个真正做好，遇到特定问题时就得先把它做成 save point，然后在那个点上提出各种假设并优先探索，假设成功当然很好，但如果不行，就再往回退着做。类似这样的算法有很多。

假设-实验-直觉的反复与保存点策略 38:36

38:54 卢正石 就是 Ralph loop 吧。在那个时点不断让它试到成功为止，如果无限投入 token，总有一天会成吧。但我的看法有点不同。

39:03 崔胜准 因为这取决于你怎么做 scaffolding，这是会让结果有所不同的区间。之所以这样说，是因为在 graphics 这边，一直有人觉得 TDD 比较难做，在我那个年代，这确实被认为很难。有些东西从视觉上看很明显，虽然用 vertex merge check 之类的能通过，但质量还是可能不好。而现在模型擅长的，归根结底就是把这些信息放进反馈循环里。但在这件事还没做到特别好的状态下，有些东西在人看来很简单，但从算法上，或者对模型来说，依然是困难点，在那个区间里如果去跑 Ralph loop，很可能会浪费 token。

39:41 目前还是 back and forth 的反复过程。不过我的先验概率是这件事能成。因为这本来就是能做成的事，虽然我现在经历了一些波折，但只要找到好的路径，我觉得就能一键完成。刚才我不是把标题写成那样了吗。一键、颠簸，还有突然一下。颠簸就是卡住的区间，但在那之后也可能突然就成了。不过这多少也有点信念问题，我和 AI 一起做的时候，总觉得它好像会成，但我也说不清那种感觉到底是怎么来的。不过一旦有了那种感觉，继续往前推，好像就能成。不过刚才胜准说的那一段里，

定义问题能力的时代 40:24

40:27 卢正石 其实把我们一直以来说的话都包含进去了。一开始“要做什么”的问题定义。以及当某个问题撞上某个难题的时候，把人的 insight 带进来，以 human in the loop 的方式来做，也就是投入的不是那种 90%而是只属于胜准的那 10% field knowledge、默会知识。然后只要带着意志一直推到成功为止，总有一天会成，而那其实也就是进步发生的时刻。

40:54 可惜的是，如果把“崔胜准做了这个”的消息发到外面，别人也会。我自己也是看了别人做的，

41:03 崔胜准 觉得这应该行才去做的，所以它很容易被复制，这也是理所当然的。因为这说明它能做成。而且这也不是只靠人的力量做成的。也是靠 AI 的力量做成的，而那个几乎是相对公平地提供给大家的。当然还是要花钱，但不管怎样，这至少在某种程度上比以前容易获得得多了。

41:23 卢正石 其实从正圭之后，再到成铉，再到今天，某种意义上，我们那种郁闷感，以及这种被卡住的区间，关于颠簸区间的讨论，好像一直在延续。我们大家都在一键一键地做着我觉得好像已经越过了那样的阶段。就是会在脑子里形成一种想法：这个既然能做到，那就别自己做了。现在胜准也是，其实我也是，虽然能在一键就完成的区间里获得巨大利益，但如果能和我自身的某些东西结合，从而产出完全不同的附加价值，我觉得我们现在相当关注的就是如何去定义那样的问题。所以归根结底还是 problem。Problem。所以要善于捕捉问题，之后还能把问题好好推演下去，并且能够很好地引导整个解决问题的过程，我觉得这才是人该具备的素质。昨天在我身边，

一旦 token 中断，人就回来了：依赖与 Brownout 42:11

ChatGPT 使用量界面：在“每周限额”部分，“所有模型”项目的仪表已满，并显示“已使用 100%”和“22 小时 14 分钟后重置”

42:32 卢正石 有位会分享 frontier knowledge 的工程师说过一段话，我还记得。他说自己把 weekly token在订阅额度里全都用完后，就在那一刻自己又变回了一个微不足道的人类。因为那样就没事可做了，因为完全没有任何能做的事，所以只能睡觉，他说那就是自己唯一能做的事。不过那话还真有种微妙的共鸣。我们现在做的所有事情，也都是把 GPT 和 Claude 带在身边嘛。

42:59 说实话，要是没有它们，现在一天里大部分工作都已经变成和它们一起做了。如果没有它们，就像 Andrej Karpathy 说的那样，整个社会都会进入 brownout。就像电力有点不足那样。总之这一周就是这么过来的，

结语：AI 时代应强化的人类德性 43:21

43:21 崔胜准 正石也经历了那种不断深挖的体验，我也用自己的方式在继续深挖。重要的是，刚才正石说的那点我很认同，即便如此，在把这些事委托给 AI 的同时，反而好像有一些必须获得或强化的要素。比如坚持力，或者建立假设，再比如适当休息也是件好事。因为头脑清醒，才能想到好的假设。所以去思考这些事情，再去探索，也挺有意思的。而且像这样解决问题本身，也会让人觉得很有趣。总之先准备到这里。

43:59 卢正石 是的，今天的内容也很有意思。