EP 89
一键与颠簸
引言:GPT-5.4 发布与一键的时代 00:00
卢正石 这周我们一直在等的GPT-5.4出来了。Claude也发布了新功能,到处都在一键一键地说“我做了这个,我做了这个”,我们正看着这种见证帖。今天我们就来看看GPT-5.4和这种一键,以及那无数次一键背后存在的现实,胜准把它表达成“颠簸”,我们就来聊聊这些部分。
AI Frontier 网站介绍 00:31
卢正石 不过在开始今天的主要内容之前,我们有一个叫AI Frontier的网站。这是我们的剪辑师裕真做的网站。裕真,能给大家介绍一下这是什么吗?我们AI Frontier,其实我也是
金裕真 从忠实听众开始,后来主动提出来担任剪辑的。一直让我觉得遗憾的是,因为YouTube本身是封闭的,
像Claude或ChatGPT这种情况下,就算我们很用心地把字幕都整理好了,agents也没法读取这些内容,这是个问题。
所以我和Claude一起努力一键一键做出来的,就是这个AI Frontier网站。它提供了可以把整篇帖子直接下载下来
之类的各种功能。我们也做了功能,可以按章节单独提取链接,或者让你只复制特定章节,都已经做好了。
我们YouTube视频的说明页面等地方都有链接。里面有对应那一期的链接,所以你可以用来向ChatGPT提问,应该会很方便。
崔胜准 裕真虽然说这个是一键一键做的,但还是花了很多心思来做,我自己也经常复制粘贴后拿去和ChatGPT之类的聊,很多时候确实很有帮助。大家不妨多多利用看看。
GPT-5.4 主要功能与演示 01:57

崔胜准 那么,GPT-5.4出来了。虽然我还没来得及仔细看,不过我整理了几个链接,其中这两个视频很有意思,还有一个视频是关于Computer Use agent的,最近OpenAI在GPT-5.4出来之后,大家分享的那些“做了这个做了那个”的内容,基本都和这个有关。比如在很擅长制作某种游戏或3D场景时,会形成feedback loop,还有在对话过程中中途调整方向,因此能够继续追问,在CoT过程中可以提出后续问题,这个功能很不错。
另外,好的demo都在showcase官网上,进去showcase之后会发现做得相当好。像经常被提到的某种RPG游戏,或者类似SimCity的东西,包括这些做出来的案例都能看到。SimCity大概在左边这个,不过内容很多。总之,5.4所追求的各种项目都分享在这边了,值得参考。质量看起来确实非常好。
OpenAI 的当前位置与竞争格局 03:01
卢正石 我们上周和成铉聊天的时候,提到RL环境扩展可能会成为非常重要的因素,而且frontier labs似乎在这方面领先很多,也会取得很多进步,我们当时是这么说的,在Computer Use那边,他们把它叫作CUA,起了这么个名字来称呼,而像Computer Use agent这种情况,其实就是把底层环境学习做得非常好了。这不太可能是在pretrain里学到的,而是在那个环境里,针对什么时候该采取什么动作,经历了大量试错之后,通过跑RL才做出了这么高的质量。
崔胜准 是啊。最近OpenAI有些起伏,不只是各种开发情况,连所处局面也有些起伏,用户也一度大批涌向Claude,这种情况下还会有什么影响,也不好说。从时间线上被汇报出来的质量来看,
卢正石 现在大家似乎都认可,5.4是迄今为止已经发布的模型里最强的。在现实工作中使用时,它比标准水平的人类做得好得多这一点,已经到了必须很自然接受的时刻。虽然这是OpenAI的说法,
层出不穷的新功能与一键生产力 04:15
崔胜准 不过Google那边也出了个叫GWS的东西。我自己还没用过,但他们做了一个能让CLI在Google Workspace里运行的版本。就是这么个东西。这个最近好像也挺常被提起,除了GPT-5.4之外,
这位也是在开发Claude Code的人。有Schedule,也有Task,还有Voice,可以看到一直都写着shipping shipping shipping。现在新功能发布的速度快到让人几乎跟不上,感觉最近就是这样不断在推出,而之所以能做到,大概也是因为AI们在努力地构建吧。只要告诉它开始做,以及要产出什么结果,
卢正石 为了得到那个结果所需的几乎所有知识,模型本身都已经具备了,所以真的是在很多地方都发生了所谓的一键。感觉这已经不是按周发布,而是按天发布了,
崔胜准 所以Claude Code这边也有点让人应接不暇。然后在最近的氛围里,
Three.js 与 Ricardo Cabello 的 Quake 移植 05:12
崔胜准 因为Three.js最近被AI大量使用,所以使用量一下子涨了很多。
不过Three.js的作者Ricardo Cabello,是一位西班牙人,通常以Mr.doob这个名字被大家称呼的这位开发者,和Claude一起把现在已经算经典游戏的,像Quake、Descent这些作品进行了移植。因为源码是公开的,所以把它移植过来,再加上素材之类的,
把像Quake这种可以实时运行的东西,几乎移植到了可以实际运行的程度。
还有Descent,也能看到移植3D游戏的例子。不过这件事重要的是,
卢正石 它是在非常短的时间内完成的,这才关键。看这里的GitHub就能看到记录。
崔胜准 而且有意思的不只是GitHub,连发帖开头本身都很有趣。“OK Claude,你能把Quake移植到Three.js吗?”然后一小时后就变成这样了。当然,实际花的时间比一小时更久,因为还能看到 GitHub 上留下的痕迹,也确实有各种调整的过程,但我们还是能看出这是怎样的一个场景。
Andrej Karpathy 的学习速度实验与自我改进循环 06:21
崔胜准 Andrej Karpathy 几天前发的帖子,这个很有意思。几个月前训练 GPT-2 大概要 3 个小时,现在则可以在 2 小时内完成训练。用 8 个 H100 pod
卢正石 2 小时内就能完成 GPT-2 级别的训练。但这里有趣的是想象力,
崔胜准 因为是 interactive,closer to interactive,所以就会朝着几乎能即时学习的方向去发挥想象,
其中有一段是在说让 AI agent自动反复改进 nanochat,借此体验一下 post-AGI 的感觉,算是个玩笑。12 小时内发生了 110 次修改,还讨论了这让 loss 降低了多少之类的话题,感觉这也是最近的一种氛围。也就是所谓的自我改进循环。
卢正石 也就是说让它跑着,然后在旁边看着。
Mitchell Hashimoto 与 Harness Engineering 07:11
崔胜准 还有 Mitchell Hashimoto,最近很多人都很爱用的 Ghostty 就是他做的,而且他还是 HashiCorp 的创始人。现在他大概已经把公司卖掉了,以编程匠人的身份继续活动,做出了有趣、快速又漂亮的终端,我知道很多使用 AI 的人现在都在用 Ghostty,他也在 GPT-5.4 发布那天凌晨,还是说在 GPT-5.4 发布前不久发过一篇帖子,说 Codex 5.3 把他六个月来一直 struggling、苦苦纠缠的问题给解决了。他还专门写了一篇相关帖子。所以我也看到了一些最近氛围的侧面,尤其是相对年轻一代的一些侧面。
不过我再次提到 Mitchell Hashimoto,是因为 harness engineering 这个词就出自他的博客。他那篇《我的 AI 引入之旅》是我 2 月读过的文章里最好的一篇之一,这篇文章大概由 6 个章节组成。从“抛弃聊天机器人”到“设计 harness”,“始终运行 agent”,“把明确且简单的工作外包出去”,大致就是这样的结构,其中第 5 步就是“设计 harness”。所以我们也在这里思考了一下所谓 harness engineering 这个词,每当发现 agent 犯错时,就投入时间设计出一个让它以后再也不犯这种错的解决方案。把它当成一种 engineering 的概念来理解,也就是 harness engineering,他主要讲了两点,一个是 prompting,另一个是通过实际的编程工具,每当看到 agent 做坏事时,就努力让它以后再也做不了这种事,同时也为 agent 提供某种 harness,让它能够自行验证自己做的是否是正确的事情。这是篇相当好的文章,里面除了这些之外
还有很多内容,
推荐大家读一读。应该也会提到,不过实际上 harness 这个说法现在真的被广泛使用着。所以说到 harness,有些人会把像 Claude Code 或 Codex 这样贴在模型旁边运行的一整套程序统称为 harness,但 Mitchell Hashimoto 说的 harness似乎连更前端的部分也都纳入了这个概念里。不过它虽然是增强型工具,

但同时也带有像马鞍或马具那样紧紧勒住的感觉,这种语感我觉得还挺强的。harness 这个词就是这样。所以作为这种验证并收紧的工具的参考案例,最近在 Corca 担任 CTO 的姜奎英从去年开始就一直在提 Alloy 这门语言。他从去年起就时常提到 Alloy 这门语言。所以 Alloy是一套使用非常 domain specific 的语言来构建形式,并进行精确验证的体系。而最近他马上就昨天还是前天发的一条推文里提到,可以这样利用 Alloy 来做 end-to-end 测试,以及附带自然语言说明的可执行规范,也就是从某种 working 测试、integrated test 的思路里获得灵感,从而让模型能够准确地完成某项工作,我觉得这类验证工具已经超越了 lint。感觉他就是在制作这样的工具,进行 harness engineering。所以最近我一直在进一步思考的是,
Harness 的意义:验证与控制的工具 09:50
崔胜准 该怎么感知哪些事能一键完成,哪些事不行。通常有些事情拆成这种小 step 之后就能做成,但也有些事情即使用这种方法也还是做不成,我最近确实有这种感觉。所以所有那些需要解决的问题,真的都能靠精确做测试和验证的方法解决吗?大多数应该是可以的,但如果有做不到的事,那会是什么样的事,我就开始思考这些问题。还有,该如何判断、如何感知这一点,我现在也产生了类似这样的一些问题。
韩国资深开发者们的 AI 编码案例 11:19
崔胜准 不过最近看我们国内开发者,尤其是资深工程师开发者的一些趋势时,就像之前来做客的正圭不是说过吗,他一个人花了 40 天处理了一个 100 万行代码的 code base。所以我们大概在两三周前还聊过这件事,感觉真的是非常惊人的工作量。而且这周又有一位叫金敏泰的人,以前在 KTH 那种聚集了很多有趣的人、很多厉害的人的时候,他好像也是其中一员,后来又在 NC、Woowa Brothers 这些公司工作过,一直长期从业的这位资深开发者敏泰,还给我们介绍了一个叫“发现的东西们”的博客。不过那篇文章里也有相当有意思的部分,我觉得是这样的。还有刚才提到的圭英也正在做很有意思的东西,那是 AI 独自工作了3周,写了大约4万 LOC,像这种规模的代码库,好像已经开始出现一种模式了,就是一个人独自和 AI agents 一起进行管理。正石也经常在看这些吧。
不过这里又回到了整理的话题。已经有人成功了,而那样的事情似乎会成为很大的提示。那么,某个人一键做出了什么东西。不过人物本身的能力固然重要,但其实之所以能做到,我觉得也是因为受到了模型和 harness 的影响。那么“哎呀我也行”,也就是说成功案例会变成“我也行,我也行”。某个人做出了什么东西这件事本身,就是非常大的提示。只要已经有“这事做成了”这个结果,而且如果还有那个成果对应的代码库,
如果已经有人成功了,那就是能做成的事 12:36
卢正石 其实就等于拿到了设计说明书,最后哪怕只看运行起来的 use,把它放进模型里,模型也会把它 decompose 后制定计划,告诉你该怎么做出来。
崔胜准 这会成为非常具体的提示,而且不止如此,哪怕只是听说“谁做了什么”,也是很大的提示。我是在什么地方感受到这一点的呢,就是在 Lablup,CTO 用 HWP、HWPX在 pairing 中做出了元语言,并成功生成了 HWP 二进制文件,正圭不是给过我这个提示吗。光是知道有一位叫准基的人能做到那件事,本身就是很大的提示。大致知道那个人具备怎样的能力,再知道他做成了什么之后,就可以去和模型讨论“他到底是怎么做到的”,所以即便那未必是正确答案,也有助于我们去推理。大概像这样去想“这是怎么做的”“是不是那样做的”之类的,该怎么说呢?我觉得这种进行 reverse engineering 的情况,应该已经很多了。所以我也思考过这方面的问题,
而且这件事本身也让我有机会更多去思考 pairing 的 meta。你看这里也是,A 和 B 之间有一种 pairing,而去思考“这个可以怎么做”,其实也和“人和成功之间的 pairing”有点相似,像这种情况里,如果进行了 pairing,而这次成功只是部分成功的话,其实只要不断扩大这种转换的 coverage,就能逐步逼近更完美的状态,所以这些似乎也会成为某种灵感。然后这个是我在9月份有一次,去年9月给大家介绍过的,
我再次想起了一点,就是能够滚动这种复利的时间可能并没有那么长的情况其实还不少。所以在这一点上,我目前的暂时感觉是,如果是别人已经成功过的事,那就是能成的事,如果是别人已经成功过的事,那就说明它已经成过,所以我有一种感想是,那应该是成功概率非常高的事。不过这种事也可能会比较难。
因为老手们在做的那些事看起来难度还是挺高的,像 Donald Knuth,就是那位正在撰写毕生著作《The Art of Computer Programming》的人,到 2026 年已经88岁了,这件事还上了新闻。他把解决一个未解组合论问题的过程以论文形式公开了,前几天 Hacker News 也讨论过,说本来觉得这事不可能,还是偏向不用 AI 的一边,结果看到它居然能做到,我们就可以看到那种顶尖高手把这事做成的故事。
Donald Knuth:88岁老将对 AI 的运用 15:20
卢正石 那是他自己一直当作难题的问题,借助 AI 的帮助把它解出来了。我在 Twitter 上看到有人说,把 Donald Knuth 的那个问题原样拿过去,放进 GPT-5.4 Thinking 里,它就把正确答案全解出来了。前提是让它别搜索,直接解。对。
崔胜准 所以组合论那边的问题,现在好像确实解开了很多。就是这种感觉。正好 Donald Knuth 现在还在写的那套书,大概目前已经出到 4B 了吧,是和组合论以及 combinatorial algorithms 相关的内容,我想他应该就是在写这些的时候得到了那方面的帮助。总之,连88岁的老将也正在通过 AI继续向前进步。
卢正石 就是在不断进步。
崔胜准 如果有人对 Donald Knuth 感兴趣,可以去参考一个很有意思的视频,讲的是年轻时的 Donald Knuth在打孔卡时代做的一个叫 Electronic Coach 的东西,还有就是,这位本来是想写文章、写书,结果因为没有排版系统,才做出了 TeX,不是吗?后来那东西最终发展成了 LaTeX,成了论文写作的系统,而他就是把它做出来的那个人。所以如果你对这些故事感兴趣,也可以去了解一下。像 literate programming 这样的概念,他也是非常早就提出来的人。而且我自己也很惊讶,
Guido van Rossum、Kent Beck 的 AI 转向 17:10
崔胜准 查年龄时发现,Python 的创造者 Guido van Rossum 今年已经70岁了。
卢正石 和 Andrej Karpathy 相差30年呢。

崔胜准 Guido van Rossum 最近也转向了使用 AI,开始用起来了,像“用了 Claude 做了什么”这样的内容,在时间线上都能看到。还有我之前介绍过几次的 Kent Beck,像 Extreme Programming还有软件设计模式领域里非常有名的人,也参与过 Agile Manifesto,而且和 Ward Cunningham 关系也非常好。那位今年64岁,他会拿一个叫 genie 的 AI 来做各种事,还会把现场编程的视频发出来,叫作 genie session。不过他在 2023 年是这么说的。因为有点 reluctant,虽然心里并不是很认同,但还是有点勉强地去用了 ChatGPT,结果发现“我 90% 的 skill 都消失了”,他在 23 年发过这样的内容,后来转向好好使用,现在变得非常兴奋。他说写代码变得很有趣,最近还计划做一场相关的发表和讲座。genie 是如何改变程序员该做的事和不该做的事,标题就是这个。
卢正石 你在下面写的那篇 23 年 4 月写的文章也非常抓住本质。我拥有的 90% skill 价值下降了,接下来 remaining,也就是剩下的 10% 的价值涨了一千倍。不是单纯写代码的能力,而是别的某种东西,我们最近把它概括称作领域默会知识,这部分的价值高了很多,你当时是这么说的。

崔胜准 那是我们刚开始做播客的时候,转眼已经过去很久了。所以到了 2026 年的现在,我开始觉得,有些事适合用 harness 来做,有些事适合用 scaffolding 来做。我是这么想的。scaffolding 就是给你一个辅助台阶嘛。harness 则是刚才说的收紧那一类,scaffolding 在教育学里也是常用术语,比如说搭设脚手架,虽然之后会拆掉,但它是帮助学习者能自己往上爬的某种情境或环境,也可以指这种设置。
Harness 与 Scaffolding:委托与技能形成的两难 19:04
崔胜准 有一段关于 GPT-5 和 scaffolding 的内容,我是从 transcript 里翻出来的,直接问它绝对做不到。遇到某个问题时,如果原封不动扔给 GPT-5,是得不出答案的,太难了。所以才在 GPT-5 周围搭建了 scaffolding。这里的 scaffolding 有很多种,比如给它提创意的 agent,执行的 agent,验证的 agent,还有负责合并不同结果的 agent 等等,不是一上来就把开放性问题直接丢给它,而是先让它热身,先去解它本来就知道解法的、它本来就会的问题,然后再把那个解法放进一个必须去解决更有挑战性问题的 context 里,再让它去攻克泛化后的问题,结果过程中产出的 CoT 之类的成果非常惊人。所以后半部分内容也很有意思。要怎么把它当成 asset 来使用,
以及再往前走一步,怎么去构建一种能自动发现洞察的方法,如何通过这个过程提出那些从来没人提过的问题,这里有很有意思的讨论。在这样的语境里,和 scaffolding 有关的,有些事是通过收紧约束、确认小单元就能做成的,也有些事是不断提出更有意思的假设,一边挑战一边推进的,
感觉这两种情况是并存的。到了这种时候,共同点终究还是委托,而在我的 AI 引入之旅中,重要的一点是,“我去做别的事”这种方式,我认为在某种程度上能抵消Anthropic 那篇广为人知的 skill 形成论文。所谓 Anthropic 的 skill 形成论文,意思是说,对于委托给 agent 的工作,人的 skill 不会形成;相反,对于我持续亲手做的工作,skill 会自然地持续形成。所以不管是 scaffolding还是 harness,我都是通过委托来使用 AI,但如果既想委托,又不想失去能力,不想退化,或者想发展出别的能力,
那该怎么做呢?也许有人会像 Kent Beck 那样,认为自己剩下的 10% 依然会增值一千倍,但对普通人来说,一旦开始委托,是有可能会丢失能力的。这部分就挺让人纠结。这类说法其实在 AI 或 agent 出现之前,就一直是各种自我提升书里常见的内容。怎样做才能让某些事情提升我的价值,而某些事情则不该拼命去做,而是应该委托出去,或者干脆不做,这种讨论其实一直都有。而且我们自己也在很大程度上陷在软件工程这个领域里。因为我们的出身就是这样。而且软件工程这个东西,怎么说呢,过去二三十年一直都在享受黄金时代。疫情那时候,哪怕只是上个 6 周的 bootcamp,也能进公司拿到 15 万、20 万美元的年薪,那个时代刚刚结束嘛。所以说到底,我们现在其实就是在大惊小怪。但每当供需关系发生变化,市场的 dynamics 就都会变。只是因为从某种意义上说,
软件工程的整体抬升与领域扩展 22:12
卢正石 我们正是这场卢德运动的当事人,所以才会对这件事反应过度、过分大惊小怪,我现在也开始这么想了。再比如说,这个 Claude Code 做到了什么,Codex 又做到了什么,过去这两三个月里,我们真的是每天都觉得很新奇,一做这些事就会 dopamine 爆棚,但不知不觉间,这已经成了日常,也不再是只有我能做的事,而是变成了谁都能做的世界,于是大家的思考都被推向了“那接下来该怎么办”这个问题。在那之后要做什么、怎么做,
刚才 Kent Beck 不是说过吗,那我就得去 recalibrate,让自己剩下的 10% 怎样才能拥有一千倍的价值。其实所有人都到了必须 recalibrate 的时点。而且就连软件工程这种在知识劳动里也算站在前沿的部分,都已经被模型席卷了。那接下来,当我们看物理论文、进入那个 domain 已经完全不奇怪了世界已经变成这样了。生物学论文、所以说,能够学习、定义问题,化学论文,或者律师写的法典文件时,并且能从新视角看待事物的那些人,其实还是没有那么切身的感觉。他们的 domain 正在变得极其宽广。而且那些东西如果没有其中的某种 skill,如果没有那样的工具,本来就是很难接近的,我这周也是但借助模型的帮助,工作特别特别多的一周,但越是这种时候,反而越会去看些奇怪的书,去看些难懂的论文,所以我看了几篇和生物工程相关的论文,放在以前,别说大胆去看了,我连一句话是什么意思都根本看不懂的那些东西,现在却能慢慢读下来,还会把内容都教给我,并解释它们的含义。甚至放进 GPT-5.4 里以后,它还会说,这篇论文之后未来大概会产出这个。我虽然也没有证据,但有将近 90% 的概率会变成这样,它会这么说。听着这些内容的时候,就会觉得,现在本来应该是那种冲击诺贝尔奖的生物工程学家才会说出来的话,就像刚才胜准说的那样,一听到“有人做成了这个”,就会变成“那我也能做”的世界,所以是不是也意味着通往其他 domain 的探索边界会不断扩大,我会有这样的想法。这是个很有趣的时期。总之,如果把我的话概括一下,
就是现在我们对 Claude Code 和 Codex,还有这些 harness 能做什么、有什么限制,这类讨论,似乎已经到了该收起来的时候了。这就是个已经能跑通的游戏。它会被 encapsulation,然后直接下沉到更底层,而我们要去到下一个 level,重新思考那个层面的游戏。说实话,我和胜准在今年刚开始的时候,还记得我们说过,这场 harness 争论很快就会结束,模型也会很快接近 AGI,那下一层就该往下一个 domain,比如 science 之类的方向,我们也该更进一步去看看了。但因为消息实在太多了,像 AI science,还有 Alpha Genome 之类的,biology 和 computation、AI 结合的部分,以及 chemistry 结合的部分,这些话题我们其实没怎么聊,所以我也在想,我们是不是也该把档位切到那边去了。不过听你这么说着说着,
崔胜准 我也有点想反问的一点是,我觉得正石现在大概率也已经不怎么亲自写代码之类的了,但即便如此,像刚才你说去看生物工程相关内容,或者吸收那些能把自己引向下一阶段的信息,这些事情反而是更做得好了,对吧。也就是说,那种能力反而正在被发挥出来。对。归根结底,还是作为一个学习者,
卢正石 我们以前在那些自我提升书里不也常说吗,持续学习、不断让自己变身是很重要的。过去是通过某种学习,把一种智力型 skill装进脑子里之后,它就能作为劳动价值被使用的时代。但那样的时代不是正在结束吗?擅长 Python 的人,擅长前端的人,擅长 DB 的人,擅长这个擅长那个的人,其实他们并不需要去操心问题本身,只要有人把问题定义好拿过来,他们就成了把它施工好的施工者。这和 1800 年代中叶那些擅长操作纺织机器、织布的人没有任何区别。只不过那些人好歹是用了二三十年、一个世代,这一切才消失,而我们现在几乎只有 6 个月。Claude Code 是去年 3 月出来的。
胜准,还有我们第一次用 Claude Code,好像是 5 月吧,也不过才一年,可就在这一年里,随着 Opus 的升级,还有 GPT 的升级,以及伴随它们做出来的这些 harness,一年就把这事几乎全结束了。现在还有很多人没在用。我觉得不用这些工具的人,还是远远多于在用的人。就连软件工程师里,开始用它的人也还是有时间差的。归根结底,这个问题最后会走向哪里呢,就是全面上移拉平。变成最厉害的人把所有事情都做掉的那种方式,最后全都被上移拉平。工业化是这样,纺织业也是这样,
铁路业也是这样,汽车业也是这样,钟表业也是这样,看起来好像总会出现这样一个高速增长期,但结束之后,往往总是三四家公司把一切都做完了。也许软件工程这个领域也是一样,我们也一直不断地说,啊,总还会有能逃去的 domain 吧,总还会有什么别的吧。可随着那种拥有强大 generality 的模型一路压过来,我们不是正在眼看着,连那些我们以为足够 specific 的领域,也一个接一个地被 steamroll 吗?就连像 Donald Knuth 那样说“我在算法上是绝对特化的”那种人,现在也没什么事可做了。因为 GPT-5.4 只要拿到问题,就会解得更好。
所以在这样的时期,我确实觉得我们得把自己的价值观镜头换一换档了。当然,由这个 time gap 产生的部分,仍然可能还有商业机会,但就算想察觉这个 time gap,并加以 exploit,压缩也实在太厉害了。压缩得太厉害了,归根结底,这是相对性的。正因为相对而言更难、更稀缺,所以仍然有很多那种只有特定专家才进入的 domain。
而且那些 domain 大得惊人,会让我觉得那里就像 coding 一样,也该去狠狠干一票,而且也终将被干穿吧。带着这种想法,我也像胜准对物理之类的方向感兴趣一样,我也在看化学和生物工程这些领域。
崔胜准 总之,如果稍微 recap 一下正石刚才的话,应该说不是创意本身,而是视角本身得看向别的地方。如果和别的 domain 往这类方向结合,
卢正石 那些我们至今还没触达过的领域,能做的事情也太多了。Coding 还有这种 AI 方向的发展,
崔胜准 就是说要把它的斜率看成常数。就是会一直越来越好。
卢正石 昨天正圭不是说过那个吗?就在那个群聊里。看起来会成的事就别做。因为那是没有价值的事。
崔胜准 我刚才也在想的点就是这个,会成的事和不会成的事,还有那些稍微努力一下就可能成的事,得对这些有感觉才行。所以我在 3 月第 1 周,正石在那一类方向上做了不少学习,我自己也算学了一些,但我到现在要对话的话,还是因为网页端方便得多,所以大多都在网页上聊,而且我也喜欢看 CoT,所以最后还是做了这边的东西,大概是从 3 月 1 日开始的,到昨天为止大概聊了 60 个对话。
3D 网格算法挑战记:论文到一键实验 30:38
卢正石 看起来全都是 3D 这类方向啊。都是为了解决一个问题的对话。所以每个对话里都有代码,
崔胜准 很多时候都有上千行,这样几轮下来,就算扣掉几轮不算,往少了算也有大概 6 万行代码在这些对话里。所以我当时想解决的是什么问题呢,是我 2020 年发在社交媒体上的一个帖子,啊,这种东西我也想开发一下。所以有一个叫 BMesh 的算法,是比较有名的。那个在叫 Blender 的 3D 工具里,还有在 ZBrush 那边,也很早就在用类似的东西了,它就是那种能把模型做得很平滑的东西。但我当时是在还没有 AI coding 的年代,试着靠人类智能去实现类似的东西,虽然没能把那个本体做出来,但做出了一个衍生版本,就是把小朋友画的图放进去,做成这种带了 skinning 的东西,像这样做出来。
卢正石 这是胜准 21 年的作品吧。
崔胜准 现在也还有这种可以马上看到结果的工具,比如说我在这里把某个 PNG 文件一个长这样子的 PNG 文件直接拖放到这里,它就会这样帮你生成。
卢正石 这是 3D 吗?看起来是 3D。对,是 3D,只是前后是一样的,
崔胜准 而且还能动,所以就做成了这样。如果是小朋友做的,我就会在毕业典礼的时候,把每个人画的东西都这样做出来。虽然只是让它们像是在跟孩子们说话的文字,但我以前做过这种东西。不过现在我已经不亲自去写这种代码了,
但当时没能挑战成功的不是这种前后一样的东西,而是想做成立体结构,可那一步我自己始终没真正做出来。即便已经有现成的论文和代码也是如此。
因为那个其实会依赖一些线性代数相关的东西,比如 Eigen,会依赖这类东西。有个叫 Eigen 的库,但它有点难搞,所以在网页环境里很难做。不过既然 GPT-5.4 出来了,
PoC 能做,但一键困难的节点 33:05

崔胜准 我就试了一下“论文到一键”到底行不行。虽然没完全成,但已经做出了八九不离十的结果。
卢正石 现在是到了“嗒嗒”的部分,但“咔”还没出来。
崔胜准 所以如果给你们看看这个“论文到一键”,这个大概做了 30 分钟,或者说 20 分钟左右,一开始是先简单起步,然后定计划、来回拉扯几轮,再把结构搭起来,就让它这样推进下去。所以本来是想做成 MVP 级别的最小实现,结果确实是做出来了,但老实说还是有不少遗憾。我还试了“源码到一键”。因为还有人看着那篇论文已经在 GitHub 上实现过了。所以我把那个 archive 下载下来做了,那个只花了 10 分钟。不过质量反而更低一些。因为这属于 porting,所以本来就是难度低得多的问题。但像这种区间,属于那种做不成的区间,虽然说是实现了,其实并没有真正成功,连一键都做不到的那些。但即便如此,它还是能展示出某种 PoC 级别的能力,用很简单的 prompt 就能做到,不过也确实有一些部分是一键搞定的。所以是从去年 3 月 1 日左右,大概 2 号那会儿,我做了这个。
这是什么呢,就是这里现在虽然不太看得清,但如果你输入“Godzilla”,它就会生成出来。然后还能做动画,接着这里我后来大概又输入了“Santa Claus”。如果输入“Santa Claus”,就会生成一个长得像 Santa Claus 的东西。
不过这个看起来和刚才那个有点像,但它用了 isosurface,所以这是简单得多的算法。这个虽然很容易做出来,但细节会差一些。像生成手指这种。这个大概花了 30 分钟。PoC 后来再打磨,又多花了一两天。接下来这个 PoC 也是大概 30 分钟做出来的。为了做得更像样一点,干脆朝着 modeling tool 那种方向走,比如有个人体形状时,可以把它拉长、再缩短一些,或者改造成别的形态,ZBrush 这个 3D 工具里有个叫 ZSphere 的概念,就是做这种东西的,像这种程度的制作,尤其是 Gemini 在 3D 方面做得很好,所以做起来特别轻松。到这里都还很容易。
颠簸路段:模型也未能解决的边界连接问题 35:18
![Zsphere v5 HTML 查看器中显示人体 3D 网格的画面。“Boundary Edges”和“Gap Edges [*1]”图层已启用,躯干与四肢连接处清晰可见白色边界线](/episodes/ep89/notion_23.png)
崔胜准 所以论文里的关键在于,要把这个做插值然后连起来。先把这个做出来,再以这个为目标,从那里开始就进入颠簸了。不过除了最末端那个接缝之外,其余部分的还原还是很容易的。但这一部分在人看来明明非常简单,可真要用数学去思考,里面其实有很多东西。
卢正石 就是关节部位。所以如果给您看一下这个的话这里和刚才一样,
崔胜准 把中间连上再关掉的话,就会变成这样,像 boundary edge 这样的东西会这样出现,把这些连接部位连起来这件事,并没有想象中那么显然。围绕这个去探索相关的数学和算法,把周限额都用光了还是不行,所以也用了别的模型。所以刚才大部分对话,都是在反复进行那个假设和实验。但是为了 divide and conquer 这个问题,
就把问题的一部分切出来,或者复现类似的问题,然后一个一个去看它到底能不能运行,就是这样去做测试。把 UI 接上之后,这件事本身能一键完成,确实很好。如果这是我以前要做的话,光是实现这个本身就要花很多时间,但像施加某种 perturbation,或者调节 vertex 数量,这些事情都能瞬间完成,所以我只需要提出假设,做实验的事由 AI 来做。所以就去试这个假设,
再去实验 convex hull,也就是凸包这个假设。这个我自己没想到,但和模型聊着聊着,它说可以用动态规划。但是动态规划这个 DP 算法,我没想到还能这样用。但我照着模型建议的方式去做之后,我去搜索了一下,发现在 mesh 里这样做其实比较少见。不是完全没有,但我确实从中学到了一些东西。
不过也有模型反对,但我还是坚持了自己的直觉。我的直觉是这样的,当有这样一些 ring 的时候,当有这些看起来像这样的东西时,虽然还不到拓扑同构的程度,但它们可以被展开成某种类似 ring 的形式,再把它投影到球面上,就会变成这样,然后用连接剩余部分的方式,也许就能实现 convex hull,我由此得到了“这样做应该可以”的想法。那么这个想法,是不是成了从另一个壳
卢正石 转到这个角度的某种出口呢?结论上说,还没有,不过确实成了一个很大的提示。
崔胜准 而且这本身也成了有用的副产物。以后还能用在别的地方。不过这个是虽然模型们反对,但我凭着某种直觉,认定“这个应该能行”并一路推进的。所以我当时觉得这应该能成,想着刚才那种状态下就该用这个了,结果它只是装作能运行而已。还是变好了一些。
卢正石 肉眼看上去是连上了一点,但其实还是没解出来。不过这个也是 GPT-5.4 做的,
崔胜准 问题在于,我复现的是那个问题,而不是把原有的问题原封不动地拿过来。所以其实有不少情境本身不同的 case。能行的 case 和不行的 case 混在一起,要想把这个真正做好,遇到特定问题时就得先把它做成 save point,然后在那个点上提出各种假设并优先探索,假设成功当然很好,但如果不行,就再往回退着做。类似这样的算法有很多。
假设-实验-直觉的反复与保存点策略 38:36
卢正石 就是 Ralph loop 吧。在那个时点不断让它试到成功为止,如果无限投入 token,总有一天会成吧。但我的看法有点不同。
崔胜准 因为这取决于你怎么做 scaffolding,这是会让结果有所不同的区间。之所以这样说,是因为在 graphics 这边,一直有人觉得 TDD 比较难做,在我那个年代,这确实被认为很难。有些东西从视觉上看很明显,虽然用 vertex merge check 之类的能通过,但质量还是可能不好。而现在模型擅长的,归根结底就是把这些信息放进反馈循环里。但在这件事还没做到特别好的状态下,有些东西在人看来很简单,但从算法上,或者对模型来说,依然是困难点,在那个区间里如果去跑 Ralph loop,很可能会浪费 token。
目前还是 back and forth 的反复过程。不过我的先验概率是这件事能成。因为这本来就是能做成的事,虽然我现在经历了一些波折,但只要找到好的路径,我觉得就能一键完成。刚才我不是把标题写成那样了吗。一键、颠簸,还有突然一下。颠簸就是卡住的区间,但在那之后也可能突然就成了。不过这多少也有点信念问题,我和 AI 一起做的时候,总觉得它好像会成,但我也说不清那种感觉到底是怎么来的。不过一旦有了那种感觉,继续往前推,好像就能成。不过刚才胜准说的那一段里,
定义问题能力的时代 40:24
卢正石 其实把我们一直以来说的话都包含进去了。一开始“要做什么”的问题定义。以及当某个问题撞上某个难题的时候,把人的 insight 带进来,以 human in the loop 的方式来做,也就是投入的不是那种 90%而是只属于胜准的那 10% field knowledge、默会知识。然后只要带着意志一直推到成功为止,总有一天会成,而那其实也就是进步发生的时刻。
可惜的是,如果把“崔胜准做了这个”的消息发到外面,别人也会。我自己也是看了别人做的,
崔胜准 觉得这应该行才去做的,所以它很容易被复制,这也是理所当然的。因为这说明它能做成。而且这也不是只靠人的力量做成的。也是靠 AI 的力量做成的,而那个几乎是相对公平地提供给大家的。当然还是要花钱,但不管怎样,这至少在某种程度上比以前容易获得得多了。
卢正石 其实从正圭之后,再到成铉,再到今天,某种意义上,我们那种郁闷感,以及这种被卡住的区间,关于颠簸区间的讨论,好像一直在延续。我们大家都在一键一键地做着我觉得好像已经越过了那样的阶段。就是会在脑子里形成一种想法:这个既然能做到,那就别自己做了。现在胜准也是,其实我也是,虽然能在一键就完成的区间里获得巨大利益,但如果能和我自身的某些东西结合,从而产出完全不同的附加价值,我觉得我们现在相当关注的就是如何去定义那样的问题。所以归根结底还是 problem。Problem。所以要善于捕捉问题,之后还能把问题好好推演下去,并且能够很好地引导整个解决问题的过程,我觉得这才是人该具备的素质。昨天在我身边,
一旦 token 中断,人就回来了:依赖与 Brownout 42:11

卢正石 有位会分享 frontier knowledge 的工程师说过一段话,我还记得。他说自己把 weekly token在订阅额度里全都用完后,就在那一刻自己又变回了一个微不足道的人类。因为那样就没事可做了,因为完全没有任何能做的事,所以只能睡觉,他说那就是自己唯一能做的事。不过那话还真有种微妙的共鸣。我们现在做的所有事情,也都是把 GPT 和 Claude 带在身边嘛。
说实话,要是没有它们,现在一天里大部分工作都已经变成和它们一起做了。如果没有它们,就像 Andrej Karpathy 说的那样,整个社会都会进入 brownout。就像电力有点不足那样。总之这一周就是这么过来的,
结语:AI 时代应强化的人类德性 43:21
崔胜准 正石也经历了那种不断深挖的体验,我也用自己的方式在继续深挖。重要的是,刚才正石说的那点我很认同,即便如此,在把这些事委托给 AI 的同时,反而好像有一些必须获得或强化的要素。比如坚持力,或者建立假设,再比如适当休息也是件好事。因为头脑清醒,才能想到好的假设。所以去思考这些事情,再去探索,也挺有意思的。而且像这样解决问题本身,也会让人觉得很有趣。总之先准备到这里。
卢正石 是的,今天的内容也很有意思。