AI Frontier

EP 92

EP 92. 闭合循环

· 卢正石, 崔胜准 · 1:06:30
整页

卢正石 0:00 今天录制的日期是2026年3月28日星期六早上。我们上周讲到,用强化学习RL只要投入计算资源再加上某种奖励信号只要能把它明确地建立起来那个领域就会很容易被攻克。今后会变成一个利用计算进行的search problem所有问题都会被解决,是伴随着这样一种说法我们也跟大家讲了一些商业相关的话题。

0:28 这期间,那位有名的Andrej Karpathy和Sarah Guo一起又录了一期播客,里面提到的内容和我们之前讲的内容也有很多非常相似的地方。不过,那位有名的Andrej Karpathy的观点我们再拿出来梳理一次也是有意义的,所以今天会讲Karpathy的观点,以及延伸到Terence Tao,也是胜准非常喜欢的数学家。

0:52 Terence Tao和Dwarkesh Patel的一次访谈内容以及其中字里行间的信息我们来一起梳理一下。

崔胜准 0:58 所以先把今天要讲的内容稍微往前提一提,做成一个先讲结论的结构。最近连Markdown在国家人工智能战略委员会那边也被当作重要格式在推动,这也是个令人高兴的消息,我自己也只是出于好玩试着做了一个3D的Markdown renderer。

1:19 先不说,能一键搞定的事情好像确实很容易。因为什么都变得很容易了。但是这种一键做出来的东西对自己来说也许有价值,可对别人是否也有价值我最近常常会产生这样的想法。因为实在是太容易做出来了。

1:37 所以Andrej也用了ephemeral software这样的术语。不太容易产生复利虽然能很有趣地做出来但也可能很短暂、很虚无。因此就得去挑战那些不能一键搞定的事情,但不能一键搞定的事情也不能保证今后依然不会变成一键搞定,有些事情随着时间过去也可能变成一键搞定,我就想到,它们其实也是一键候补的工作。再延伸这样串起来看的话,所谓一键候补,是不是其实只要等一等就好,

2:07 也就是相对价值较低的简单工作候补呢,我又想到这一点。当然,如果那段等待的时间过得有意义,只要时间足够长也还是可能产生意义。那么用排除法剩下的今后也不会变成一键搞定的事情是什么,

2:23 不会一键搞定的事情是什么。以及那些做不到的事虽然是做不到的事,但会不会依然有能生产价值的工作,我最近就在想这些问题。所以今天的内容感觉会和这个有点关系。

卢正石 2:37 这也和我们一直在问的”该往哪里逃”这个问题是一脉相承的。如果是当下就能做的事,但别人也都能做,那它的相对价值就会非常低,只有我能做的事,以及那种能在时间上保持相对优势很久的事,最近关于这类工作的提问非常多。大家都在思考这些问题。

崔胜准 3:03 对。正圭也说过那个,能成的事就别做,这种话一直是几周前了,已经超过一个月了,也说过。所以就带着这些思考我们来顺着今天的话题往下看。

3:18 所以现在这里这篇叫做代码代理、auto research,以及关于loop时代的是Sarah Guo再次邀请Andrej,邀请老师,说是邀请老师然后发的一篇帖子,里面还有Noam Brown留的评论也很有意思,我们待会儿也来介绍一下。

3:35 他说这是manifest的时代,并把manifest这个术语从一开始就这样介绍给大家。你怎么看manifest这个词?

卢正石 3:45 这个是Sarah Guo说,express my will,对AI好像是在做表达我的意志这样的行为。最近其余的事情就都由AI自己来处理了,是这个意思,不过这个express my will的表达被Andrej稍微换成了manifest。manifest,这个词要准确翻成韩语好像没有特别贴切的词,你是翻成”发显”了吗?显现、发显。所以就是带着意志

崔胜准 4:13 让某种东西真正这样显现出来,大概是那一类的意思。所以一般会先想到manifest.json,

4:21 会想到那种JSON文件之类的,但在这里好像是以稍微不同的语感被使用的。所以这里还有一个很有意思的表达

4:31 开头又出现了AI psychosis这个说法。这个我先暂时翻成了”精神症”,也就是和AI之间一种强迫性的关系、执着性的关系,得不停地给它下指令那种状态,如果额度还有剩,就会产生很强的不安他说的就是这种感觉。现在很多用得很深的人

卢正石 4:54 会把这种AI,像Claude Code或Codex之类的一下子开8个窗口同时让它们干活。

崔胜准 5:01 所以Andrej在10月的时候语气很不一样。那时候是接受Dwarkesh Patel采访,在和Dwarkesh Patel的那次访谈里他说到现在依然还是有需要一步一步慢慢推进的部分。原本说是以 Tab 为主,但很快就变了。所以现在从 12 月之后开始一次代码都没亲手敲过。

5:26 以前大概在 10 月的时候还说是 80 比 20,现在变成 20 比 80 了,就是这样一边说着一边坦白了最近发生变化的样子。有意思的是,他成了 Peter 的 wannabe。

5:42 做出 OpenClaw 的 Peter Steinberger,我也想变得像 Peter 一样。这里写着呢。

卢正石 5:47 Peter Steinberger 会开非常多的终端窗口来操作。

崔胜准 5:53 所以 Andrej 稍微有点,有些人会觉得Andrej 比起以前那种沉稳的样子,好像有点太偏向 hype 那边了,也有人会这么说。不过再往下看一点的话,也还有他自己的一套观点。所以在这一部分里Andrej 讲了一些关于 skill,也就是人类 skill 的相关内容。所以这里 Sarah Guo 提的问题是从那里延伸出来的话,熟练会呈现出什么样子,他是这样展开来讲的。不过这条脉络其实要全部讲到的话

6:31 会变得太长,所以先稍微跳过去,我来把我自己稍微关注的重点提一下。简单介绍一下的话,Peter 做成的事情里重要的部分是比如塑造 agent 的性格之类,大概有 5 个左右的重要部分。所以有一段是在非常称赞 Peter。

6:53 然后在 Andrej Karpathy 的经验部分里,这个”咔嗒”一下的点是把他自己的家庭自动化系统像用 OpenClaw 做逆向工程一样很轻松就实现了的那部分,有一段是在介绍这个。那是靠 3 个 prompt 就做到了,也有这样介绍的部分。接下来是软件的未来,人们想要的东西,这些部分

7:19 其实和我们这段时间一直在做的 session 里谈过的话题是一致的。所以这里就不展开细讲了,我比较看重的部分是这里关于 auto research 的局限之类的我觉得很重要。对于让这个自我改进的 loop 成功这件事,Andrej Karpathy 把它包装成 auto research,现在正成为一个热点话题,但我觉得很重要的一点是也存在它行不通的领域。我们来简单复习一下 auto research 吧?只要目标足够明确,而且对于那个目标的某种产出,对那个产出的

卢正石 7:57 evaluation 能够明确做好,那么中间的东西不管是文档,是研究,还是 GitHub repo,还是模型,不管是什么形式,把这个 LLM 投进去把 token 投进去,也就是所谓可以去优化,optimize,也就是说能找到 solution。

崔胜准 8:16 不过 Andrej Karpathy 很擅长的一点是他会把这种东西实现得非常极简。所以这次的 auto research 也非常极简,是 3 个 MD 文件吗,以及代码 MD 文件,一个 program.md,然后再加一个 Python 文件。然后它就会一边不断更新自己,一边像这样把 repo 一点点堆起来,对吧。不过关于那一部分,

卢正石 8:39 我们先简单说明一下背景的话,它就是这样做出来的。提高模型性能这件事,也就是把 Andrej Karpathy 做的那个非常简单的模型的性能提高上去,其实 program.md 就是这个的 manifest。要怎么做,我抱着什么样的目标,都被明确地写在里面了,然后作为它的目标程序,给了 train.pyprepare.py,这些东西。这些只是准备工作,

崔胜准 9:07 核心是持续改进 train 文件。也就是说,这里的目标是

卢正石 9:13 降低 loss 值,因为有这样明确的目标,只要有这种同样可测量、verifiable 的evaluation,那接下来交给模型就行了。它会自己去找论文,自己把自己知道的东西这样改改,那样改改,把正反馈负反馈全都吸收进去,把有效的强化,把无效的丢掉,不断寻找 optimal 的解,这才是 auto research 的核心。

崔胜准 9:44 不过 Andrej Karpathy 自己做出来之后也惊讶的是自己 20 年来一直在做这种事,结果它抓到了我遗漏的东西。所以实际上validation loss 降下来的代码里面确实有值得学习的东西,这就是让人惊讶的部分。

卢正石 10:00 既然比 Andrej Karpathy 还强,那就比大多数人强得多了,模型。所以 Sarah Guo 提了一个有点挑战性的问题,

崔胜准 10:10program.md 写得比 Andrej Karpathy还要好,这种事是不是也能用这个方法做到,她也稍微提到了这样的话。但即便如此,还是有局限。所以关于那个局限我是带着一点兴趣去看的,

10:24 它在可验证的领域里运作得特别好,但在难以验证的事情上就都会 drift,他用的是”漂流”这样的说法。这里可以看到 Andrej Karpathy提出了一个假说,这部分只是用”徘徊”来形容而已。接下来关于那种情况,

10:44 典型的例子是如果让它讲笑话,不管是三四年前的模型,还是最新的模型,都没法超出三四年前模型能讲出来的那种笑话水平。所以 Andrej Karpathy 的想法是,这似乎是 RL,也就是当前 RL 所无法覆盖的一个领域。这样的领域还不少,所以能力看起来参差不齐,有这样一种说法。

卢正石 11:08 他非常常用 jagged 这个表达。有些方面真的是超级天才,有些方面却是糟糕的笨蛋。

崔胜准 11:16 所以在聊这些的时候,有一部分是我在后半段比较感兴趣的,这部分是在说,如果像自动研究这种事情能像 SETI@home 或 Folding@home 那样的项目去做的话,好像是有可能做到的。SETI@home 是找外星文明的,而 Folding@home 则是在 AlphaFold 出来之前通过众包来做蛋白质折叠的项目。所以把 agent 这样派出去,让人们把自己的 agent 派出去,

11:43 对于解决复杂问题这件事的一种雄心,也稍微谈到了一些。还有这个 microgpt 的部分,microgpt 上次我们也给大家介绍过一次,当时不是把 GPT 压缩成了 200 行吗。但这个的话,他说用刚才那种方式是不行的。

11:59 像写出 microgpt 这样的代码,Andrej Karpathy 就算运行 agent也到不了那一步,这是只有我才能做到的,是一种基于 20 年经验的压缩经验,是那个结果,有意思的是,Andrej Karpathy 不是创办了 Eureka Labs 吗。但其实没做多少事情。然后在推出 microgpt 之后,如果是以前的话,他本来会拍个 YouTube去讲自己是怎么做、怎么教大家的,但他说现在已经不再觉得有这个必要了。

卢正石 12:32 为什么会这样呢?

12:32 为什么会这样呢?

崔胜准 12:55 他讲的大概就是这种语气。所以教育的未来,会从教人转向教 agent,只要把 agent 教会,让它能做,那么由 agent 去教人就可以随时生成,像互动式内容这样的东西这些说法对我来说是个挺让人印象深刻的 session。正石 不过另外一个让我印象深刻的是,

13:17 你可能也还有别的印象深刻的点,你是怎么看的?我觉得他好像是在讲两件事。第一件就是像刚才说的那样,

卢正石 13:26 只要我们能给任何事情装上某种 verifiable 的测量装置,那不仅仅是模型的训练,连一般性的问题也都可以这样被解决,这是一点。第二点是,这个 layer已经超越了去训练某个模型、

13:47 去进一步分析模型这些事情,如果用以前的话来说,模型本身更像是某种 CPU,把它做成像 CPU 那样的一个引擎,而且 layer 这件事,Andrej Karpathy不是也说过类似的话吗。到去年 12 月为止,我还是亲自去碰代码写代码,但现在已经完全不再做那些事了,他是这么说的。Manifest,这也是和这个相连的话,现在感觉像是上升到了更高一层。对于那一层之上的事物所具有的价值,他正在谈这些。这已经不是在说模型性能哪里好,

14:23 或 benchmark 有多好,而是在说用这个还能额外解决什么问题,它会如何改变我们的工作,又会如何改变教育,这种应用层面的领域,一个更高的、更上一层的领域,整个议程都切换过去了。这是我得到的一个非常明确的感觉。

崔胜准 14:45 所以 Andrej Karpathy 在这场 session 里最后说的话是这个。agent 做不到的事情,现在就是你的工作。agent 能做到的事情,很可能会比你做得更好,或者很快就会变成那样。所以实际上,时间该花在哪里,你必须有战略性。这段采访最后就是以这样的话收尾的。

卢正石 15:02 不过这其实是个非常开放式的问题。就像我们刚才在前面也说过的,如果这事是一两周内就能做出来的,就别去一键搞定。因为到处都在一键搞定,那样的话早就已经实时做出来了。那么就要去做那些六个月之后才会成的事情,是这个意思。而设定这种主题的能力,读懂当下的语境,并能够清晰设定主题的能力,很重要。这大概就是”时间该花在哪里必须有战略性”这句话的解释。

崔胜准 15:35 总之,虽然也有一些让人思考的点,但他还是把故事讲得很有意思,而且 Andrej Karpathy 说话真的特别快。甚至有人说,用 0.8 倍速听才是正常速度。不过像 Andrej Karpathy 这样

卢正石 15:50 那位名人讲出来的话,某种程度上也是对胜准对我说的话的一种评价。所以 Karpathy 所讲的内容和我们在脉络上并没有太大不同这一点让我觉得这是得到了不错评价的反馈。有一些气质是对得上的,算是挺庆幸的。

崔胜准 16:12 总之 Andrej Karpathy 在采访里也说自己虽然已经不在前沿实验室了但正因为有了这种自主权想说什么都可以很轻松地说出来,这是个优点。但如果又想知道最新的信息就得反复进进出出,他也说了这样的话。都会听到吧。是啊,毕竟还有朋友们在里面所以在科学这边

16:34 创办了 Periodic Labs 的 Liam Fedus,那位又是 Andrej Karpathy 的好朋友也有说他还去过那边虽然没有讲得很详细但我猜他也在了解科学这边会有哪些事情变得可行。

卢正石 16:47 Andrej Karpathy 从以前开始就非常感兴趣的领域就是生物工程。所以他本人也会拿来那种厚厚的 molecularbiology 书之类的,还有生物工程的书,在幕后对那个领域我知道他一直在下很大功夫学习。还有我们常常会说到底该往哪里逃

17:08 但那种只要”咔哒咔哒”一下就能做完的事情的单价正在持续下跌。市场上的进入者也在大幅增加也不过就是领先了两个月而已也就是早两个月开始做事而已后面追上来的人要 catch up 实在太容易了。说实话越往后反而越有利。

崔胜准 17:30 因为模型和 harness 的性能会越来越高

卢正石 17:32 没错。因为是拿着更好的工具投入战争所以前面的人过去 6 个月卖出去的那些东西都变得毫无意义,那种起跑线不断被重置的事情我们正在亲眼目睹所以我们今年想做 AI science也聊了很多像 Terence Tao这样的人但如果看那些聪明人现在都在逃向的领域

17:56 就像 Periodic Labs 在做的材料工程,比如寻找新材料或者最近我们因为 AlphaGenomics、AlphaFold 这些东西生物工程本身正在彻底软件化。不再需要往什么烧杯里加液体也不需要做实验的那种所谓 wet lab也就是人们说的”湿实验室”,wet lab,正在迅速转向那种不需要这些的软件环境感觉大家都在往那边逃。

18:26 但那种方向需要非常深的领域知识。至少也需要相当于博士阶段的领域知识所以到了那种方向,人们都有种在各自搭建一点事业的感觉要么尽快看准那边,然后去那里创业要么尽快看准那些人,然后去投资他们我觉得这就是现在的趋势。这显然是讲得通的,不过

崔胜准 18:53 我觉得也是一个需要再回头看的点。先说我这次也看得很有意思的,我一直都看得很有意思的 Dwarkesh Patel,这次又采访了著名数学家 Terence Tao我觉得 Dwarkesh Patel 总是带着某种意图在做采访。虽然这也很正常,但他对于自己想说的话有一种设置议程的倾向如果再强调一次 Andrej Karpathy 说过的话那就是在 RL 范围内就以超光速奔跑,出了这个范围一切就都只是漂流。然后关于这一点他还讲了类似玩笑的案例Dwarkesh Patel 就把这件事拿去和 Terence Tao 谈数学时说我们之所以能在这种认识论地狱中活下来是因为我们既无法清楚说出来也无法编码进强化学习循环的那种并未真正理解透的判断力与启发式的混合。回到采访内容本身如果简要来说一开始先从 Kepler 讲起。

19:54 Kepler 不就是天动说地动说那个时期的人嘛。然后又说轨道和什么成比例这些我记得好像是我初中还是高中学过的不就有那种 a 平方 b 三次方之类感觉的公式吗?但是把那种东西发现出来如果把过程和历史展开来说在当时,那些所谓创新性的想法反而是非常不精确的。用以前的方式,也就是用天动说的方式得出来的结果反而在更早期时更准确而用地动说的方式时则有些不准确但实际上正确的是地动说。然后那套东西真正被纳入正常科学的轨道并且开始真正发挥作用,花了相当长的时间。所以早期那些在局部上有激励的东西放到长周期里反而可能是不对的他就是在讲这种带有这类偏离意味的内容。

20:56 之所以把 Terence Tao 搬出来是因为在去年底到今年初,AI 数学方面像 Paul Erdős 问题那样的很多题都被解出来了。但他接着就让人去谈现在处于 plateau 的现象。Dwarkesh Patel 也就是说,有一段时间一直在不断解出来,容易的问题,那些低垂的果实都已经摘完了,现在虽然仍然在持续取得进展,但之前有一段时间广度搜索一下子大幅展开,借助 AI 把这些属于可以搜索 search space 的东西大量收割完之后,现在又重新进入 plateau 了。那么实际上数学家要做的事情是像这样不断地追问你你是怎么想这个的,也就是说,你做研究的方式是什么,就这样不断追问着进行采访。Dwarkesh Patel 的意图就是那个。在这里,以现在这种 regime 来看,还有某种做不到的东西。把那个压缩表达出来的,就是刚才说的那种认识论上的巨大启发式,还有隐性知识,让人把这些讲出来的部分就是这样的内容。不过这点很有意思的是刚才胜准也说了,

卢正石 22:02 像 Paul Erdős 的问题之类,如果这在 3 年前是由 GPT-3.0 解出来的,那真会是惊天动地的事情,大家会说这就是 AGI。不过去年解出那种东西

崔胜准 22:15 也还是惊天动地的事。去年年底的时候。

卢正石 22:18 但我们的期待值在不断提高。相对而言。所以现在模型的性能,其实 Jensen Huang 上次在 GTC 也这么说过,Elon Musk 也在这么说,这不已经是 AGI 的性能了吗,人们正在这样发问,即便如此,人们还是不断去找做不到的地方,说还是不行啊,还是不行啊,就这样说着,我觉得这些点和我们每个人都应该具备的平衡感有很大关系。因为连 Andrej Karpathy 也已经

22:52 一边说着 march of nines,也就是”9 的行进”,一边说,没错,到 90 还有问题,但从 99 开始就能用了,不过那会不断朝着 99.9、99.99、99.999 这样的形态继续前进,他当时是这么说的。这虽然因 sector 而异,但在非常多的领域里其实已经有很多东西进入了 99 的区间。但仅仅因为后面没再多几个 9,就说这不行,我觉得是不是有点苛刻了。不过 Terence Tao

崔胜准 23:27 也不是只在说不行。Terence Tao 也在积极利用 AI抱着不断寻找突破口的态度,Dwarkesh Patel 也不是在划线说不行,而是每个 session、每次做采访的时候都在做 juggling。对这个人就更靠近 hype 那一边,对那个人就稍微更中立地靠近,因为他一直在 juggling,所以我觉得他是带着某种意图来做这一期的。所以实际上去看的话,有一部分把逻辑展开得非常有趣。

23:57 所以他用了 high temperature LLM 这样的比喻,去说那些在当时想不到的、具有高 temperature 的出人意料的想法也是 LLM 很擅长的领域,我们可以借此获得 leverage,他还讲出了一些能引申出这种含义的话。而想借 Terence Tao 之口表达的是到后半段,这些各自都有各自的优点,让他说出这一点,也就是人类数学家即便现在仍然和 AI 一起,也有反而能做得更好的部分,所以也有想把这些部分点出来的意思。

24:36 不过我在这一场里觉得最有意思的是最后半部分出现的这个。需要一种 semi-formal 语言。那这是什么意思呢,就是和前面有点类似,类似 Andrej Karpathy 所说的,通过 Gwern Branwen现在数学里不是已经发生了一些 AI 创新吗。因为可以使用可验证的证明机器,LLM 去操作那个证明机器,又能得到反馈,所以就能知道行还是不行,并朝着行的方向推进,问题也就这样被解出来了,而现在 Terence Tao 的意思是,数学家们实际在思考和协作时那种隐性知识的东西,不是像 Lean 那样完整的 formal 语言,而是用 semi-formal 语言要怎么把它做出来,我感觉他是在思考这种前沿问题。这如果放到公司里来说,可能有点像组织文化,

25:28 但像数学家们协作的方式,以及思考的方式,怎么把它做成 semi-formal,去思考这些让我觉得非常重要。多亏了 LLM,大家这个层次这个 layer 都在往上升。

卢正石 25:42 全都朝着更 abstract 的 layer不断被推上去。往坏了说是在被挤上去,往好了说就是在不断进步。不过他也说,这些东西还得接受

崔胜准 25:55 时间的检验,而这个时间的检验,我也觉得是相当有说服力的说法。后面的内容虽然有点偏思辨,但 Terence Tao 的结论,或者说 Dwarkesh Patel引出来的 Terence Tao 的结论是,人类-AI 混合体会更长久地主导数学。各自都有各自的角色,而这种协作的体系说不定就是 Terence Tao所描绘的图景。不过未来是不确定的。我说的这些也未必一定对。这种 disclaimer,Andrej Karpathy 也会加上,Terence Tao 也是一样。正如成铉提到的 fog of progress,这些人同样也完全无法预测。今后会展开什么样的事情

26:42 有意思的是,反而有点在赞美低效率,还很重视 serendipity,讲到 Terence Tao 的看法时这当然也只是思辨而已,但有个很有趣的插曲。这个就当作趣闻给大家介绍一下,这里叫普林斯顿高等研究院,据说是新泽西的一家研究所。这是只有著名科学家才能去的地方。但 Terence Tao 说,那是个没有干扰、非常优秀的地方。在那里只要专心做研究就行。最初几周确实很好,但时间一久,灵感就会枯竭。但在 Dwarkesh Patel 的这条推文下面,有人留言说Richard Feynman 也说过一模一样的话。只能做研究的环境是毁掉科学家的捷径,他又点出了这种语气里的意思。所以,实际上去见人、去教学生,从而重新思考那些基础性的东西,其实在那种只是舒舒服服地像冥想一样只做研究的地方,是不会发生的有意义的经验。还有一位计算机科学领域的名人 Richard Hamming 也说过同样的话。高等研究院毁掉了很多伟大的科学家。他们讲出这些话这件事是个挺有意思的点。所以我把这个拉进来讲,是因为有些出人意料的东西、一些看起来像噪声的东西,其实对人来说非常有帮助,可能会成为这样的经历,这是某种怎么说呢,很有意思的个人观察。所以这个就快速带过,

28:25 真正又出现了有意思文章的是Anthropic 出了很多很实用的文章。现在 AI 科学很重要,Anthropic 在 23 日前后启动了 AI 科学博客,第一篇就发了两篇文章:“vibe 物理学”和”面向科学计算的长时间运行 Claude”。所以这虽然相当长,但对如今科学家是如何使用 AI 的做了非常详细的介绍,连提示词都包括在内。里面还有提示词示例,也有代码,而且介绍得非常细致,让我很吃惊。

29:05 所以说到 vibe physics 的结论,如果大致概括一下内容和结论,这个叫 Matthew Schwartz 的人是物理学家,看起来还是位相当知名的物理学家,他最近实际上和 AI 一起发表了一篇关于量子场论的论文,据说在物理学家中引起了相当大的反响。这是一篇有意义的论文,而它是怎么写出来的。所以他把那个过程讲成了一个非常详细的故事,所谓 vibe 研究生 是什么呢,就是说它现在还不是同行科学家,而是研究生。所以我是如何管理这个研究生,最终真的和它共同署名论文,并发表出来的,这是个非常详细而且有趣的故事。但看这里,他非常仔细地点出了什么行、什么不行,以今天,也就是 2026 年初的当前情况来看,他梳理得非常细致,内容很充实,也很有意思。所以有些地方确实存在被夸大的期待,但即便如此,这也说明了为什么不能只靠聊天式交互,而是要用 agent,以及如何像指导研究生那样一边指导 Claude,一边走过让优秀论文产出的全过程,所以相当有意思。

卢正石 30:21 我觉得所有这些问题的处理方式好像都是这种方式。

崔胜准 30:26 所以像实际的 Claude Code 界面之类的,还有初稿,但你看这里,Claude 会犯的错误,以及 Claude 喜欢迎合你的地方,还有它会谎称自己做成了,这些东西都是怎么去指导的,他都把那个过程讲出来了。因为这个人是领域专家,所以他把那些卡壳的地方纠正过来,即便说不上是做到 harness 那一步,也还是这样把那些问题全都细密地抓住,让它真正把事情做对。所以成果是,如果他自己一个人做,本来要 3 到 4 个月,结果大概在 10 天到 2 周之间就能把论文发表出来,但这并不是随便一按就能做到的,结论是,这非常需要指导。

卢正石 31:11 没错。这里归根结底就是把自己当成 evaluator 来用了。不过这个在更上层运作的方法论归根结底也还是 auto research。虽然中间确实会进行介入,

崔胜准 31:24 但其中还是有点类似 auto research 的轮次。所以这里一开始 Claude 擅长的是不会疲倦地反复做,不抱怨。

卢正石 31:32 不抱怨。很重要。

崔胜准 31:34 基础知识都懂,图画得好,文献综合能力也强。也就是说像 LaTeX 这类东西,还有做图示这类事,Terence Tao 也说过同样的话,那些都是很耗时间的工作,但它都能做得很好。

31:46 Claude 做不到的是,当规范是非标准的时候,如果不是广为人知的东西,它就会老是退回默认值。如果是 pretraining 过的,还有一路硬推到底这件事,按这个人的评价,也还是有不足之处。然后它会读取方向。审美感不够。也不知道是施加了多大压力,反正它扛不住压力。不管怎样,毕竟是顶级研究者,所以我想他才会这么说。所以那些有效的诀窍,如何做交叉验证,以及如何维持这种层级结构,

32:17 通过反复提问之类的做法,得出了这样的结论,这归根结底会如何让 AI 走向博士级水平,以及人类研究生又该做什么。把实验分离开来也可能是个好办法,他们也会这么说。

卢正石 32:34 那这位就是直接用 Claude 客户端直接用了对吧?Claude。

崔胜准 32:40 用的是 Claude Code,Claude Code。在 Claude Code 上把他自己的 harness要是再稍微更精细地应用一点的话,

卢正石 32:49 前面说过的 Claude 做不到的问题现在说实话都是能解决的领域了。

崔胜准 32:53 不过这个由 Anthropic 官方科学博客来做,说明现实里确实有这样的案例,也说明现在已经具备了这种程度的能力和认知。现在的科学家们,那些站在一线最前沿的科学家们,能够做到这样的事情,这是一个把这点展示出来的小插曲。另外一个是,你看这里也给出了指标。

33:14 Claude 会话总数,所以输入 token有 2750 万,输出 token 也是,很多论文可能都直接塞进去了吧。所以可以看出,推进的工作量相当大。不过即便解决了那么大的问题,

卢正石 33:31 token 的数量其实我们把那个加起来的话大概也就是三四千万 token,

33:39 可能现在工程这边……你们现在都是按上亿在用吧?对。不过我想说的是,

33:44 其实到了上亿级 token 并不意味着就做得好。其实那个才是正常的。能在三千万 token 之内产出强有力的成果,做好引导,把目标设定好,这些我觉得才是更有意义的方向。

34:03 所以我们团队里也有一个特别厉害的工程师朋友,这个人是个纯粹主义者。不会东拼西凑挂很多这种 harness。比如说除了我们的 Claude Code 或 Codex 之外,上面还可以挂很多非常 meta 的 harness,这也是最近的流行,但其实 meta harness 所具备的那些功能,前天也是,我们昨天来着,昨天 Codex 0.117 一出来,那些原本没有的功能一下子加进来了很多。所以原本在外面的那些 meta harness 功能,真的都在往里面收进来。但看这些被收进来的东西的话,

34:39 Claude Code 给人的感觉就是,对外面那些东西只要觉得有好的就先猛塞进去,然后再在后面整理;而 Codex 呢,所以我之所以更喜欢 Codex,是因为那些可以说”这就对了”的部分,也就是这些所谓的 clutter、没用的累赘,全都会帮你清掉,只把本质干净利落地装进那个 vanilla 里。Codex 引入 hook 也没多久,也才只是像 app server 之类的按客户端结构拆开,或者让人们按 teamworks 去拆分协作之类的事情,现在也就是做到可以做这些的程度。我刚才想说的是什么呢,

35:23 就是那个很厉害的工程师会用刚才胜准展示的这种方法论。关键是人来做好引导,把那件事准确而快速地做完,

崔胜准 35:32 也就是说没必要让模型一直跑下去。

卢正石 35:34 对,过度把它当成 search problem 来做,也不是答案,当然在那个区间里我始终认为 search你要是硬塞进几百亿 token,把一切都变成搜索问题变成那个问题之后,我觉得也是有可能解出来的,但正确的方法应该是这个。大概是人类的价值和 AI 的价值能够以极致强度结合起来的那些领域。所以后半部分讲的是模拟器,

崔胜准 36:05 详细讲了一个身为物理学家、也是研究员的人亲手做出来的故事。这里也公开了 prompt,代码也公开了,就是这样。这里展示了一个和宇宙背景辐射相关的模拟,虽然还不到商用模型级别,但已经是可以按自己的研究进行定制的程度,并展示了用 JAX 搭建它的过程。

36:29 所以这里也讲了他自己得到的一些教训,还有一些有点类似 harness 的东西,以及 git 的某种历史记录,留下来的 commit history 这种东西的价值,然后 loop 归根结底也是一种跑了 Ralph loop,也会谈到这些内容,它到底到了多大程度上算是可用这类问题,也给出了具体的说明,并承诺会继续写这样的博客,这就是 Anthropic 博客本周的介绍。这个系列还会继续写下去,我很期待。即便不能全都理解,

37:03 那些站在现场最前沿的科学家们是怎么使用 AI 的案例,也就是说在 Anthropic 这边,Anthropic 也好,OpenAI 也好,当然这些他们也都在做,但会带着更多这种具体性来讲述,给人这种感觉。所以这个稍微想一想的话,我在开头也说过,

卢正石 37:25 硅谷那些聪明人全都往科学那边逃过去了,我不是这么说过嘛。在编程里发生过的事情,没有理由不会在科学里发生。

37:36 而且我觉得这现在就是我们的机会,现在谁都可以写代码了嘛。其实说”谁都可以”这个表达有点那个,以前不会的人也是这样。再结合上模型某种 capability overhang,一边学习自己不知道的东西只要有意志过去只有最顶级的工程师才能做的那样的事情现在也能凭借意志去做现在已经成了这样的时代。但我觉得科学领域也一样那种替代也会发生。比如以前要做新药开发或者为了治疗癌症

38:12 把我的癌症做基因测序找出发生变化的部分,并且因为那些变化去找到被表达出来的蛋白质再把那个用 AlphaFold这样去 manifest,实际 visualize 一下然后再去寻找与之匹配的其他 antibody 候选这些事情就连要掌握相关知识至少也需要生物工程博士水平的知识还需要训练但现在真的只要读一本整理得很好的书再获得一些哲学上的领悟就能直接去到那个阶段了。

38:46 以前本来做不到的事情现在却正在变成可以做到的事情而且那个人既不是生物工程博士对,然后再加上 MD,也就是也不是有医生执照的人现在工程师却能进入 biology 的最前线去做那样的事情这就是现在正在我们眼前发生的我觉得这就是 AI for science,Anthropic 也是OpenAI 也是,Bay 那边很多人都逃到 domain 里去了。逃到了那种只有更难、更聪明的人才能待的 domain感觉已经进入了那样一个时代我有点觉得这个也会成。

崔胜准 39:24 不过这虽然不是竞争,但该怎么说呢,因为是 vice versa就像刚才稍早前的那个例子不懂 JAX 之类的科学家做了工程,做出了工具,这也是一种侵入。大家其实都是在相互侵入。

卢正石 39:39 Rust 最近之所以走红为了成为 Rust 工程师付出很多努力的人也很多但最近我看到原本不是工程师的人跑来说自己在用 Rust 重写后端听到这种话的时候我就在想,这该怎么解读呢,我心里也真是百感交集。看来得深入想想 manifest 这个词了。

崔胜准 40:06 我当时有种”拿到了一个特别好的词”的感觉。所以我也做了一些实验。做了什么实验呢就是 Andrej Karpathy 说玩笑这件事是不行的所以我又回到了写作,做了点实验结果出来了几篇挺有意思的文章。

40:26 不过我是从这里这篇叫《橘子》的文章开始的。这里画成图片的那个被表述为”闭环”我做了一个自己的评估体系你看这里先写宪法然后再写一个有点像诗歌草稿的东西再由它自己对那个进行严厉评估然后是验收条件,这个验收条件我发现有个叫 ATD 的概念。所以先设定 acceptance,也就是验收条件然后直到达成那个验收条件为止采用循环迭代的方式来做。现在这一套还只有 Claude做得比较好

41:06 Claude 有点像仓库这样的概念在 session 的网页里也能拥有,Claude Code 当然可以在 Claude 网页里也可以像仓库一样使用。所以现在你看刚才这个就是进行创作工作的仓库。所以在那个仓库里像 auto research 一样不断修改结果物然后连制作它的 harness,甚至连作为主体的 prompt我都让它递归地去修改。所以会不断提高验收条件。用那种方式做的时候我观察到会产出一些很有意思的散文。这是我看完《Hail Mary》那部电影回来之后让它写一篇科幻小说

41:51 读的时候觉得出来了一篇挺有意思的小说,而这个才是最让我惊讶的。这个 prompt,当然详细的具体指令前面还有 500 多行实际上真正指示它做什么的是这一部分。

42:13 所以以《可视化与表象》这个标题作为一种让词语变得可见的技术把写作创作这件事我在和林完哲教授聊天的时候林完哲教授和 AI 一起写的论文标题有一个就是定了这个。就拿它来写小说,想着要不要试着写成散文,结果就出来了这个读这个的时候我有点被惊到了。从我的角度看出来的是一篇写得相当有创意的文章。大致来说,主角是个校对者

42:43 那个校对者在读某位作家的文章时发生了格式塔崩塌。原本这个校对者的能力是只要读文章就能在认知层面把图像浮现出来的人但某一天突然间,一看到”水”这个字,就只会以 ㅁ、ㅜ、ㄹ这样识别成字母本身而无法浮现图像,自己有种正在经历某种逐渐失明阶段的感觉反过来说,我特别震惊的部分就是这里你看这里把字母拆解开来去保留那种疑异的感觉看到它写出那样的内容时我会觉得,这到底是怎么想到这种发想的这样的地方是有的。把辅音和元音拆开来

43:26 只是我已经不再浮现画面了,而是随着其他感官被唤醒,我就写了那种在声音层面感受到的东西。我一边想着这是什么,一边做了,看这里的话,放进去的东西是entities 设定了一个叫”银”的主人公,然后是情境和环境,接着是要以什么方式去展开故事 arc,也就是叙事,舍弃了什么,又选择了什么,这样不断地跑循环之后,看最终出来的结果,大概跑了30分钟吧,我有点吃惊。所以这感觉有点不一样。

44:03 所以散文还不错,但我又用同样的机制让它写笑话。结果一点都不好笑。所以我又让它写情景喜剧的场景,是我前几天晚上坐公交回来的时候,以深夜巴士为话题,用同样的机制让它写文章,虽然也同样跑了循环,但这并不好笑。

44:25 不过其中包含的某种机制像是已有广为人知的 stand-up comedy或者情景喜剧,还有日本的漫才,这类方法论上的东西都做了研究,以及如何去评价它,这些计划其实都有,但实际产出的东西却很一般。

44:45 所以某些生成出来的散文会让人感觉很出色,但为什么用同样的方法笑话却不行,这是我这周一直在思考的。我之所以思考这个,是因为如果像笑话这种东西是 non-verifiable 的话,那 non-verifiable 的东西就不能用这种方式来做吗,我想知道的是这个。不过那个也是人会觉得开心、

卢正石 45:06 觉得有趣,笑话不是也有某种层级吗。如果让更底层的去做,不就能攻克了吗?只是现在还没有 verifier 而已。也有可能是没做 RL,

崔胜准 45:15 因为跟 coding 比起来,这也不见得有什么收益。也可能是那个起伏不定的 RL 训练环境,还有 OpenAI

45:25 去年这个时候推出 GPT-4.5 后,很快又撤回了嘛。那个被推测为是 pre-train 做得更大的那个模型,而且写作非常有创意、非常好。但他们也可能是判断那不属于商业领域,所以才撤回了,这个就不知道了。

45:39 不过无论如何,用当前的模型,就算用同样的 harness,笑话也运作不好。或者像 Andrej 说的那样,也可能是我那个 skill,做那个 harness 的 skill还不够。所以我还在一直这样那样地试,不过像这样,这就是那个有名的”哥哥是咔嗒工匠”那首歌的改编版,抓住了笑点,不过这个有意思的是,什么好笑、什么不好笑,现在这些模型会讲笑话,也非常擅长去解析它,但要把它做到那种程度,我稍微整理了一下,现在的 regime 是先靠 pre-training 全都塞进去,再用 mid-training 做领域训练,然后在 post-training 里加上 RL 和环境,甚至做到 harness 这一步,像这种笑话类的东西还是捕捉不到。也可能只是没投资源,或者说就是捕捉不到,这是我的暂时结论。

卢正石 46:38 我想大家大概对这个没什么兴趣。

崔胜准 46:40 我是觉得也可能是,也可能不是,现在这个行业里的人全都是极端 T 的集合体,

卢正石 46:49 对于 F 的领域,评价要怎么做都不知道的人恐怕占了绝大多数。

崔胜准 46:55 不过 F 的领域里不也有很多商业吗?

卢正石 46:57 应该是吧。是,不过如果有人在那边先开出路来,大家又会一窝蜂地往那边去,这些部分其实正是我们适合逃去的领域。所以呢,另外李镇元老师在 messenger 里聊到那件事时,

崔胜准 47:13 他说这可能和”价值函数”这个说法是相通的,这句话我也很有共鸣。但这个要怎么实现,好像还没有已知的方法。情感和”价值函数”这个说法相通这件事,目前还是个不太清楚的领域。

卢正石 47:28 value function = evaluation metric嘛。其实说的都是差不多的话。不过质量差别非常大。散文和那种能引出笑点的东西,

崔胜准 47:40 用当前的方法来看,好像并不容易做到。Andrej Karpathy 不管怎么说提过的那句话,我这边也算是确认到了。是的,关于好写作的 RL 环境我觉得发展得非常快。

卢正石 47:51 我们以前好像在去年的论文里也看过很多,最近因为实在没时间,就不怎么看论文了,但像以前 Kimi 之类的这些论文里也有相当一部分投入的,就是 on-policy,单靠模型自身的能力对好文章持续不断进行的 RL 环境,我记得这是被相当重要地讨论过的。不过其中大概当然不会有诗或笑话。我的 prior 好像确实是那样。

崔胜准 48:17 因为不是有”编段子”这种说法嘛。那些喜剧演员也是一边开会一边提出各种假设,试验这些那些,再做类似评审会的东西,一边说这个不好笑、不好笑、不好笑,就那样筛,做把它打磨下去的工作,本来以为照着那样做就行,但看实际产出就是那样,而且和品味相关的部分

48:37 这周我也有了新的 insight。品味不只是”喜欢什么”,“讨厌什么”也是一种非常强烈的品味。在 prompt 里写拒绝,我是当存在某种理由而不采用那个的时候就我的切身感受来说,文章的质量明显变好了。

卢正石 48:54 那也是反馈嘛。所谓品味,不只是喜欢什么的品味,

崔胜准 48:59 原来讨厌什么也是非常重要的信号。然后另一个有意思的是

49:04 最近像这样进行的这些工作因为都带有循环性所以像这样和人们一起做的时候在 agent 运转期间该做什么。最近和几位朋友做类似工作坊的东西时我又想到的是像这样某种程度上达成共识后让 agent 去干活,人能做些什么有趣的事呢,这些也是很有意思的点。把那个称作社交编程也有人这么说,给 agents 分配工作当然可以一直分配下去,但即便如此,在它们运转的期间几个人进行什么样的对话,或者提出什么样的想法,或者规划接下来要做什么说不定也可以试着做一做,所以我最近在做一些实验,那个也和这个有关,之后再找机会讲一次。

49:53 作为收尾,我把这周的经验稍微压缩了一下,又想出了一个假设。关于隐性知识的逆向工程假设。当某个人做出了某种成果时就去构建一个仓库,它包含了期待产出该成果的最低限度 harness,以及验收条件,并且还能自行把这些提升上去、作为 bootstrapping loop 运作。我最近一直在想,看来什么都得先建个仓库。

卢正石 50:20 对,memory。仓库里也可能是各种各样的文件。在仓库里,会留下逐步逼近成果的过程的副产物,无论是 MD 文件、代码,还是提交历史。如果那个 bootstrapping loop 通过了验收条件做出了相当于成果的东西,那就看能否生成同等水准的其他成果,一边扩大 coverage 一边反复进行,再次推进这个 loop。

崔胜准 50:47 那么在这个假设里最难实现的部分是哪一部分,这个问题就浮现出来了,如果是你自己的隐性知识,因为你自己写文章,也可以自己做 harness。所以你自己能很好地评估它,如果你成功榨取出了自己的隐性知识,并且变得可以复制,那么那时你自己的价值会变成什么。你自己是可以被复制的,但会不会存在他人无法复制的条件。我想到了这个问题。如果我能复制,那别人不也能复制吗?是这样没错,但更懂那个的人,

卢正石 51:19 因为有那个 skill,所以擅长做这件事的人是有价值的,当然,这个价值因为 LLM正在以光速缩小,这才是问题,但归根结底,这一切都会变成时机问题,我觉得会逐渐逼近那个状态。我更早做出来这件事,它的时间价值是多少,是相对的时间价值。还有别人点一下就能复制这个,

51:41 关键在于这是一点就到,还是要点三下才到。这才是重要的。所以今后在商业世界里,这种时间感很有可能会被拿来评估成那家公司的价值、那个人的价值。这种可能性很高。如果有人总是最先推出新东西,那些东西本身别人当然都能拿走,其实包是谁都能做。即便如此,人们之所以会买爱马仕的包,是因为它一直在持续做某种东西,所以它才成了品牌。那么一旦成了品牌,人们又会往那里聚集。

52:15 那么即便有人在那里咔哒咔哒地一点一点复制,即便也有同样那种一直削木棒的老爷爷,还是会有那个长期反复做、做得最好的人,如果是这样,那份才能即使完全平等,人们也还是会买那个。因为会对那个品牌产生偏好。所以我觉得,胜准刚才说的这个 loop 的说法完全都对,然后我们其实已经生活在这样的世界里了,我是这么想的,即便如此,我们可以逃去的领域依然会不断出现。

崔胜准 52:53 看正石这段时间说的话,正石是不是想把自己的这个隐性知识自动化呢?我做了很多。做了很多,而且在做那个的时候

卢正石 53:02 其实也经常和现实碰撞。在公司里也是,我会说那个 function、那个 function都应该自动化,但也有人连这个自动化的过程本身都完全不想理解。还有人希望把他们自己熟悉的组织结构尽快重新搭起来。即便如此,也有人说不是还有必须由人来做的工作吗,我会说,不是,那个人现在确实是在做人才能做的事,但正因为如此,那个部分才必须被自动化,我心里有一种类似 manifesto 的东西,因为底层立场不同,意见就会分裂。所以这些部分

53:39 让我觉得,这不只是发生在我身上的事,今后在别的世界里也都会发生。还有,我最近在练习的是,当面对科学论文,或者别人做好的 harness,或者某种 article 之类的东西时,我现在觉得,在那些隐性知识的领域里,会成为非常重要能力的是,在那些模糊地带设定什么目标的能力,这一点现在即便去问 LLM,它很多时候也做不好。比如说工程,或者像数学、科学这种领域,它比我懂得更多,或者因为我对那部分并不了解很多,所以很多时候它做得更好。但比如说刚才提到的现实中,像那种商业判断,或者更接近文字、更接近人的那些领域里,它不太会构建 metric。那么接下来,定义这些 metric到哪里算成功,到哪里算是朝某个方向取得进展,我觉得这就像是人的能力。以这样的方式,我最近把我所有的问题都转换后再去解决。

54:47 如果目标产物是 Excel,目标产物是幻灯片,或者目标产物是 report,那目标到底是什么,我们在经营学里会讲一个叫 OKR 的东西。如果问你要怎么规定工作和成果,那就是 Objective and Key Results。我以前在谷歌上班的时候接受了大量训练,然后不知怎么地一直都是靠那个来做,结果人生就有点定型了,不管做什么,都要把它的目标是什么,也就是 objective,写得很明确,当那个目标实现时,或者在将要实现时,我们会看到的那些预期的 key result,也就是核心结果物,是什么。写成 expected key result,这就是 OKR,他们会说尽量不要把它写得太感性,要全部换算成数字来写。比如说到什么时候上线什么,必须要有准确的日期,还有对那些预期 visual 的内容也都必须描述清楚,如果那样能够 matching,那个 expectation 是对的,就给个 0.7、0.8,如果做得好得多就给 1.0,不然就给 0,以这种方式,持续不断地对 objective 和 key result做给予奖励的实验,这对我现在做各种事也非常有帮助。

56:00 auto research 也用 OKR。最近的一次经验是,比如说在那个 harness 里,我现在用我自己的 harness做了一个叫 Chedex 的东西,是轻轻架在 Codex 之上来用的,它把非常浓的 Ralph loop和 auto research loop然后再加上 Ultrawork 之类这些东西带了进来,而在带进来的过程中用的也是类似的 loop。那么归根结底,就是要怎么应用这些相似的东西。那么我的目标是,这个 Codex 的 baremetal 版本虽然一直在快速升级,但对于它每次升级时发生变化的那些点,新加入的某些 native feature和我们原本做好的 Chadex 里的 feature,以及我作为 reference 的例赞的 Oh My Codex 之类这些东西,那么在这之间,它也在变,Oh My Codex 也在变,然后 native 也在变,Chadex 也在变化,那我想要的到底是什么。在尽可能保留 native 的同时,只用 native 提供的 hook 功能去搭一种 governing structure、loop structure,即便如此,如果还要把那边的功能拿过来的话,那么在这其中哪些东西才是正确的 metric,就必须定义出来。那边的是 objective B,这边的是objective A,产物 C,就这样设好,然后把这个和那个的 delta 定义成 scalar,再把那个和那个的 delta 定义成 scalar,等 feature 被提取到某种程度之后,从那时起就只摆着名为 C 的结果物,去跑它自身的自我改进 loop。挂上 auto research loop,对这份文档和代码的一致性,以及代码在战略上所具有的某些问题点之类的东西,去拷问它。所以如果说让你把找出的 defect 数量持续 loop 到变成 0 为止,那些所谓之前勉强压榨出来的东西在大致的目的性被提炼出来之后,其实就是把 objective 这个奖赏拿过来。那么它一边自己跑 recursive loop,一边凭借从这个模型能力中提取出来的那种优秀性,自己进化。就这样一直做到变成 0 为止,等那些东西全都 matching 之后,按我的计算,只要落进那个 metric 范围里,这期间不管是中间产物还是代码,我一次都没看过,甚至连打开都没打开过,它大概会跑 2 个小时。跑完 2 个小时之后,结束了我就把那个部署掉,然后我就相信它并拿来用。

58:45 我正在用这种方式把这套工作 loop 全都改掉。所以即便是和人一起做什么事的时候,不管是和谁做什么事,objective 和 key results都尽可能让模型能以 verifiable reward 的形式以 scalar value 的形式来接收,把它定义出来,这就成了我最近所有工作的核心。所以效果非常好。所以现在会感觉像是

崔胜准 59:13 类似话题的另一种变奏,但无论如何,把那个翻译成 verifiable 的能力,现在是很重要的,对吧。现在依赖的就是那个。不过我刚才漏掉没说的是,这是 Anthropic 这周公开的面向长时间应用开发的 harness 设计图,

59:32 里面也几乎有同样的说法。然后这个是我现在强调了几个点,它用了 GAN 的想法。借鉴了 Generative Adversarial Network 的灵感,由 agent evaluator 和 agent构成的多 agent 结构,这个也是 Ralph loop。想做的事情是在设计领域里,把主观判断变成可以具体打分的项目,前言里讲的是要开发这样一套转换后的标准集合,这归根结底也是把它分数化。乍看之下这是很难量化打分的。原本直接做是不行的,但这并不是一种天真的实现,而是把 harness 一点点打磨出来再层层搭建,这里面有一个”究竟是怎么做到的”的故事,跳到最后一部分来看,我读一遍。接下来会是什么?随着模型持续变强,通常也可以期待它工作得更久,并且能够完成更复杂的任务。在某些情况下,模型周围的 scaffolding会随着时间推移变得没那么重要,开发者只要等待下一代模型,就能自然地解决一部分问题。反过来,随着模型变得更好,仅靠 baseline无法实现的复杂任务,可通过开发 harness 来达成的空间也会更大。把这一点记在心里时,这次工作里有几个今后也值得延续的教训。亲自去实验自己所依托的模型,在现实问题中阅读它的 trace,并调校性能以获得想要的结果,始终都是个好习惯。在更复杂的任务里,把任务拆解开来,并对各个侧面应用专门化的 agent,也会带来额外的空间。而当新模型出现时,一般来说应该重新审视 harness,去掉那些不再是性能关键的部分,把以前做不到的、能释放出更大能力的新组件加进去会比较好。通过这次工作,我形成的确信是这样的。模型越好,有趣的 harness 组合空间不是在缩小,反而是在迁移。而对 AI 工程师来说有趣的事情,就是在那之后继续找出新的组合。这算是我之前讲过那部分的一个整理版。我也正是这么想的。现在大家的认知其实都一样。对于 2026 年现在能做到什么,大家的认知都一样,所以关键点是,现在不是经常说这个 drift 么。本来就是指我们所追求的目标,和现实之间拉开的某种间隔、delta。那部分我们称之为 drift,这现在也正在变成一个相当流行的说法,我对那个 drift 的基准点,一直都是放在最新的 frontier model 以及与那个 frontier model精准匹配的 harness 最前沿上。那个是在移动的。那个一直在变好。那个一直在变好,也正因为这种变好,过去做不到的事情,就像刚才说的,才变成了我也可能去做新药开发的世界。我现在也正想试着做新药开发,而为了那样的事情,也需要另一种 harness。对于新的 harness,也会有某种 definition。我觉得那就是在 AI 时代,我们所有人都应该追求的那个价值点。随着不断经历这些事情,我自己也越来越觉得,下一阶段挑战的领域在这里,本质也在这里,而且应该更执着于这里,这样的想法似乎也在慢慢形成。说到移动这件事,也有些传闻。是关于下一个模型的,所以这个这个 capybara 不是模型名,虽然并不准确,但它是 Opus 之后的 tier。是个好得多得多的模型。有传闻说是 Opus 之后就是 capybara,这种说法最近有一些传出来。现在的 Opus,看 Kimi 或 DeepSeek 这样的模型,能表现出接近 frontier 级性能的大概是 1T,大约在 1T 到 2T 之间,而 Opus 和 Gemini 3.1 也会是那个量级,这样的推测好像很多。真相大概 Andrej Karpathy 这种人会知道,但我们是不知道的。所以传闻里说内部模型是 10T,虽然确实有这种说法,但还是得出来了才知道。10T,Elon Musk说是下一个模型的那个,当时也说是 7T。说是 7T,所以既然这个是 10T,这个现在虽然还没法做服务,但以后不也会做吗?其实就是再多接点计算机而已,总之,说是会提供 early access 的文件泄露出来了,这些事大概发生在这周后半段,眼下的问题是这周 Claude 故障很多。看来需求很高。现在需求增长了很多,所以一旦这种东西停了会怎么样,这让我又想起上次也提到过的《地球停转之日》。所以今天准备的内容先到这里。不过我目前的观察是,玩笑还真不行,这是当前的观察,不过如果看 YouTube 的各位中有人想挑战一下,且有成功案例的话,请在评论区告诉我们。这周算是把 delta 抽出来看了一次。我们关于 Andrej Karpathy 回答的内容,其实有很多都是非常本质性的内容,所以胜准准备的脚本,大家不妨读一读,或者放进模型里跟它来回对谈一下,应该会有很大帮助。那么我们下次再见,好,下次我们再带着下周的内容来继续聊一聊。那这周就到这里。谢谢。