AI Frontier

EP 91

从商业视角看AI:26年第一季度更新

· 卢正石, 崔胜准 · 1:16:56
整页

开场 00:00

卢正石 00:00 今天录制的日子是2026年3月21日 星期六早晨。 想久违地来聊一聊商业方面的话题。 到目前为止我们更多地 讲的是关于AI本身的内容, 这段时间积累下来的变化, 还有一些发生了变化的洞察之类的, 想集中整理一下聊聊这些。 今天大概想按这个顺序来聊。 我们上周和胜准一起 去了OpenClaw meetup, 想先在前面聊聊这个, 然后是对AI游戏的本质性看法, 这一部分也想梳理一下, 接着是一些商业上的话题, 然后后面是AX,大家很感兴趣吧, 大家都把它读作AI Transformation, 我们公司本身的业务 也做了很多AX, 关于那个的内容 我们就简短聊一聊。 这是我们上周六早上 和振元一起录制的嘛。

OpenClaw Seoul 线下聚会感想 00:52

00:59 和振元录完之后, 那天下午在我们Scionic办公室 有OpenClaw Seoul meetup,我们就过去见了见。 久违地见到了很多令人高兴的面孔, 还有这些一直很想见的年轻优秀的人 都聚在那里,能够见上一面 我觉得是个很好的场合。 Hashed的金瑞俊代表也来了并做了分享, 然后这里胜准和我也站着, 做了Oh-My-OpenCode的延奎, 然后还有民锡, 大致上活动氛围就是这样。

01:36 Scionic的新办公室 做得非常漂亮。 所以这个地下空间, 被做成了研讨会空间、演讲空间, 我们以后也可以偶尔拜托一下 去用用看,应该不错。

崔胜准 01:47 看得很有意思, 也受到了很好的刺激。

卢正石 01:49 所以分享非常多,不过因为一边笑闹 一边和大家聊天, 我也不是把所有分享都看完了, 做了Oh-My-Claude-Code、Oh-My-Codex的 许艺灿,许艺灿的分享 非常有意思。

龙虾一家与 AI Harness 生命周期 01:56

02:04 这位用OpenClaw搭建了“小龙虾家族”, 管理着小龙虾家族, 实际上小龙虾家族在下面处理像OMX 或者OMC这些编码harness, 基本上是以这种形式推进项目的, 他讲了这个生命周期是怎么运转的, 那个非常有意思。

崔胜准 02:26 让我想起小龙虾汤、小龙虾墓地了。

卢正石 02:31 分享本身也非常有意思, 然后那个形式也是用了ElevenLabs 做语音录制来使用的, 我想这个嘛,都是有版权的那些人, 全都是很有名的人。 这些人的照片也都已经广为人知了, 我把这些人称作年轻的神仙, 在外面也都是这么叫他们的, 他们的方法论非常不同。 我们一直都在讲learn、unlearn的重要性, 我听了这些人的分享之后 那天也真的是经历了一次 很好的unlearn契机。 他们的方法论都很独特, 大多在这背后我们 之后还会再整理一下AI的本质意义 一边整理一边来聊, 就是如何把这些token用得更高效、更多, 不是我们亲自去解这些问题, 而是我们只要设定目标, 就让AI尽可能把所有问题都解决掉, 这种形态的workflow,艺灿也是 在这里说小龙虾家族不是角色分工, 而是一家小型AI公司, 他是这么说的, 他把自己称作大哥, 由这位大哥来主导的 这些AI harness,从meta layer开始 往下不断叠加层级, 一旦有某个task产生, 就会像这样不断地 cascade着往下传递并解决工作, 全都解决后再回来汇报, 而workflow中已经稳定的部分则进一步稳定下来, 让它完全自动地自己运转, 这些部分他们都做得非常好。 还有像这样设定好的方法论 以这些我称作年轻神仙的 这些优秀人士的方法论形式固定下来, 并在这个基础上做出优秀的harness, 目睹这些是很有意思的一点。

Chedex 与 Ralph Loop 04:17

04:24 所以我周六回来之后也非常 受了刺激,周日、周一两天里 很努力地打磨了harness。 把OpenClaw相关已经搭好的东西 都装上试了试,也复制了一下那个workflow, 在我的工作里 也很努力地做了铺设meta layer的事情。 非常有意思。 然后在做那个的时候, 其实像我自己也是Ralph loop之类的, 还有autopilot、auto research之类的, 另外还有一个叫乌洛波洛斯的framework, 也是有人做出来了, 那是一个特别专注于 如何把spec真正写好的harness, 我一边把那些全都拆开来看, 一边在循环里取出我需要的东西, 不需要的东西就不拿, 就这样做着属于我自己的harness, 我把它命名为Chedex, 一边去搭这个东西的时候, 又一次感受到,啊,工作以后都会这样运转啊。 我强烈感受到了很多这样的事情。

05:19 简单整理一下的话 在我决定某件事的方向、 决定我的目标这件事上, 一边跑 human-in-the-loop,一边不断来回交流 地运转是很重要的, 当目标在一定程度上稳定达成之后 从那时起就一边把 Ralph loop 跑 n 次 一边把这个 harness 跑起来,原本其中的混沌 就都会被削掉。 然后以非常精炼的形式 就会这样只剩下精华, 通过这样的过程 看着这项工作完整结束一轮 我觉得,这就是一种新的方法论,也是新的公司啊, 让我产生了很多 这样的想法。

崔胜准 05:58 感觉这似乎也正在变成一种潮流。 YC 的 Garry Tan 也做了一个叫 gstack 的东西 最近好像也引起了很多关注, CEO 们打磨 harness 这件事 是不是也开始流行起来了?

卢正石 06:07 我觉得是这样的。 其实 harness 说到底也是一种工作流, 而这些工作流仔细追究的话 其实也是彼此互相借鉴,把一些常见的东西 稍微用不同方式捆在一起而已, 所以就算把那些全都汇总起来 也不是照搬就用, 那个 harness 本身也还是会带着各自独有的某种视角 重新打磨后再使用的情况很多, 所以我觉得这在一段时间内 可能会成为一种趋势。

体检过敏经历与人类的感知 06:34

06:39 不过一个重要的经历是 不管这个 AI 再怎么发展, 再怎么变好之类的, “啊,我们终究是人类啊”这个事实 有过一个让我真正意识到的契机, 我上周做了体检, 我知道自己对那种特定药物 是过敏的。 那是血管造影剂, 每次做完那个之后,身上总会轻微起荨麻疹, 状态也会变差一些, 我一直都知道这些症状会慢慢过去, 但这种情况重复了几次之后 这次也差不多到第 7、8 个年头了, 次数上也到了第四五次, 这次就完全出现了很强的免疫反应, 几乎到了 “这样下去我要死了吧”的前一刻。 所以我打了类固醇针, 吃了药,然后就那样躺了两三天, 经历了这件事之后 哇,人类到底是什么。 我又开始重新思考这个问题了。

07:30 躺着的时候,有趣的一点是和以前不同, 关于我对药物的既往经历, 还有我的反应之类的这些事情, 我一直和 GPT 5.4 连续聊了好几个小时。 它全都告诉我了。 为什么会这样、怀疑是什么问题、哪种概率更高。 就这样持续跑着某种属于自己的 Ralph loop, 问题就越来越明确了, 还会告诉我如果做到这种程度,大概要花多久时间, 甚至连这种处置建议都出来了, 当然旁边医生也都在给我说明, 但医生没有说到的 那背后的所有 prior 它都会全部告诉我, 所以我也觉得 这真的是要走向一个新世界了,

08:24 还有就是我原本创业的时候 虽然一开始是为了卖化妆品而做的, 但归根结底还是在想,人到底怎样才能 以更健康、更美的状态 活得更久。 所以我现在在做的 品牌名字叫 KYYB, 是一个叫 KYYB 的品牌, 它其实是从 Keep You Young and Beautiful 取了首字母来的。 怎样才能更年轻、更美丽地 把这件事作为我余生的愿景 才行, 所以我就把品牌命名为 KYYB, 也因此下定决心 要重新强力回归这项事业。

GTC 主题演讲与“工作的未来” 08:55

崔胜准 08:55 不过你不是在生病的时候还看了 GTC 吗?

卢正石 08:57 因为没什么事可做,就把 Jensen Huang 讲话的内容 发愣似地看了两个小时。 胜准你也看 GTC 了吗?

崔胜准 09:06 没有。 只是大概看了些剪辑片段,觉得“啊,是这样啊”, 并没有仔细去看。 不过还有一个很有意思的模式是 正石这次也是生病了才那样一直对话, 但看看周围的人,发现这样躺着的时候 有人打点滴时也在写代码。 现在已经能做到了嘛。

卢正石 09:22 用说的也能做,是的。

崔胜准 09:28 还有和熟人们见面吃饭,都是开发者, 他们一直看着智能手机,确认那些通知, 然后给 agent 分派工作的景象也已经很不一样了。 我问“你们这是在干嘛”,结果他们一直在给活。

卢正石 09:39 像监督员一样。那天我们 OpenClaw 会议上我也看到, 艺灿还带来了一台 iPad, 一边跑着几个 CLI 一边全都在监督着。 所以我就觉得,啊,那就是工作的未来啊, 于是有了这样的想法。

转向 AI 商业的本质性视角 09:54

10:02 好,那么现在我 其实接下来我们一路走来, 像是什么生产力提升之类的, 还有编程之类的这些话题,某种意义上说 这些现在都已经是说完的话题了, 我觉得现在只剩下走向日常化这件事了, 另外还有非常多的 Frontier Lab 们, 还有 Latent Space 之类的。 那些走在前面的人 几乎大多数都把这个视角 更多地转向了科学这边,AI 科学这边。 所以我觉得 这和那些东西多少也是对齐的。

10:31 那么今天后面的内容 因为得一路往下快速推进 我就稍微往下讲一讲。 前面这张幻灯片我先读一下。 所以在我正式展开之前 关于现在这个 AI 商业世界 应该如何去看 我把一整套逻辑都写了一下, 不管怎样,从根本上来说 还是需要先获得一个视角。 所以关于这个根本性的视角 我先稍微讲一讲,然后再讲业务层面 也就是在我们当前所处的这个产业里 正在发生的事情, 以及这个产业里的公司该如何做 AX 似乎会比较合适 我们就这样从更宽的地方 一步步收窄到更具体的地方。

2026 年 3 月 AI 产业快照 10:34

11:08 这个 METR 时间地平线其实不用特地讲 都是我们已经知道的内容, 然后现在只要有 benchmark 出来 大家其实也不太会认真看了。 benchmark 一出来,大家大多半开玩笑地 不是说“这个 benchmark 怎么样”, 而是“这个比你强”,然后就结束了。 感觉确实比我强。 说到这种程度,到了 GPT-5.4 左右 我在实际工作里使用时 都会觉得这东西 应该已经没什么太大问题了。 与其说我非常满意 不如说那种让我特别失望、觉得这不行的 那类 corner case 体验已经显著减少了, 这一点我觉得也可以提一下。

11:53 还有,2026 年 3 月 如果稍微聊一下 现在这个产业的快照的话, 虽然现在已经不太常聊 pre-train 了 但这看起来已经基本成了一个成熟赛道。 昨天 Xiaomi 发布了一个叫 MiMo 的 V2 Pro 模型, 这也是一个基于 1T 的、几乎算 Frontier 级别的模型, 做这个的人看起来是一位比较年轻的女性, 而且她还是参与过 DeepSeek R1 的人。 不过她在推特上写的内容里 有很多意味深长的点, 我们这次在独帕模业务里也能看到, 这个 computation 成本其实一直在下降。 说实话,NVIDIA 的机器好像一直在变贵, 但按单位成本计算的性能 的确是在持续变便宜, 所以这已经不像以前那样 是那种绝对无法挑战、必须要几千亿级 资源的事情了。 现在几乎已经降到几百亿级, 而且还是从后面那种 several 几百亿 降到了 a few 几百亿, 甚至感觉还会继续下降 这种感觉现在也已经相当明确了。

12:56 还有像 NVIDIA 这样的公司, 这次 Nemotron,Nemotron 以前只是发布了 training code 之类的配方还稍微有些空缺, 但隔了两三个月就全都补齐了。 进去看里面的话,Nemotron Nano,然后还有 最近不是出了个稍大的 base 吗。 好像叫 Super,总之那些也全部把 pre-train、 然后 mid-train、post-train 的 training code 全都放出来了, 相关的数据集也都准备好了。

13:34 所以做出 MiMoV2 Pro 的那位 也说大概有 1 年左右的差距。 只要基础设施搭好了,并且知道该怎么做, 这也和 胜准 一直说的话 在某种程度上是相通的, 一旦我们看到 有人做成了这种事,

崔胜准 13:47 是用 AI 做出来的。

卢正石 13:50 对。没有 AI 的话,我们不过是渺小生物罢了。

崔胜准 13:54 在“是用 AI 做出来的”这种情况下,“能做到” 本身就是一个很大的提示。

卢正石

13:59 对。所以像 MiMoV2 Pro 这种情况 在那种准备工作都很利落地完成之后 大概 1 年就能追上, 也就是说能做出那样的质量 我觉得这是个很好的例子。 所以 pre-train 这件事,啊,这个 大致上应该是做得成的。 另外,对于这个 AI 在未来最终会发展成什么样, 如果一下子跳到未来去看 结果就是所有单位服务 都会持续走向成为单一单位模型的世界, 所以这种进行模型 work 的 流程,我还是觉得依然很重要。 但是对于这类部分的可及性 也在不断下降的情况下, 虽然我们现在在看 agent 之类的东西, 但 model world 的发展 仍然当然还是有必要持续关注。

RLVR 与 CUA 14:48

14:52 再往下看一点的话, frontier lab 们竞争的轴心是, 我们的 成铉 上次来做 session 的时候 不是明确地定义过,今年应该就是这个,RL 环境扩展, 说得非常清楚了吗。 那其实就是我们一直在说的 RLVR, RLVR 是 Reinforcement Learning by Verifiable Rewards, 也就是说只要能够给出某种可验证的奖励信号, 模型就一定能够学习。 所以我们这个 domain, 在 RLVR 刚出来的时候 当时其实连 VR 这个说法都没提。 也没说 Verifiable Rewards, 数学和编程只是最具代表性的例子。 因为数学和编程是 解决问题的过程可能很难, 但这个解法对不对, 要验证它是否正确却是很容易的。 就像数独题一样,解出来很难, 但解完之后这是不是正确答案, 确认起来很容易。 所以原来只有那样的东西, 但现在已经跳出 coding 这种 general 领域, 正在全面走向医疗、法务、化学、生物、物理, 这些方向。 只要能构建出这样的环境, 就能从工作一结束就停下来的 on-policy, 变成持续发生学习的 那种神奇世界。

16:06 而且这次随着 GPT-5.4 出来, 大家不是把它叫做 CUA 吗。 Computer Use Agent。 这其实也是围绕使用计算机的环境, 如果得到了想要的结果,就判断这是对了还是错了, 并给予那样的奖励, 让模型去操作我们熟悉的各种应用, 或者去操作 macOS 或 Windows, 使它在处理这些东西时 变得越来越擅长。 效果非常好。 同时我们之前也说过, 在数字环境中绝对无法产生的 某种奖励环境, 似乎正在成为新业务的一个轴心, 说到这一点时提到的 就是像 Periodic Labs 这样的公司。 那是一家材料工程公司, 有些特定材料在纯数字环境里根本无法做实验, 比如它到底有没有超导体的性质, 这类事情要通过实验去验证, 他们干脆做了一个由机器人控制的实验室, 由那个实验室发出奖励信号, 这个行不行、那个行不行, 再反过来以这种形式反馈给模型, 以结合 digital world 和 atom world 的形式 在构建自己的护城河, 而这类问题正在作为 新企业应当拥有的护城河的 best example 登场。 这些大概可以作为这一部分的收尾。

所有问题最终都会收敛为 Search Problem 17:21

17:28 如果再更简单地总结一下, 前面举了几个例子, 把它提升一个层级, 上升到 abstract layer 来整理的话, 现在正在发生的事情, 如果用一句话总结,就是利用 compute, 投入计算资源, 把所有问题都变成 search problem, 直接替换掉了。 不管我们说的是哪个领域的问题, 那个问题里其实都包含着 人类尚未知晓的各种 superset。 有一些我们还没到达过的 solution 区域, 而那个 solution 区域 就是随机投入 computing 资源, 全部去探索一遍。 全都走过之后,如果它是正确答案, 那这就是 solution;如果不是正确答案, 就说这不是,然后在那个 solution space 里 做上标记。 这相当于是在构造一种 manifold, 然后再把那些学到的东西带回模型里, 让模型对那个领域的知识 全部都具备起来。 这里的核心是, 归根结底就是能不能产生奖励信号的环境 存不存在,仅此而已, 问题在本质上就归结到了这里。

18:34 这几乎是我们去年,很久以前了。 去年大概年中的时候就说过,剩下的只有这个。 能不能把 non-verifiable 转换成 verifiable 的环境 是否具备,当然这件事的前提是 默认大家都拥有 computation power, 我们是在这个前提下谈的。 在我们之前的 YouTube episode 里, 旧一点的内容、偏新闻性的内容, 虽然有很多已经过时了, 但关于把这种 non-verifiable 转换成 verifiable 的那些场景和笔记是有的。 那些内容如果再回头看一遍, 对从根本上理解这个问题 应该会很有帮助。 不过随着模型持续变强, 同时也在变便宜,这无论如何似乎就是当下 所有变化的根本。

模型比我们想象的聪明得多 19:17

19:25 但是也有很多人会说, 它再强,不也还是没法超越人类吗, 这样讲的人非常多。 所以他们会说那属于默会知识的领域, 模型绝对不可能超越, 这种话我也经常听到。 关于这部分,我想可以用 capability overhang 来做一个概括说明, 其实我们不断意识到的是, 这个模型比我们想象的 要聪明得多。 而且 胜准 上次在讲 prompt 的时候, 不是说过嘛,前面随便塞一篇论文进去, 然后我再说我要说的话,那么前面的那些 space 就会被整理好,从而给出聪明得多的回答, 你不是这么说过吗。 就像那样,我自己也是, 不管是在商业上,还是在我所做的 某些思想实验里, 一试就会感觉到, 这其实不过是在把这个模型内部原本就有的 capability overhang 调出来而已, 而不是说我在引导它,作为人类 我在以更优越的方式领导它, 这种感觉正变得越来越少。

20:28 与此同时,这些现象 从根本上暴露得很明显的是, 这也不是我说的, 而是做出 Claude Code 的 Boris Cherny 以及, 这样说就是 最一般的那个是 最具体的那个, 不是正在这么说嘛。 不是说把某个特定问题解得更好, 而是如果更普遍地提升问题解决能力, 那特定 specific 领域的问题就会被顺带解决掉。 模型的强大要重要得多。 如果现在还解不了,那就先放着,过6个月 到时候模型就会解了,他们会这么说。

崔胜准 21:04 在这部分我也想到一点, 最近和熟人们聊天的时候 会用到“闭合循环”这种表达。 把循环闭合起来, 让反馈回路形成的话, 很多事情就能解决。于是 这个奖励信号 不一定非得只是自下而上的奖励信号, 如果把它转换成某种 verifiable 的形式, 像 Ralph loop 这样的东西就会运转起来, 于是就能发生性能提升或问题解决 可以说是形成了那种相似的结构吧?

21:34 所以最近像这种单纯的聊天界面 在用 ChatGPT、Claude、Gemini 这些的时候 它们内部其实都能让那种 CLI 之类的东西 跑起来嘛。 所以在里面用 Python 让 bash loop 跑起来的话,那个 standard out 出来的内容 又会重新进入 context, 模型就会不断建立假设、做实验, 像这样持续 30 分钟、1 小时 现在在聊天界面里也经常能看到。

公司的独占知识测试 22:03

卢正石 22:03 现在这个话题就是我们 在我结束这一章之前 想说的核心信息, 我想说的是,其实很多公司 觉得自己的数据非常稀缺, 而且是世界上独一无二的, 所以会把它关在某种本地部署模型里, 或者让信息无法流到外面这件事上 花很多心思嘛。 不过我在某家公司做过一个测试, 把只有我们公司才知道的 那种完全专有的某些东西 先只拿出大概 3 个来放进去试试, 放到 GPT-5.4 里。结果很有意思。

崔胜准 22:36 这是做了之前没做过的事啊。

卢正石 22:38 对,不过只说结论的话,模型其实早就都知道了。 所以我当然还没有走到真正执行那一步。 但我心里形成的一个意象是, 与其用保护我所拥有东西的方式, 不如把我拥有的东西 尽快提供给那个对我来说具有 capability overhang 的 模型, 让它把自己拥有的额外某种 search space 更多地带回给我, 这样更有利, 我现在是越来越坚定这种想法。

23:09 所以最近比起安全,我更倾向于把我拥有的东西, 当然 Frontier Lab 们会很喜欢这样, 像 OpenAI 或 Claude 这样 把外部全人类所拥有的东西 全部作为某种这种奖励信号 都拿去使用, 即便如此,通过做这笔交易所获得的收益 到目前为止还是更高, 我现在多少有这种想法。

Auto Research 与优化同构性 23:32

23:37 不过刚才 胜准 说的那件事, 现在像 Andrej Karpathy 不是做了个叫 auto research 的东西嘛。 但这个概念也是完全同构的。

23:47 归根结底,深度学习这种东西 也是以这个明确的目标,也就是那个 scalar 的 loss 函数的 value 要降下来为目标, evaluation metric 就是持续下降就行。

24:00 然后中间把模型放进去之后 那个中间所使用的方法论 就只是很蛮力地投入 computation, 不断去 optimize 而已。

24:05 对于 gradient descent 这个算法 学过的人应该都知道, 它真的是个简单粗暴到极点的算法。 即使只写成一段代码,也能在 20 行以内实现 就是这么简单的算法, 但只要不断往里面投入 computation, 就会找到某种 solution。 持续不断地往更 optimal 的方向移动, 说白了就是所谓的进化算法。

崔胜准 24:33 重要的是,那个有它能起作用的领域, 而把那些乍一看会让人觉得它不起作用的问题 翻译成它能处理的形式,似乎就是关键。 而且又确实能在一定程度上完成这种翻译。

卢正石 24:48 而且这种可翻译性, 胜准 刚才说得非常重要, 连这种翻译模型本身都会帮你做。 也就是说 on-policy 的模型 连我模糊地拥有的 objective,和我模糊地拥有的 evaluation metric 都会在中间不断帮我 fine-tune, 所以这个过程只要转上几轮 human-in-the-loop, 目标一旦变清晰, 从那之后就直接跑就行了。

崔胜准 25:09 即使不完整,只要先做了第一阶段 后面也会继续展开。

卢正石 25:17 对,所以这个,这张幻灯片 其实某种意义上说是今天所讲内容里 最重要的一张幻灯片。 我们从深度学习中得到的这种方法论, 当模型现在已经变得相当聪明之后, 当它越过了具备超过某个人类能力的临界点之后, 我们曾经害怕的 那个世界,现在正在进入。

25:37 就是说,所有问题,所谓问题解决这件事本身 现在只剩这一种办法了。 就是直接把聪明的模型顶上去, 然后和那个模型一起把目标与 evaluation metric 明确下来, 然后把一切都收敛成优化问题。 而那个优化的对象可以是任何东西。 也可能会成为一个 .md 文件 也可能会成为代码 repository 也可能会成为公司。 也可能会成为项目,总之什么都可以放进这个结构里, 让 AI 跑循环这件事 比让人工作快得多。

26:11 现在的 frontier 模型也是 大概 Xiaomi 也这么说过, Andrej Karpathy 在 auto research 里展示的也是这个, 前不久 MiniMax 也说这个是 agent 训练出来的模型。 人不进入那个循环。 模型让自己自我 evolution。 只要给它计算机, 它一边自己做 evaluation, 一边自我增强。 只要有这 3 个,所有问题都能解决。 而且这和刚才胜准说的 我们在深度学习里找到的东西 是完全 isomorphic 的。 是同构的。

崔胜准 26:55 还有一个很有意思的想法是 听许艺灿发表的时候我想到的, 你不是提到什么螯虾坟墓之类的吗。 看了螯虾汤之后,那些没能成功的 .md 也就是说,不管那是程序 .md 还是 SOUL.md 它们如果没通过 fitness function, 就会衍生给下一代别的东西。 这个我们不是在哪儿听过很多次吗。 做 genetic algorithm 的时候。

卢正石 27:17 这是进化算法。 适应了就活下来,不然就死掉。

崔胜准 27:26 所以好的东西就 crossover, 偶尔再制造变异,那些以前的算法 现在感觉也都能应用到这种思考方式里。

Ralph Loop 变体与 Meta Cascading 27:30

卢正石 27:34 而且这个我们之前本来想找机会聊一次 结果一直没聊成, 其实 Blaise Agüera 的那个 session 讲的也正是这个, 而且我们对生物工程 这些方向也很感兴趣, 所以和那些方向也完全是相通的。

27:46 我看那个的时候,我抓到的核心算法是 不需要 mutation。 只要在现有的池子里搜寻一下 order 也能被找到, 这是我觉得最 insightful 的一点。

27:58 所以最近我们说的 Ralph loop 不是已经火了很久了吗。 而且虽然是 Ralph loop 的变种, 但你看大多数方法论 算法其实就是这个。 一开始不管叫目标规格也好,还是叫 spec 也好, 反正名字都可以不同, 但会花相当多时间把目标明确下来, 然后目标一旦定下来, 实际上那个 evaluation metric 就自动定下来了。 因为模型自己会把它定出来。 按照目标来判断 什么是对、什么是错,它已经有这个能力了。 这样之后,evaluation 直到满足 metric 为止, 就一直跑无限循环。 到最后结束时挂一个 hook, 检查一下,没通过检查的话 就再转,再转。

28:50 现在模型一直有个问题 就是在中途模糊地结束。 一边说“很好”一边就直接结束了, 所以要让它直到回答“没有任何问题”为止, 就一直继续跑无限循环。

崔胜准 28:57 当然在实战里会有很多复杂因素。 因为如果评价项目设错了, 它就会去 exploit 那个, 然后尝试用莫名其妙的方式通过。

卢正石 29:08 因为模型本身也可能会去做 reward hacking。 也有这种可能。 但这种部分 其实和公司很像。 虽然有很多非常具体的实务, 但组织里不是有 hierarchy 吗。 代表、管理层,然后 组长,还有组员, 实际上代表理事看到的是一种非常提纯过的 最终报告,而你看这个运转过程的话, 这就是 Ralph loop。 一边说着“重新做,重新做,重新做”, 一边在更下面不断有某种同构的工作 我把这种往下的方式称为 meta cascading, 因为它本来就是这样一种结构, 反过来说,现在现存的公司 要用这种方法论完全替代掉 我认为是可行的。

代理时代的人才定义 29:57

崔胜准 30:01 那我突然有点好奇, agent 人才的定义是什么? 如果现在这种有韧性地一直深挖 用基本的 Ralph loop 就能解决的话, 那么提出意外的想法 或者去探索这种宽度的能力 才算是能力吗?

卢正石 30:17 直到现在,给模型发起某件事 的第一个 system prompt 还是得由人来给。 当然这很快也会来到 AI 给 AI 发出这些的世界, 但至少现在,至少现在还是要把某种偏好 把偏好和意志作为 input, 去 initiate, 这种程度的意义,还是应该交给人类吧?

30:46 所以这个也是我和胜准 还有正圭所在的群聊里 一直在说的话题, 现在模型把一切都做完了, 感觉好像我们已经没事可做了。

30:56 但即便如此,世界发生变化 依然需要时间,而且商业世界、市场 要接受这些东西 真的短的话也要几年,长的话 可能要二三十年。 在这之间把平衡感发挥好, 我觉得是最重要的。 我认为企业家最重要的德目, 就是平衡感, 这个得好好发挥才行。

31:23 那这个现在是什么来着? 这个 evaluation metric 因为它并不是一个能干净运作、真实存在的部分, 所以那一部分现在仍然有人类的角色。 好,那么我们稍微往下看一点。继续往下看吧。

31:41 总结一下,模型变好了, 因为模型,harness 也变好了, 而且成铉也一直在指出, 因为 RL 是按照那个 harness 来进行的, 模型的性能就会变得更好,于是 如果它的 generality 增加了, 那原本已有的 harness 的功能 也会被它吃掉很多。 但即便如此,如果模型变得更强大, 利用它的另一种 harness 也还是会出现, 这就像乌洛波洛斯之蛇一样, 是一个永远重复的循环。

崔胜准 32:08 大概到去年时,我们还引用 Noam Brown 的说法, 说我们的 harness 最终会被模型吸收的现象 应该会发生, 但后来 harness 又会按那个再冒出来, 所以正如您说的,这好像就是乌洛波洛斯的形态。

卢正石 32:22 就是在不断以正反合、正反合的形式推进, 而且那个速度也在一再地 让我怀着敬畏去看待, 也让我怀着恐惧去看待, 所以正在加速。

崔胜准 32:39 我对这个还没有完全想清楚, 但某种以神经网络形式存在的东西, 和那个神经网络去使用外化出来的工具, 就像人类、人类文明一直以来那样, 这是不是一种会持续下去的模式, 我也会这么想。

卢正石 32:52 所以总之,所有问题都会被 转换成利用 compute 的 search problem, 然后由那些 compute 瞬间把问题解决掉, 我们正在进入这样的新时代。 谁能把这个循环理解好, 并把自己的业务放到这样的轮次之上, 谁就会获得这个 benefit, 而不能理解这个的人, 就会被那些会利用它的人取代,

崔胜准 33:19 这是个隐隐很强的信息啊。 against,不要去抗拒这个, 大概就是这样的语气吧。

卢正石 33:26 这是 Sam Altman 很常用的表达嘛。 不是有句话叫 “Do not bet against us” 吗。 所以这只是从图上画出来的说法, harness 变好了,就会涌出更好的数据, 因此模型变好, 因此又会施加更多 RL, 因此又会产生更好的模型, 也会造出更好的 RL 环境, 就会变成这样。 好,所以在这里,对于 AI 游戏 某种本质性的观点就是这样,要拿着这个镜头 来看一看。 但在这个镜头之上,我们一直都是这样的,不是吗。 叠上一层之后,下一层就会来, 下一层来了之后,再下一层又会来, 这就是我们在去年年底 在我们 逃亡者联盟 的发布之类场合用过的 那个在《哥德尔、艾舍尔、巴赫》的例子里看到的 那种关于辩证性的非创发的故事, 即便有这样的本质, 在其上层层堆叠起来的商业世界 还是会再一次变得更复杂。

OpenClaw 与个人代理的崛起 34:26

34:33 所以再回到完全商业的话题, 商业里会发生什么事, 以及现在什么才重要, 我稍微整理了一下自己的想法。 如果稍微往商业的故事推进一点,就是这个。 在 OpenClaw 出来之前, 不管是 ChatGPT 还是 Claude, 还是 Gemini,这些巨大的 gateway, 会变成像 Naver 或 Google 一样, 把新的 gatekeeper 位置全部换掉, 然后它们自己成为新的 gatekeeper, 像这样的 商业逻辑我之前用了很多, 但 OpenClaw 出来之后,用过 OpenClaw, 生活在一个已经习惯 OpenClaw 的世界里, 我开始觉得也许未必是这样。

35:14 我们也不是只开 Grandeur 和 Sonata 啊。 有人开 Casper,有人开 Tesla, 有人开 BMW,会按照用途和喜好 开不同的车嘛。 就像那样,也许一个人接触信息时的 最上层 gateway 不是我们至今习惯的那几个渠道, 而是各自专属的个人 agent, 也许会彻底分化成那样,我最近有了这种想法。 这是我新近产生的想法。 因为这舒服多了。

35:43 ChatGPT 对我来说,待会儿我们也会讲到 bundling 和 unbundling, 它有时会想对我强加 那种 bundling 的框架, 我会讨厌,为什么非得那样用? 但这个会把那一切彻底重新拆开。 所以现在只来到少数 early adopter 和那些走在前面的人身边的 OpenClaw 的世界, 这东西说不定会成为所有人的 gatekeeper, 我开始有一点这种感觉。

36:18 我对那种语气 虽然感觉得有点烦, 但我几乎都会去听 opinion leader 们的谈话。 不是只看摘要, 而是在上班、下班或者做别的事的时候 几乎一直听着,想去读出他们话语之间存在的 那种微妙的 gradient。 就算是去年10月,Sam对我们还说 你们都死定了模式。 到26年会做出AI研究实习生, 到28年会做出AI研究员, 因为我们要做成像谷歌那样的全栈服务公司。 去年10月底还开了愿景发布会。 明明只是4个月前的事,但过了三四个月之后 Sam的语气稍微变了。

崔胜准 36:59 不是有点泄气了吗?

卢正石 37:03 变得稍微谦虚了。 Anthropic猛地冲上来, 这似乎也有其意义。 然后最后他们也常说 我们可能终究会变成把token 按表计量来卖的运营商。 感觉大家都会变成token运营商。 而且以前如果只有OpenAI 拥有这种优势,那还另当别论, 但现在其实像中国的前沿模型, 还有NVIDIA甚至连OpenAI和Claude 都在努力把它们commoditize掉。 Frontier Lab们所拥有的 那些knowledge全都被提炼成recipe, 然后被放到GitHub和Hugging Face上, 只要你们买NVIDIA GPU, 你们也能自己做出来自己用, 因为他们还在提供第三条轴, 所以这真的是一个彻头彻尾、完完全全的frenemy世界。 都搞不清谁是朋友谁是敌人。

37:56 既然说到了Jensen, Jensen前不久不是发表了一篇文章吗。 说AI是五层蛋糕。 然后从能源开始,上面是半导体芯片, 再往上是基础设施,其上再叠模型, 再上面应用会开花结果, 大概就是这么个说法。 这个应用并不是 我们过去所知道的那种应用。 Agent应用 和我们至今在web世界里 以及在app世界里所熟悉的 那种应用完全不是一回事。 那么我们原来已有的大量移动应用, 还有那些我们熟悉的大量服务, 它们会经历什么样的命运呢? 在AI时代,这当然是一个 可以做的思想实验。 而且也得据此去做点什么。

38:44 其实靠把app好好上到App Store 赚了很多钱, 这种话已经很久没听到了吧。 就连我也是,上一次从App Store下载新app 感觉都是几年前的事了。

38:55 在这样的世界里,这是在OpenClaw meetup上 Simon展示过的app。 这是他展示说自己正在做的OMO.BOT, 是个Agent app。 我们平时得麻烦地去访问的那些大量app, 其实我们都会这么想。 想点炸酱面外卖就得去Baemin, 想订瓶装水就得去Coupang, 想叫出租车就得去Kakao Taxi, 做这个要去那里,做那个要去别处,很麻烦吧。 那不就是让秘书全都代劳就行了吗。 他只是把那个实现出来了。 有API的公司就接API, 没有API的公司就接上CUA,也就是Computer Use Agent, 接起来之后 我看他就是直接做了模拟。 所以这个是用Baemin订炸鸡的场景, 这个也是用这种方式 在里面全都实现好了。

代理替代操控现有应用的那一层 39:01

39:55 所以我觉得这就是未来。 这是app的未来,也是Agent应用 最终会指向的目标物。 我本来就想象得到肯定会变成这样, 但果然看到那些这么快执行的人 已经把它做出来了,感觉还是不一样。 但在这里我们要仔细看的点是, 我们原本所知道的所有app 都会被埋到这个Agent代为操作的那一层下面, 就这么全都沉到下层去, 我觉得这点是我们必须非常重视的。

40:28 可是像我们下面这些大量的Baemin之类, 以及在既有商业世界里各种各样的公司, 他们无论如何都已经成功,发挥着某种媒介力, 看看这些既有的gatekeeper position, 它们的核心全都是中间介入。 所以我总是这么说, IT生意和媒体生意根本是一模一样的。 我会说那是一个媒介力本身就等于利润率的世界, 不管怎样,他们之所以能发挥那种媒介力, 发挥那种中间权力, 是因为他们在前一个时代无论如何都取得了胜利, 所以才占到了那个位置。 Naver占领了搜索, Kakao占领了通信, Baemin占领了外卖, 然后Coupang凭借火箭配送 在日用品之类这些方面做到了最便宜, 也就占领了这些领域。 就这样,他们靠积累起来的媒介力 夹在客户和大量供应商之间 扮演所谓中间人的角色, 是一类靠此创造利润的运营商, 但看刚才那个OMO.BOT, 它就是在他们和我们之间 横插进来的新运营商。

41:42 既有运营商当然会讨厌。 以前他们确实会拦。 Naver就是特别擅长干这个的公司之一。 封爬虫,封这个, 封那个,反正全都封掉, 在所谓的walled garden里 一边防止内容流出去, 一边在里面建立起良性循环, 从而堆起了今天的帝国, 可是Agent对这些进行decompose, 这种分解,真的能拦得住吗。

崔胜准 42:06 不该阻止吧。 在这个方向上。

卢正石 42:14 对,阻止不了的。 因为人过来这件事和 流量是分辨不出来的。 因为如果只是我在我的模拟器里先登录好, 然后让我的代理去操控那个模拟器, 怎么拦呢? IP也全都不同,所有东西都会全都不一样。 而且小米在做 MiMo V2 的同时 当然也会做一个 MiMo Claw 放进去, 还会把 OpenClaw 连移动端也一起做到这里面, 想把 Claw 放进去,那 Apple 会不做吗? Google 会不做吗? 都会做的。 这就是分辨不出来。 所以归根结底,做一下思想实验的话, 如果去找内部某种新的纳什均衡点, 这是一场拦不住的游戏,而现有的那些经营者 都是有可能被去中介化的。

Bundle-Unbundle 框架 42:57

42:59 我们把这个 经常用产业结构中的 bundle、unbundle 这样的表达来讲。 而这个 bundle、unbundle 的表达 最能把它图示化并解释清楚的人 就是 a16z 的 Benedict Evans。 那个 Benedict Evans Andreessen Horowitz 之所以有名 是因为那句 “Software is eating the world” 这个说法大家都很熟悉嘛。 但现在他们又在推 “AI is eating the world”, 而这个 “AI is eating the world” 框架的提出者就是 Benedict Evans, 归根结底,这样说应该是对的, 就像前面说的那样, 某个产业的范式会不断发生变化, 每当媒介发生变化,从纸媒走向电视时, 从电视走向互联网时, 从互联网,也就是从网页走向移动端时, 以及现在从移动端走向 AI 时, 某些 distribution 渠道 我们现在称之为 distribution layer, 每当新的 distribution layer 出现时, 整个牌桌都会被掀翻一次。 所以你看以前的报纸、杂志或者电视, 广播就是这样的。 电视剧和新闻要这样编排, 中间要插广告,像这样, 他们会用自己打造出来的媒介力把整个框架卡得很死。 这就是我们所说的 bundle。 通过这种方式把 bundle 强加给客户。 那客户就会把它当成理所当然地去看, 也正因为如此,媒体经营者才有了生意, 但随着互联网到来, 这些东西就全都被 unbundle 了。 就这样被 unbundle,而且再一次被 unbundle 之后, 过了很长一段时间, 如果那个 layer 里出现了某个支配者, 它又会利用这种支配力把这些重新 bundling 起来。 然后接下来又会再 unbundling, 这其实也和进化算法一模一样。 随着某种环境的变化, 会不断产生 diversification, 一旦出现 diversification, 其中就会出现某一个胜者候选, 当胜者出现时,说胜者候选出现了, 也就意味着已经发生了若干次 selection, 而在 selection 完成之后,它又会成为支配物种, 经过 amplification,再去创造出一种新的环境, diversification、selection、amplification, 这三者像 Ralph loop 一样, 永远循环下去,这就是基本的进化算法, 这里也是同样在运转。 所以关于 bundle、unbundle 的 重复例子其实非常多。 而 Benedict 说的是, 我们所知道的 几乎绝大多数 B2B SaaS 应用, 其实都只是 Oracle unbundling。 说得极端一点,只要有 Excel 和 Oracle, 基本什么服务都能做出来, 只是把它们针对各自不同的使用场景 全部拆开 unbundling 了的时代而已。 而 AI 时代,归根结底,几乎绝大多数服务 都会是 ChatGPT unbundling。 不过这个我们已经看到了。 在最初的时候,我们去 ChatGPT 那里 写代码、做研究、搞法务,什么都做过, 但现在不管是做了什么 Context Engineering, 还是和别的 harness 的组合, 又或者是专用模型, 都再次在发生 unbundle。 当然,如果在那里竞争输了, 也会被更大的经营者重新 bundling 进去, 但 bundle、unbundle 这个 framework 对理解产业来说 是一个非常好的 framing, 所以我特意花了点时间来解释一下。

既有企业的 UX 摩擦与去中介化 46:28

46:28 那么如果站在现有经营者的立场上, 来做一个思想实验的话, 这个他们大概几乎是很难防住的。 客户为了变得更方便而离开, 这要用什么办法才能拦住呢? 对。现有的经营者们 所谓的 UX,我说得直白一点, 我觉得正在走向终结,不过说已经结束又太过了, 虽然还会花上相当长的时间, 但因为 AI,现有 UX 全部会被 unbundle, 这会是下一个趋势, 所以现有经营者搭建起来的一种媒介力, 以及借由这种媒介力做出来的盈利区间, 从客户的角度看全都是摩擦。 都是 friction。 而这些 friction 其实全都是利润。 从经营者的角度看,想做这个就必须做那个, 这样设计好的 UX flow,以及其间存在的 大量广告库存, 还有在旁边、下面、上面存在的 cross-sell、upsell 区间。但代理一来, 正在把这些全都消灭掉。 快得多。那结果上会怎样呢, 现有经营者会成为其他代理的 function call 的可能性 非常大。 挡不住。

47:42 既然挡不住,说实话我觉得最好的办法 除了赶紧一起跳进这场战争之外 没有别的答案, 如果再往前推进一点看 归根结底,像这个 OMO.BOT 这样,某种在用户眼前 很可能成为最顶层触点的东西 我觉得像 OpenClaw 这一类 是非常强的 candidate。 Jensen 这次甚至在 GTC 上 说了“Are you OpenClaw ready?” 这样的表达。 不管是所有企业还是所有个人 都得有 OpenClaw 战略。

48:20 如果从客户的角度 从我成了 OMO.BOT 的客户这一立场来想的话 我们经常用董事长这个 analogy, 因为 AI,所有人都正在变成董事长。 所以新的职业本质 在我看来,真的就是 我们不是说是我们的 assistant 吗。 已经是在做秘书供给业了。 不是提供手段 而是得卖“解决完成”本身。 所有人都正在转向这种生活, 我会有这样的感觉。 现在是快速适应远比什么都更重要的局面, 我有这种想法。 所以我 因为在这类创业和业务领域里, 谁要是拿着什么商业计划过来 问东问西的话 我就会问,这是汽车比赛、还是自行车比赛, 还是帆船比赛。 汽车比赛只要钱多就一定赢。 只要买更好的车 开稍微差一点车的人 就绝对赢不了。 当然,这要以车手的实力 都已经被拉到同一高水平为前提。 因为几乎都已经被拉平到高水平了 汽车比赛说到底就是拼钱。 自行车比赛则是我有多努力 再加上一点判断。 是先冲出去,还是留在后面。 帆船比赛和前面这些不一样。 汽车比赛和自行车比赛这两种 领着比赛走的都是领跑者。 领跑者一变,后面的人 就全都跟着反应, 比赛就是这样运转的, 但帆船比赛有点不一样。 后发选手一旦改变方向 前面的人全都得跟着改。 因为重要的不是我自己有多擅长什么 而是外面吹什么风要重要得多。 在我看来 现在这个由 AI 之风主导的局面 强得惊人,所以后面的后发经营者们 如果采用不同的战略 其实就会变成 一个所有领域都得 counter 的比赛。 我觉得所有领域 都是可以 counter 的。 因为既然他们的制作成本下降了 现有经营者的成本也都在下降 这就再次回到了哲学和时机之争, 我是这么想的。 所以从现有经营者的立场看 与其只是观望这到底会怎样 不如去适应这个世界 无论如何都得一起改变, 我有这样的想法。

适应竞争的时代 48:52

50:49 但不管怎么说,在这期间 我要在这场游戏里拿到什么样的防守点。 就像我们前面说过的 把 non-verifiable 变成 verifiable 的 某种东西可以成为 moat 一样 在商业里也是 有这些可能成为 moat 的领域, 因为本质上 现在大家玩的都是同构的游戏 所以这里面也同样存在。

1/10x 效率 vs 10x 新业务 51:10

51:15 总之我们经常讲 10x, 这是我们公司一位工程师 振旭给过我的一个 frame, 原本用的是五分之一、五倍这样的 frame 但最近 10 这个数字正流行。 我可以把 AI 投入到两个方向。 把效率最大化, 让原本要花 100 的东西变成 10 留下 90 的利润,或者 干脆去一个新的地方 创造出新的 900。 现在几乎绝大多数的 AX 都只是追求效率。 而后面那种真正再造出另一个 10 倍的东西, 这有点像 zero to one, 我觉得这个还没开始。 而且我觉得很快就会开始。 归根结底从我们的立场来想的话 两个都得做,两个都得做, 我们是这么想的。

52:08 上周流行的一篇 article 里 讲的是 AI 会强化什么样的人, 里面有一篇叫 10x lawyer 的文章。 只看总结的话,归根结底就是 被强化的人群其实是另外一类。 所以现在的组织, 这是以前拿这个律所举例时说的话, 最顶层的合伙人, 然后是 senior,再下面是 junior, 以及他们以团队形式运作。 实际上几乎绝大多数的 value add 都是因为少数几个人的决定性贡献才产生的, 但其实商业模式本身 是按团队单位按时间收费, 下面我不知道做没做调查, 但它是连 associate 律师都全部收费的这种形式, 商业模式就是这样构成的, 这同样也是在被 unbundling。 一个更优秀的人, 一个具备资深能力的律师, 跟代理结合起来, 变得便宜得多、也快得多, 一旦开始让客户满意, 对客户、也就是需求方来说, 明明有更好的东西, 却仅仅因为以前一直用这个、没有任何别的理由, 还去买更贵的东西,这种事也就一两次而已。 变化肯定会发生得非常快。 所以一旦那个轴开始转动, 就会一发不可收拾地 发生改变,我讲的就是这个意思。 同时,最终能尽快成为 10x talent 这件事到底有多重要, 再加上这是一种无法逆转的 商业结构变化,必然会发生, 这其实虽然说的是 10x lawyer, 但 10x engineer、10x doctor, 还有 10x something,不管什么都可能出现, 所以这才会出现。 而且因为这种 dynamics, 现在组织全都很混乱。 AI transformation 都是以这样的结构发生的。 因为这点一直都很有意思, 我去过各种各样的公司, 也介入过各种各样公司的业务, 真的是由一群精英组成的公司, 和由普通人聚在一起的公司, 还有并非如此的公司, 各种类型的公司我都经历过, 但有趣的是,把人聚在一起, 好像总会变成正态分布。 就算只把厉害的人聚在一起, 聚起来之后,其中也一定会有最厉害的人和 不那么厉害的人, 以及处在中间的人出现, 然后他们之间的 dynamics 就会分化。 而且这种形态在各个组织里 几乎都是同构的。 是 isomorphic 的。 这些东西非常重要, 所以我想在这张幻灯片里说的是, 虽然说的是 AX,但归根结底是那些想要改变、 真正能敏锐适应这些东西的少数人, 以及必须快点走,没法把所有人都带上的这件事, 我想表达的是这个,所以才写了这段。 我刚才说追求效率, 追求创新。 做成 1/10x 虽然实际上我说这是在追求效率, 但用商业术语来说就是 better, faster, cheaper, 接下来做成 10x 也就是 zero to one,其实才是在做 innovation。

即使接入代理,距离 10 倍仍然很远 55:19

55:21 我来到美妆业务这边, 想借助 AI 去打造的,恰恰就是这个结构。 我并不是想做一家卖商品的公司, 而是现在这种全都在卖商品的结构, 要怎么全部转成卖服务的结构。 这才是我想做出来的东西, 所以说 back-office,虽然大多数公司都是这样, 前端永远有客户,后端有什么呢, 有供应链网络。 有 supply chain, supply chain 去获取效率, 然后向客户提供创新,这就是 我的计划,虽然还没完全做成。 实际上,接下来我们这边也是 有现在正在推给客户的东西, 也有还没推给客户的东西, 但我所设想的一些原型,几乎都已经做出来了。 所以如果有人问,公司要是 autonomous 地运转, 应该就是这个样子吧, 那我的公司里大概全都有。 所有数据上都接了 AI, 上面也全都接了代理, 还有 prompt 之类的东西, 而在这些代理之上, 又接着别的 meta 代理, meta 上面还有 meta,这样一层层叠上去。 我把所有公司的业务, Claude Code 不就是把这些都变成像选择题一样吗。 你问它什么,它就让你从 3 个里选, 或者从 4 个里选, 像这样,我作为 CEO 必须做的事 也不是每天都亲自去做, 而是让代理拿着 1、2、3、4 过来让我按的这种结构, 我几乎都改成这样了,所以这些都有, 即便如此,公司的生产力变成 10 倍了吗, 现在还没有。 我觉得还有一些更根本的东西 需要改变。

57:03 我说要用 AI 来做生意, 这么折腾一做,已经远远超过 4 年了。 所以从 2021 年开始,我也做过模型, 也做过 diffusion 模型,试过接 LoRA, small language model, 还有什么代理 SDK,没有什么是没试过的。 把当时业务里有的那些东西 在那个时候能接的全都接上,全都试过了, 但全都不行。 不过现在行了。 从去年开始,模型一旦越过临界点, 那些原本做不到的事情就全都能做到了。 而且连我想亲自做出属于自己的东西这件事, 都显得黯然失色, 因为依赖 frontier model, 就变成了一个什么都能做到的世界。 当然也会后悔。 如果什么都不做, 到去年再开始,不才是效率最高吗, 也可能会这么想, 当然,这中间经历过的无数失败 我还是认为是有意义的。 我个人是那样 在安慰自己, 就像 正圭 上次来时 说过的内容很类似。 作为人类的 正圭 虽然很难过, 但说公司 Lablup 很不错, 我也有完全一样的感受。 这个追求的方向 我不是说过有两个吗。 做出这种 efficiency,实现效率化这件事, 我们也做过非常多的 trial, 只说答案的话, 还是老板亲自做最快。 说实话,从结果来看,一开始也是我最先 先说“把某种原型做成这样不就行了吗”, 做出来给大家看,这才是起点。 然后再把 AI native、 native 的人才招进来, 跟他们说“你这样试试,那样试试”, 事情才开始转起来,而且在转的过程中 也保障各自的自由度, 有的人做了自己的一套 harness, 有的人拿来某个框架跑, 框架方面也是,有的人拿 Pydantic, 有的人拿 LangChain, 这些我们都允许了,但只说结论的话, 这跟我们刚开始聊的内容有点类似, 因为问题的目标和评估标准都很明确, 这也会归结为 optimization 问题, 而在不断对这些进行 optimize 的过程中, 各自收敛着做出来,结果全都做完以后 就会出现一个最伟大的方法论。 只说那个答案的话,最好的就是别做。 把数据连接器干净利落地做好, 把 prompt 写好,再把 frontier model 和 Claude Code 或 Codex 之类接上, 性能是最好的。 这个是我们 one of N,也就是一位聪明的工程师 用他做过的方法论,让全公司都转成那套方法论, 就这么转过来了, 而其他人真的是用了各种各样的 不同方法去做, 但那位朋友说,正石,没那个必要。 反正我们是在做自己的 harness, 那直接用最终极的 harness 和 最终极的模型不就行了吗, 没必要去做那件事。 所以说,数据连接器,换句话说 把数据连接器干净利落地做好, 然后把描述这些数据的 prompting 做好, 对于我们原本必须达成的目标 把那个目标、objective、spec 用 prompt 干净利落地写出来, 在这上面下了非常大的功夫。因为要想把 prompt 写好, 其实重要的不是工程能力, 而是对那个 domain 的理解。 那个 domain 到底是什么样子, 即便是工程师,也要去跑模型, 并努力理解公司里的那些数据, 这样把 prompt 写好,事情就结束了。 所以对我来说,最后那句话 就成了我的答案。 别想着做别的,就是这个。

兜兜转转,原生方案才是答案 58:12

崔胜准 1:00:51 感觉上像是兜兜转转又回到了纯原版的感觉。

卢正石 1:00:55 对。这件事真是说出来都觉得难过。 这段时间投入的这些巨大的努力 和时间,这些东西兜兜转转之后 最终答案竟然是依赖模型的 capability overhang, 意识到这一点,也就只能认了。 不过问题是,也有好的一面。

1:01:20 虽然我现在说得这么伤感, 但最终在这期间积累下来的 无数试错中的例外情况,这才是我的价值。 我记得 正圭 也说过同样的话。 对这期间产生的无数例外情况的 distribution 全都在我脑子里, 这似乎就是我拥有的力量。

10x New Biz 是 Entrepreneur 的领域 1:01:38

1:01:43 10x new biz,这个更难。 但如果只说结论的话, 这让我感觉就是和我自己做新业务 在本质上完全一样。 这个事情如果负责带头的人 对它感受不到愿景,那就一定不行。 所以即便老板说这个这个这个会成, 再怎么下达“把这个做出来”的任务, 在下面的人看来 如果那个问题不是 better, faster, cheaper 的问题, 而是 innovation 的问题,就很难解决。

1:02:19 所以那个层级的领导者要么彻底去学习, 要么获得某种顿悟, 从而升到下一个层级,达到接近企业家的层次, 这其实也是我一直在说的话, 在 AI 时代我们作为人该具备的德性, 到底什么样的人会活 下来,谈到这些问题的时候, 那些能留下来的人所属的类别、特性、characteristic。 我只能想到,这就是企业家。 如果没有 entrepreneur 这种气质, 真的就没什么事可做。

1:02:52 往严重了总结就是这样。 因为你们 想做的那些单纯重复性的工作, AI 会做得好得多。

崔胜准 1:03:01 那我就会好奇, 前面说的 1/10x 效率和 10x new biz 之间会有因果关系吗? 会有相关关系吗? 它们彼此是 orthogonal 吗? 是独立的吗?

卢正石 1:03:12 我觉得可以这样总结。 归根结底,objective 的性质不同。 前面那个很容易设定 metric。 objective 和 evaluation metric 都是清晰可见的, 而后面这个问题呢。 objective 和 evaluation metric 是不存在的领域。

崔胜准 1:03:32 也就是说,不管效率提得再高, 也还是无法跳到后者那边去,对吧。

卢正石 1:03:37 去不了,去不了。 所以归根结底,我在这里也还是没有答案。 这是我觉得有些模糊的部分, 这里最终还是要看对那个领域非常了解的 聪明企业家的意志是最重要的领域。 所以这个就只是和创办创业公司 在本质上感觉是完全一样的。

1:03:58 所以我之前 看着我们在 OpenClaw 聚会上见到的这些年轻新锐们, 看着那些给我们带来新鲜 unlearn 的天才们 我觉得那些朋友们已经到了 那个层级。 他们似乎已经领悟了某种方法论,并且正拿着那种方法论 去思考 要把它应用到什么样的业务上。 所以我非常好奇地在看 他们会走向怎样的 创新领域, 并创造出什么样的新东西。

崔胜准 1:04:32 长江后浪推前浪,这句话让我想起来了。 一直都是新一代做成了这件事。

卢正石 1:04:39 后浪本来就会推着前浪走。 所以我也会觉得,我们也得好好被推下去才行。 所以看着那些朋友们,我很羡慕。 也会觉得韩国的未来很光明。

崔胜准 1:04:53 你们已经在做的那些策略也很有意思。 不只看国内,也看海外, 而且为了获得影响力 去聚拢那些创业明星,或者说 努力去拥有 influencer 那样的态度之类的,也能从字里行间读出来, 成了非常好的刺激。

卢正石 1:05:13 如果静静观察那些东西, 用我们之前说的这种 optimization 逻辑 它们全都是可以还原的活动。 如果有人给企业贴上一个议题, 那其实本身就成了我们整个项目的单位 objective,一旦 objective 被设定好, 因为那是一个明确的问题, evaluation metric 就是模型 可以自己抓出来的, 那么一种能够 自行发生进步的生态系统就被构建出来了。

1:05:43 非常非常聪明。 所以一边宣传这个 一边持续提升 recognition 也许才是人类该做的最重要的事, 而他们本质上正是把这件事做得最好。 也很会说。

1:05:58 结束后我过去问了。 问了艺灿。艺灿这么年轻, 是怎么得到这么深刻的领悟的 我这样问了之后,他就回答说,真的是在牵涉到钱的问题上 拼上性命去战斗的话 不就会变成这样吗。

崔胜准 1:06:10 是独自去 hunt 的吧。

将整项工作彻底取消 1:06:15

卢正石 1:06:19 对,就是正解。 我们在公司里 不是做了无数 AX 项目吗。 但做 AX 项目时经常做的事就是 组建 AX 团队,然后那个团队怎么做? 到各个相关团队去收需求。 收了需求之后,再做出点什么给他们的形式 来结构化项目,但我写的意思是 不要那样做。

崔胜准 1:06:38 为什么不能那样做呢?

卢正石 1:06:48 做出来反正也不会用。 AX,因为那个组织的激励机制 是这样的,某个人,某个知识劳动者正在做某项工作, 不管我们是营销人员 还是策划人员,或者 是经理,所做的工作 并不是只有那个头衔所对应的 那一项工作。 而是由非常多的工作构成的, 比如说 AI 介入进来 把他们正在做的工作中的一项给取消掉了。 那么那些人就不做那项工作, 应该转移到更有生产力的工作上去才对。 他们会转移吗? 绝大多数都不会。 如果仔细看他们的激励机制, 我为了走到今天这一步 吃了多少苦,做了多少苦活 才练会了 Excel 和 PowerPoint 的快捷键, 很多时候本质上是“我就是想继续做这个”。 然后一边做这个 一边想轻松拿钱, 为什么要叫我别做我原来在做的事, 还把我赶去做不想做的事 这样的 push, 我在很多案例里都感受到了。

1:07:53 要做这个的话, 不管是 owner 还是最高层领导层, 对 AX 的那个本质 我觉得都必须准确理解, 目标不该是“请帮帮那个团队”, 而应该是“请把那个团队整个取消掉”, 这才是成功 AX 的出发点。 所以这并不是说 要把那些人裁掉。 而是那些人原本拥有的单位工作之类的东西 要彻底取消掉, 然后把他们转到新的岗位上, 不然就算往那里再加点什么 也不过是把 PowerPoint 和 Excel 用那个来替换而已, 从公司的立场来看 不会有任何 marginal 的生产率提升。 单位人力在摸鱼的时间 倒是可能会变得更多。 但如果去想,那真的是企业做 AX 的理由吗, 我觉得恐怕并不是, 现在在做的这些 AX 至少那些发生在大企业层面的 AX 转来转去转来转去 最后很可能都会变得毫无意义, 我是这么想的。

1:08:58 因为我亲自做过之后,在我的小公司和 然后还有几家公司里 我亲自试着推动了一下AX, 发现会有那样一些感受到的洞见 我想大概说一下这个。 归根结底,从公司的立场来看 其实追求效率这件事 和创造新业务这件事都得做, 能创造新业务的人 依然是那些有企业家感觉的人。 而且那样的人是存在的。 一直都存在。 不管哪里,仔细找找都会有。 赶快把那些人找出来 让他们快速去寻找新东西然后离开 再把激励拉到极致,而不是这样的话 我想比较适度地 去做的人 就让他们去负责追求efficiency。

组织重组与 AI Native Talent 1:09:10

1:09:50 那么等他们经过之后, 做这件事的人 从某种意义上说,以我的标准来看 就是AI native talent。 等AI native talent们经过之后, 严酷的哈内斯就会诞生。 那么那些不想改变的人 就会被放进那个严酷的哈内斯里。 然后就有可能会工作得辛苦得多。 反过来,不是人下命令、AI执行 而是人类进入AI做出的哈内斯 那样一种反乌托邦的世界 会进入那里面的概率 现在让我觉得是高得多的。

崔胜准 1:10:28 虽然已经算是过去的新闻了, 但当时埃隆收购推特的时候 Jack Dorsey对于裁员这件事 当时是非常反感的,但结果Jack Dorsey自己

卢正石 1:10:35 裁了非常多。

崔胜准 对,最近。

卢正石 1:10:38 几乎裁掉了几千人。

崔胜准 1:10:39 好像是四千人吧,总之那像是反映时代状况的 某个侧面之一, 从那个角度来看,正石刚才说的话, 从公司层面 有一部分显露出了某种视角, 我今天一路听下来感觉 现在二十多岁、正在上升的人们 反正与其待在伞下 都是今后会往前冲的人 所以要保持好的关系 要尊重并引导他们 需要那种彼此保持良好关系的做法,

1:11:14 至于在公司内部做效率化 如何达成效率 从某种意义上说现在已经是理所当然的了。 这已经是在发生的事了,如果不做 反而会落到下面。

1:11:23 但是走向创新 可能是一个与那个独立的、不同倾向的问题。

卢正石 1:11:33 我觉得可以这样归纳。 反正我也不是喜欢这些的人 我喜欢技术性的东西,也喜欢做东西, 但是在公司经营这一边 不断把这种动态拉进来 再转化成业务去做 于是现实,以及接下来短期必须追求的理想, 长期必须追求的理想, 这些东西好像就慢慢抓住了。

Prompt Injection 与隔离式运行 1:11:51

崔胜准 1:11:51 现在这说到底,agent这件事, 我们之所以能把agent用好 是因为prompt, 但如果agent吃了injection进来 也确实会有连2FA这种东西都被突破的风险吧。 那个从根本上 不是没法解决吗?

卢正石 1:12:10 我觉得会是那样。 我觉得连2FA也有可能被突破。 因为agent把邮件也看掉就行了。

崔胜准 1:12:13 所以这其实是和安全相关的问题 让我感觉好像有个巨大的东西 正在一点点冒上来。

卢正石 1:12:25 所以我也没敢在我的笔记本上 装OpenClaw。 所以我就为了OpenClaw 装了个VM,重新起了一个Linux 再在那上面跑OpenClaw 把各种东西都测试了一遍, 发现这个能行,于是觉得啊,这个还挺擅长这些的 产生了这样的想法之后 在外面那个 我又弄来了一台DGX box 现在正在那上面一路把OpenClaw配置好 把需要给它看的 最少限度的数据之类的东西放进去。

崔胜准 1:12:53 但如果不给它我的credential 作为秘书的话,不是价值就下降了吗?

卢正石 1:13:02 对,所以像和社交相关的部分 或者和金融相关的部分,我现在还不能给 只是一些单元task,就算这份文档整个被发出去 对我几乎没有风险的事情 我才交给它去做。

1:13:18 所以说这个 其实并不是因为 我不想让模型拿到我的个人信息。 那个就像前面说过的 我觉得先把我的东西给出去,从而得到更多 对模型来说是重要的,

1:13:27 但像OpenClaw这种情况 是因为它所拥有的自主性。 它会替我做各种各样的判断, 如果它觉得啊,为了主人我得这么做 那它也可能就直接做了。 所以关于那部分,我还是有一点 想继续观察看看。

崔胜准 1:13:43 不光是那个,它也可能被洗脑后再进来啊。 agent会吃injection。 那个没法从根本上解决 现在还是 因为那是个很棘手的问题 我觉得这也可能会发生一些事故。 所以大概大型企业 也在考虑这个吧,这样一种想法。 也会不由得这么推测。 但从整体趋势上看,这又确实是不得不做的事。

卢正石 1:14:10 不做不行啊。 所以大家不都拿出来了吗。

崔胜准 1:14:13 从 Perplexity 开始,大家全都在做, 连 NVIDIA 都提到了。 不过与其说是听得很有趣,实际上 字里行间有很多尖锐的话, 不知道各位会怎么接受, 但这毕竟也是 正石 这4年来 真正亲自做过之后 发自肺腑说出来的话。

卢正石 1:14:37 是啊,不过这个也得明确地说, 这是 26 年 3 月时点的快照, 而且我自己一天里想法都会变 20 次。

崔胜准 1:14:42 要是回到去年 3 月、4 月左右, 那会儿还在说 正石 和 ADK 太厉害了。

卢正石 1:14:46 那时候 Claude Code 才刚出来。 Pydantic 是最简洁也最不错的。 我们当时还在说就用 Pydantic 吧, 那就是去年的 3 月。

崔胜准 1:14:59 而且我大概到 4 月左右的时候, 还在想是不是 Chrome DevTools Protocol, 用 CDP 来做浏览器代理实验, 但现在的话, 这些都已经变成随便就能做好的事了。

卢正石 1:15:06 就算在那时候,我也是接上 GitHub Copilot 做 Tab 编码的时候。 代码的主导权 还是我自己掌握着,只是接受辅助而已, 所以转去 Claude Code 让我有点不舒服。 说实话,完全走向代理式编码这件事。

崔胜准 1:15:22 现在要转向 OpenClaw 这件事上, 其实我心里也多少有点抗拒, 所以没法一下子就切过去。 不过类似的情况应该会有很多。 但该去还是得去,这点好像没错。

像帆船比赛一样跟进 1:15:33

卢正石 1:15:33 所以我也把自己的人生看成,啊,这是一场帆船比赛, 只要风向一变,如果是那些年轻人在做的事, 我也必须无条件一起跟上, 我就这么转变了想法。 所以说,那些人其实 我最近也经常和他们交流, 也见过一次九峰先生。

崔胜准 1:15:59 九峰先生、延奎先生、艺灿先生,还有 之前上过我们节目的元俊先生也一直在 尝试建立那种动态关系 的事情,而且从很多角度看都很有意思, 现在 20 多岁、30 多岁的人们这样活跃着, 真的是一下子就映入我眼帘了。

卢正石 1:16:19 民锡先生也是,民锡代表也把那个做起来了。 公司最终似乎也朝着和 OpenClaw 类似的 助手这种方式来定方向了, 所以把民锡先生请来一次, 聊聊他到底抱着怎样的商业 thesis, 感觉也会很不错。 还有我在外面到处跑的时候, 总会说我们有年轻又新鲜的人才在, 像延奎先生、艺灿先生,或者

崔胜准 1:16:41 还有振炯先生也在, 振炯先生他们好像把这些人全都认识。

结尾 1:16:45

卢正石 1:16:49 那今天就先聊到这里吧, 注意保重身体。 这是必须好好照顾身体的年纪了。 那今天就先在这里结束吧。 谢谢。

崔胜准 很有意思。 谢谢。