AI Frontier

EP 84

来了解 Physical AI(sudoremove 代表朴钟贤)

· 卢正锡, 朴钟贤 · 1:24:02
整页
查看本期参考资料

开场与嘉宾介绍:朴钟贤(sudoremove) 00:00

00:00 卢正锡 今天录制这期节目的时间是 2026 年 1 月 31 日,周六早上。今天请到的是我非常喜欢、最近也看得特别特别多的频道。我们请来了 sudoremove 频道的朴钟贤先生。

朴钟贤先生和我们开过几次会,现在我们最关注的就是 Physical AI。每次见面他都会不断提到,在这个 Physical AI 里似乎会有机会,而且这部分他一直在持续追踪。所以今天我们想通过钟贤来学习这个 VLA 概论,看看正在发生什么、里面是怎样的,以及我们需要思考哪些点。今天就请他来当老师了。欢迎您。

00:49 朴钟贤 大家好。首先我不是老师,我也在不断学习。我一直对大家的表达是,我们都是一起前行的同修,我自己也有很多不足。先说我们这边的话,我感觉大概有一年了。

一年前我还在努力 follow-up LLM,当时 DeepSeek R1 出来,reasoning 模型这些我也亲自做过。那时候第一次跑 VLA,我开始觉得这个有潜力。再回看去年,Physical AI 这个关键词在媒体上也确实越来越常见了。

其实我觉得主要是 NVIDIA 在推,但为什么这个关键词会火起来,如果想一想的话,现在这个世界里毕竟已经有了 LLM,大家也在想 AGI 时代可能会到来。不过如果把智能再拆开一点看,LLM 在做的事情大多集中在 coding、数学、推理这些部分。

但我们在 follow-up 的过程中感受到,这种智能和我们进行物理动作的智能,还是有些不同。

所以关于这种物理智能,原本 LLM 正在解决的那些智能行为,我先暂时归类成 Cognitive Intelligence(认知智能),而旁边的 Physical Intelligence 有什么特征、我们该怎么去解决它,今天就来聊这个。

02:24 卢正锡 今天应该会非常有意思。

最新机器人 demo:Boston Dynamics Atlas 与智能的意义 02:26

02:26 朴钟贤 先从 demo 看起。因为很多人是听播客,机器人这块视频很多,如果可以的话我建议尽量看画面。先看这次 CES 最火的 demo,不只是韩国,全世界都很火,就是 Boston Dynamics 的 Atlas 这台 humanoid 展示了这些动作。

02:56 卢正锡 很惊艳。

03:03 朴钟贤 特别是这个动作,我觉得是最受欢迎的。它展示了像人一样 wave 的动作,还有新的机体,结果母公司现代汽车的股价也大涨,关注度非常高。那如果我们看这些行为,会想这里面到底有什么智能。我个人看法是,因为并非完全公开,无法确定,但我觉得其实没什么特别的智能。看 demo 就是起身、行走、重复同样动作。所以这和“这种情况这么做、那种情况那样做,快摔倒时突然稳住重心,飞来一个物体也能手部反应抓住”这种能力并不一样。所以我认为这并不是我们以往说的那种有智能的部分,只是机体本身太优秀了,所以大家才高度关注。

但 Boston Dynamics 的 Atlas 在这次 CES demo 里虽然没展示需要智能的任务,不过去年有相关研究出来。他们用 Atlas 展示了只有具备智能才能完成的事情,真的是在劳动。什么叫需要智能?比如旁边随便有东西掉着,也就是不知道某个物体会以什么方式交互,在这种情况下它还能对应动作。看这个视频就知道不愧是 Boston Dynamics,还会拿 хоккей杆去“欺负”它,但怎么扰动它都能自己完成动作。其实这对人类是很简单的事,但覆盖这种动态场景原本是做不到的。现在看起来能做到了,所以不管什么物体都能自己抓、折、去干活。Atlas 现在运行的这个形态里用了一个叫 LBM 的模型,和 VLA 类似。

虽然母公司是现代,但这个是和 Toyota Research Institute 一起做的,做了 LBM,把模型放上去驱动动作。总之这种事最终都是需要智能的,而且正在一个个出现。

加入触觉的 VTLA:Sharpa CraftNet 05:14

05:19 朴钟贤 所以这次 CES 出来的机器人和模型里,我们印象最深的是这家叫 Sharpa 的公司,我也是第一次听说。他们出了一个叫 CraftNet 的 VLA,展示了什么呢,就是发扑克牌。按我看这可能是第一个 demo,这种发牌手。这个 CraftNet 我前面叫它 VLA,但他们又起了一个名字,叫 VTLA,是 tactile,也就是带触觉的 demo。前面的 demo 里有像折风车一样的纸艺动作,这种没有触觉是很难完成的。也就是说,开始首次出现通过视觉、语言、触觉来生成动作的模型。我觉得这就是当前阶段。

Figure Helix:end-to-end 控制的登场 06:12

06:15 朴钟贤 再看一个最新的机体,Figure 这家融资很多的公司,上周发布了一个叫 Helix 的模型,直接在厨房里干活。它会走来走去拿东西、整理。这里我想只看一个点。看到它用髋部一顶把东西顶进去时,我会觉得这真的训练得很像人了。这个 demo 里写的是 autonomous。

但我稍微想一想,其实和 teleoperation 做出来的差别,在这种大概 4 分钟不到的 demo 上,包括用脚抬起这些动作,我们会这么说:4 分钟左右的 demo,和高级 teleoperation 其实差别不大。只要我们做几百次 teleoperation,采集那样的动作数据,再照着训练,结果可能不会差很多。虽然如此,依然很厉害,毕竟它做出了像人一样动作的全身 teleoperation 模型。先说到这里。他们想强调的是,4 分钟已经算很长的连续动作都完成了。然后让人惊讶的是像那种顶髋、用脚抬东西这些类人动作。

他们还想强调的一点是,文档里说原来大概 10 万行 C++ 的 low-level control,全都被模型 end-to-end 替代了。这本质上和 Tesla 的 FSD 在自动驾驶里想强调的是同一件事。end-to-end 之后代码在消失,rule-based 时代那些逻辑在消失。方向大概就是这样。

08:03 卢正锡 这就是 Tesla 精准展示过的那条 trajectory,那条轨迹。

08:13 朴钟贤 看起来机器人也在沿着同一条路走。先到这里,刚才算是快速看了最新 demo。现在外界非常频繁使用 Physical AI 这个关键词,所以我们今天先把 Physical AI 的定义收窄一点,先明确今天我们说它具体指什么。

Physical AI 的定义与范围 08:17

08:33 朴钟贤 我理解的 Physical AI 是什么呢,以前大量由 rule-based 写出来的逻辑,这些看起来会消失。就像 Helix 刚才主张的那样,通过 end-to-end 学习覆盖各种非结构化场景,真正把物理智能放进去,并由此发生变化的东西,我想把它定义为 Physical AI。这个我再稍微展开一点。

首先 Physical AI 这个词本身,NVIDIA 大概两年前就开始用了,机器人领域里也一直在说会出现 ChatGPT moment,我也觉得确实可能如此。不过 NVIDIA 对这个词的使用范围更宽。只要是有物理动作并嵌入 AI 的东西,不只 humanoid,像机械臂在模拟器里运行,或者我们在餐厅常见的送餐机器人,他们似乎都算作 Physical AI。

这当然也不算错,但我们频道关注的不是这个,而是 VLA,或者也可能不是 VLA,总之是以某种形式做 end-to-end 学习,能做 general 任务的机器人,也就是搭载这种智能的机器人。我们先把这个定义为 Physical AI,今天的讨论就在这个范围内进行。

10:16 卢正锡 好。

所以我为什么这样定义,是因为我感觉这里有一个很明确的分界点。LLM 之前其实也有很多可以称为“智能”的东西,但 LLM 出来后完全不一样了。类似地,我也认为基于 LLM 的物理智能实现同样完全不同。那到底哪里不同?其实和 Physical AI 这个词火起来的原因一样简单,就是原来做不到的现在能做到了,那些过去做不到的事。

以前做不到什么呢?比如这个,叠衣服。这段是我自己拍的。看这个 demo,衣服晾在那里,它就会自己摊平、折叠、叠整齐。回想机器人,行走以前也能做,虽然没现在这么好,但我感觉行走其实是个比较小的 task。因为关节数量并没有那么夸张,如果只看保持平衡并前进,那行走虽然也难,但真正难的是面对不平整台阶、障碍物以及各种地面都要适配,比如森林里的泥地。

叠衣服其实同理,里面有智能,因为行走场景是非结构化的,不知道地上会有什么。叠衣服、搬物体也是这样。你可能觉得叠衣服没什么,但这和搬运刚体是完全不同的问题。我们称之为 deformable object。首先它很难模拟。虽然只是折衣服,但衣服是软的,动作稍有不同,形状就会非常多样化。要覆盖这种巨量多样形态,本质上就需要智能,而现在已经能处理这种 deformable object 了。

从做不到到做得到的时代:叠衣服与 deformable object 10:49

12:32 卢正锡 另外还能做什么呢?刚才看到的 Helix,这次是 Helix 第二版,第一版出来时他们也做过这种展示。是在物流里做劳动,这个是塑料袋箱,它是 deformable 的,所以仿真难、computation 成本高。而且不知道里面装了什么,我们一抓它形状就会乱变。人类即使不知道里面是什么,也能很好处理这种东西。现在这种 demo 开始出现,就会感觉这里也在一点点加入智能,甚至这个 demo 长达一小时。短 demo 可以 cherry-pick,但他们直接给了一小时,证明我们真能做,我觉得这是很有代表性的案例。实际上我也认真看了将近一小时,不是全都成功。

中间也会掉到地上之类。那时看起来还是只用上半身。所以那时候逻辑是 whole upper body,也就是上半身 fully autonomous。

再补充一点,这个前后都要讲,最终这些几乎都是基于 LLM 做的。现在模型在 LLM 里带有一些常识,有 World Knowledge,这些常识是有用的。旧模型没有常识。走路不需要常识,但比如我们说“拿红色杯子”,就算是全新形状、很有创意的杯子,只要看起来像杯子,人就都能认出来。以前做不到。因为现在有“什么是杯子、什么是抓取”这种常识,所以不管来什么形状的杯子都能抓。也就是说 LLM 学了 internet-scale 数据后带来的常识,让这些成为可能。

所以各家公司在提出不同方法,这个我们后面再看。总之就是从不能到能。再拆开解释一下,就是原本 specialist 的模型变成 generalist,成为能应对各种场景的通用模型。我拿一个 vision 的例子,vision 和 LLM 其实一样。回想以前,给一张图问“这是什么”,会有专门 classify 的模型。深度学习出来后,CNN 把这些解开了;但如果问“在哪里”,就要另一个做 object detection 坐标的模型,最有名的比如 YOLO。我们现在视频会议里 Zoom 背景虚化,不用绿幕也能抠出人脸轮廓做背景虚化,这种 segmentation 以前也有独立模型。

language 也一样。要翻译有翻译模型,要做 sentiment analysis 判断正负面有另一套模型。以前都得分开做。现在 vision 也好 language 也好,都不是这样了。打开 ChatGPT 扔张图问这是什么,它会自己解释得很好。task 的边界消失了。一个模型做全部。不管是 GPT 还是我们常用的 LLM、VLM,都是 general 模型。

机器人也一样。以前要让某个特定机体打桌球,就得针对它编码,或者做 rule-based 模型。想让它做咖啡师也得单独做。即便同样是咖啡师任务,机体一变又要重来。这是旧逻辑。未来要做的是一个模型,不管什么机体、什么 task 都做。所以这类东西可以称为 Robot Foundation Model。

从 Specialist 到 Generalist:Robot Foundation Model 14:45

16:55 卢正锡 LLM 也是做 general 任务,所以我们叫它 Foundation Model,这个逻辑同样套到机器人。那为什么能 general?因为 pre-train scale 上来了。现在这个 Robot Foundation Model 大多叫 VLA。VLA 一般怎么做?通常是基于 VLM。先有 LLM,再加上 action。

所以它有常识,会尽可能收集更多数据,cross-embodiment,各种机器人数据都汇总训练,尽可能扩大数据量。就像 LLM 里的 scaling law 一样,这里也有个前提:把所有 task 数据都拿来训练,就会变 general。

那到底做到什么程度?Physical Intelligence 这家公司展示得很好。去年的 4 月他们发布了 π0.5。里面展示的是把机器人装车运到一个全新的家,放进去直接干活。比如让它洗碗。我们去别人家洗碗,也许不知道海绵在哪,但会靠眼睛找。就算海绵长得不一样,只要看起来像海绵,也能找到并完成洗碗。到了新环境也要能做这个。这个 demo 就是在展示这一点:类似的房子,过去都能干。也就是他们在说,我们已经做到这种程度的 generalization。

Physical Intelligence π0.5:泛化 demo 17:53

18:43 卢正锡 这个做 π0 的 Physical Intelligence,就是 Stanford 的 Chelsea Finn 教授创办的那家公司对吧?

18:51 朴钟贤 对。刚才旁边在操作的人就是 Chelsea Finn 教授。

18:58 卢正锡 对,我记得那个实验室还做了 OpenVLA。

19:07 朴钟贤 他们做的东西太多了。无论模型、方法论还是机体都很多。创始团队里学术界有两位,最有名的应该是 Stanford 和 Berkeley 的,Chelsea Finn 和 Sergey Levine,这两位在 VLA 方向做了非常多贡献。

19:31 卢正锡 继续吧。这几乎都是两年内发生的变化。以前 DeepMind RT-1、RT-2、OpenVLA 刚出来时还像玩具级别,但正如你说的,去年这一年发展非常夸张。

19:49 朴钟贤 没错,去年 VLA 真的大量涌现。所以为了避免混淆,我先整理一下术语。我前面混用了 RFM(Robot Foundation Model)、VLA(Vision-Language-Action Model)、LBM(Large Behavior Model)这些近似词,先统一一下。先说现在打造物理智能 Physical Intelligence 的关键要素,目前看是 VLA。VLA 这个名字本身就很直观,我们有 LLM。

VLA 术语整理:RFM、VLA、LBM 19:55

20:27 朴钟贤 我故意拿了个 SmolLM 的例子,是 HuggingFace 主推的项目。给 LLM 加一个 vision encoder 就变成 VLM。像 ChatGPT 这类服务都已经能看图了,本质就是在 LLM 上加 vision,加了“眼睛”。所以 SmolLM 这条线里,接 vision encoder 变成 SmolVLM,这些都公开了。再加一个 action,就成了 SmolVLA。这样就是在 LLM 两侧加眼睛和动作模块,这就是 VLA。多数 VLA 基本都这么构建。

当前这个 SmolVLA 只是 HuggingFace 做的一个 VLA 示例。这条从 SmolLM 到 SmolVLM 再到 SmolVLA 的 recipe 全公开,所以是可复现的 VLA。不过性能不是顶级,算不上 frontier 模型,更像 HuggingFace 风格的可跟做模型。

21:39 卢正锡 为了方便订阅者理解,action 再解释一下。机器人有机体,也就是 embodiment,不同形态马达位置都不一样,有的有手指。通过给马达坐标,才会实际触发动作,所以可以理解成是在输出这些马达坐标,对吗?

22:15 朴钟贤 可以说是机器人各关节角度,也可以说是手的位置坐标。讲成角度最直观。人靠肌肉运动,机器人本质是内部马达转动,所以像“肘关节伸到多少度”这些,都可表示为 action value。

再举个更简单例子,想成游戏就容易了。把机器人换成游戏角色,按方向键嘛。方向键就是 action。向前、向侧面、抬手臂,这些都是 action。

10:16 卢正锡 好的。

22:55 朴钟贤 说到游戏再补一句,现在游戏领域也在积极尝试 VLA,所以游戏公司也非常关注。再分类的话,Robot Foundation Model 本质是“控制通用机器人模型”的目标,VLA、LBM 都是实现手段,各家名字不同,但现在基本在向 VLA 这个名字收敛。或者说 Robot Foundation Model 并不一定只能靠 VLA 实现,也不一定必须从 LLM 来,也有其他路线,所以也有人在做这些尝试。至少目前 VLA 和 Robot Foundation Model 基本是对齐可互称的。 那它能不能成?我觉得能,乐观的理由就是我们已经看到了 LLM 成功。照着做,这边也可能成,我是这么简单判断的。

核心瓶颈:action 数据不在互联网上 24:01

24:05 朴钟贤 那 LLM 为什么聪明?我看最核心当然是 scaling。其中第一是 pre-train scaling。它看了互联网上几乎所有文本,所以知识量巨大,才能基于知识去行动、去回答。那 action 也做 scaling 不就行了?现在大家基本都这么想。但真能吗?也可能不行,问题点在这里。LLM 的文本数据,或者包括 vision 的图像数据,都遍布互联网,抓来学就行,至少可以做到 GPT-3、3.5 那个级别。问题是 action 这种数据在互联网上不存在。

action 数据实际长这样。我给大家看,这是真实机器人动作时记录下来的 action 数据。多个摄像头像人眼一样看环境,手腕也装摄像头看画面。下面这一段就是 action 数据,这些流动的值就是 action value,也就是各关节角度,手臂伸展和收回。问题是这种动作数据并不存在于互联网,所以没有可直接学习的 corpus,scaling 就困难。

这是第一个问题。那怎么办?最直接当然是 teleoperation。我拿了个挺惊讶的例子,我以前也不知道有这个,是 1957 年的。比现在早了大概 60 年,还是 70 年?差不多 70 年前,teleoperation 就已经做得很好了。teleoperation 就是远程操控。人从后方以某种方式操控机器人让它动作,然后把这些数据原样 logging。那年代应该做不到 logging,毕竟太早了,计算机条件不行。总之现在是把机器人动作完整 logging,这也是最经典的机器人之一,一个 teleoperation 系统,有双臂,人边操控边工作。把这个过程完整 logging,action 数据就存下来了,再拿去训练。

数据采集的现实:Teleoperation 与多种方法 25:55

26:58 朴钟贤 这样相似 task 基本都能做。那谁在这么做?Tesla。Tesla 公开说我们用 human teleoperation 在收 training 数据。就是戴 VR 去收,操控机器人,这些视频公开过。他们就是拿这个来展示:我们有数据工厂。现在据说不这样做了,换了别的方法。总之 Tesla 当时为了收 teleoperation 数据招人,大概是两年前,时薪 50 美元。看应聘条件,身高要和机器人接近,每天能背 10kg 走 7 小时以上,真的是要做 physical 动作。我看了觉得我可能做不了,背 10kg 走 7 小时不容易。

这是我们上次 live session 里亲自做过的 teleoperation 示例。我戴 Vision Pro,这不是实机,是在模拟器里操控。亲自做会有点晕。因为这是我在 VR 世界里操作的屏幕录制,这些都能成为数据。这个有手柄映射问题。做两小时脸会疼,四小时会晕,长时间工作太难了。即便做很久,数据也不 scalable。一个人对应一个机器人,1:1。互联网 scale 的文本数据是互联网诞生后所有人写作累积出来的规模,这个显然不可比。总之 teleoperation 太辛苦,所以研究界在做各种“尽量可扩展”的方式,比如这个研究。

因为难,所以有个叫 UMI 的路线。这个 UMI 研究里会做那种 UI,然后进行 logging。让人更轻松记录数据。很多模型都是这么采 action 数据并训练出来的。现在还有其他路径,这只是 teleoperation。还有 NVIDIA 推的一种方式:先在模拟器里 teleoperation 收数据,就像我前面展示的。然后做“膨胀”,在仿真里把机器人随机化,随便跑。反正仿真里失败也无所谓,再筛选成功数据来训练。

然后这个叫 trajectory,也就是轨迹。把机器人的轨迹做多样化,还会在同样动作下改材质、背景、光照等,制造更多数据。也就是把场景多样化。这个是 NVIDIA 说的 world model,叫 Cosmos,用它来膨胀数据。做出大量数据再去 scaling,这是 NVIDIA 的一个方法。

基于仿真的方法:NVIDIA Cosmos 与 Sim-to-Real Gap 29:20

30:27 卢正锡 对,前半段就是强化学习,后半段就是我们以前做 ImageNet 或 CNN 训练时看到的 dataset augmentation,完全是那个味道。

这里刚好讲到 dataset,可能会有人有点混淆。因为我们刚从 LLM、VLM、VLA 的定义直接过来。你刚才已经用图展示了 action 的 dataset 是什么:有三个摄像头,再结合某个目标,目标通常是文本输入。为了实现这个目标,马达要转多少度,这些组合就是末端 manipulator 的位置。这些就是 dataset,模型就是被训练去学习这种数据。就像 transformer 输入前文后在上面吐下一个词一样,这里也是把图像、文本等都喂进去,让它持续输出 action 的某种架构。

你把这个定义成 VLA,然后展示了为训练它构建的数据集,也解释了为什么这些数据不像语言那样容易获得,以及通过模拟器和 teleoperation 等方式去采集 dataset。这样理解就对了。

那我们往下一步走?

32:09 朴钟贤 这个图再补一句,就是切得很清楚:vision 和 language 是 input,action 是 output。产出这个映射的就是 VLA。

32:20 卢正锡 虽然图上写的是 task 248,但本质里应该有文本,对吧。

32:22 朴钟贤 应该是。

32:24 卢正锡 比如把衣服叠成某种形状,这个 action 目标会在里面。你指出的是最关键问题。

你说的 dataset 生成过去不可扩展,这正是当前市场最大的问题也是机会。即便不是 NVIDIA 这种体量,大量小型 startup 也在这个区域挖机会,这个判断是对的。

32:55 朴钟贤 所以我这里没把所有方法都列完。比如 Meta 有眼镜方案,眼镜装摄像头,让人戴着去 logging 并执行动作。这样眼镜本身就是数据采集设备。先记录 human 是怎么做 action 的,像这种眼镜会尽量自动提取手的位置、坐标,哪怕不能完全到手指细节,也会尽量采。可以是眼镜形态,也可以是 Vision Pro 形态,大家都在用不同方式采数据。

我最期待的一种方式其实是机器人先卖出去。机器人卖出去并在外部运行,本身就会产生数据。

33:45 卢正锡 某个 form factor 非常便宜。其实你之前做的 HuggingFace LeRobot 这些,也是跟这些 initiative 连在一起的。固定标准形态的 form factor 被卖出去,在开放场景里让 dataset 增长,再由社区做大量尝试,确实会是这样。

34:09 朴钟贤 对。HuggingFace 与其说是公司,不如说是社区型组织。总之它面向社区,所以机器人也做开源,硬件软件都开源,教程也做、活动也办,尽可能把机器人撒出去,让数据都回流到 HuggingFace。由此收集的数据,再加上大家自己学习上传的社区数据,做出的模型就是 SmolVLA。你去看 SmolVLA 的 paper,会像企业 repo 一样列出一整排 HuggingFace data repo,明确写了“用这些数据、用了你们的数据”。

顺便再说一个,我最期待的是 flywheel。这个是我在别处也讲过的。1X 这家公司有个叫 NEO 的机器人,也是 humanoid。这里也在做 teleoperation。虽然现在很多事还做不到,但这家公司营销很激进。现在 iShowSpeed 这种几千万到近亿量级的 YouTuber、streamer 都在展示它,NEO 甚至上了 MrBeast 频道,跟棒球人对决之类。总之宣传很猛。他们已经在卖这个机器人,去年就开始预售。我也下单了。但现在 VLA 还不完美,家务做不全,所以他们怎么说呢:像 Tesla 一样,我们先用 teleop 帮你做家务,之后会越来越好。广告里说叠衣服都行,但做不到的先 teleop 补上。

35:59 卢正锡 这是非常好的商业模式。先铺硬件,软件还没准备好就先远程人工代做。客户获得的是问题被解决的体验,公司拿到的是 dataset,双赢。既能拿数据又有现实业务价值,思路很好。

36:22 朴钟贤 这个机器人按计划今年会部署。如果部署后进入家庭开始干活,就有机会形成一个相当 scalable 的数据入口。我是这么期待的,所以也第一时间下单了。

36:38 卢正锡 不错。其实 Tesla 也是这个策略。先卖没完全成熟的 FSD,从最基础的 Autopilot 开始逐步推进:先高速,再专用道路,再市区、乡村道路。最终和你最初讲的 original dataset coverage 问题是精确对齐的。

37:08 朴钟贤 尽可能覆盖更多环境。

而且这商业模式好的一点是人力成本各国差异很大,teleop 可以放在人力成本低的国家做。这样在高人力成本国家部署机器人,只要有机器人机体,家政这类工作可以由低成本地区远程完成。某种意义上可能会成为全球 physical 劳动价格趋同的契机。

37:40 卢正锡 这也是商业而非纯研究带来的乐趣之一,很有意思。

37:43 朴钟贤 总结一下,data scaling 太难,所以很多公司都在用不同方式努力收集,最终答案是什么还不知道。

我现在最期待的是仿真,也就是 NVIDIA 讲的那套。大方向上 NVIDIA 有 Isaac Sim 这种物理模拟器,然后做 world model,不再只是传统物理模拟,而是基于视频生成模型的模拟器。若仿真足够完美,理论上就能在虚拟里把数据都做出来,action scaling 问题就能解。

但现在仿真和真实之间有 gap,叫 sim-to-real gap。这个 gap 还很难补,所以 NVIDIA 也在混用数据:teleoperation 的真实数据、虚拟仿真数据、膨胀后的数据一起训练。我认为如果仿真精度进一步提升,这个问题可能突然就会被解掉。

Scaling Law 与时间线展望 38:46

38:47 崔升准 这个领域也有类似 scaling law 吗?这是第一个问题。第二是如果 scaling 起作用,其他领域常会出现涌现现象,这边有没有类似的也让我很好奇。

39:01 朴钟贤 关于 scaling law 能不能适用,这页是我写观点、内容由 Claude 调研的。确实有这类研究。比如有家叫 Generalist 的知名团队公司,他们用 UMI 风格把数据规模拉很大,尽可能采集后发现,full 数据也就是 teleoperation 数据越多,效果越好。他们用数字证明了相同规律。

当然这里的 scaling 不可能到 LLM 那种规模,因为没有那么多数据,但“收得越多越好”这个现象确实被观察到了。NVIDIA GR00T 也有类似结果:把合成数据尽量多放进去,性能会提升。Physical Intelligence 也有类似研究。

现在虽是早期,但几乎所有做 VLA 的地方都在说同一件事:数据多肯定更好,但能到哪还不知道。

07:56 卢正锡 一模一样。

40:17 朴钟贤 这个只能做了才知道。至于 emergence,我了解的是目前还没有特别夸张的涌现。现在看 in-distribution,也就是训练过的 case,基本能做成;out-of-distribution,到新环境是否也能做好,这是大家关心的,目前看是“部分可以”。如果规模继续上去,会不会出现你说的 emergent 现象,我是乐观的。因为 LLM 成了,这里也可能成;人能做到,所以也可能成。我目前就这个判断。

41:03 卢正锡 我也明确同意。LLM 一开始也是这样,不断打破“这个做不到那个做不到”的预期。现在已经到了“给我 benchmark,我们用 one policy 全做出来”的阶段。这个 robot foundation model,如果非要类比,像 GPT-2 阶段,感觉大概是那个位置。

41:31 朴钟贤 对,就是开始展示第一波 generality 的阶段。

41:39 崔升准 所以核心是“什么时候”的 timing 问题,对吧。其实就是氛围形成到了什么程度,类似这种感受。

41:47 卢正锡 但市场激励上,LLM 方向现在有一种“差不多结束了,大公司已经结束战斗”的认知在主导,而且投入成本也非常高。Physical AI 这边,钟贤是很好的例子,大量非常聪明的人正涌入这个方向。资本和 talent 在这里汇合,所以只是时间问题,而且有加速感。

42:14 崔升准 就是接近 GPT-3 即将出来的那个阶段。

42:20 卢正锡 GPT-3 应该今年很快就会出来。其实 ChatGPT moment,和你刚说的这边 foundation model 的那个点,我感觉也可能今年内就到。你怎么预测时间?今年夏天左右这边可能就会一片鼓掌,我是这种感觉。

42:39 朴钟贤 GPT-3 moment 看你怎么定义。若定义成“用户真的能用”,我觉得会是今年。

36:22 卢正锡 今年。

42:57 朴钟贤 最晚也会是明年。机器人真正部署并开始在市场里拿到特定且相当 general 的 task,我也觉得不是今年就是明年。

43:06 卢正锡 我手上没有公司内部怎么做的精确数据。多数公司其实也一样,比如 LLM 里架构最后收敛到几类,Transformer 也不断有变种。这里从早期 RT-1、RT-2、VLA,到 Chelsea Finn 教授的 π0,再到它后续变化、SmolVLA 的变化、以及 NVIDIA GR00T 开源。我看会不会是根据硬件来选:小硬件用开源,大硬件上更大模型。

当模型和硬件确定后,现在是不是基本变成“把数据集做出来,大体都能成”的问题了?

在算法和数据集获取之间,投入比例大概怎么理解比较合理?

VLA 模型的收敛进化与剩余争议 44:04

44:05 朴钟贤 我很难给出数字比例。

44:07 卢正锡 给个体感就行。

44:14 朴钟贤 与其说算法,我感觉模型本身已经有些收敛了。结构上,VLA 大概这么做就行。但还有很多没解决的讨论。比如触觉是否必要?手指是否必要?仅用夹爪能不能做?一定要五指吗?还有别的。

现在这种从 LLM 上来的 VLM、VLA 结构,本身是否真的没有上限?我感觉大家在解的是更高维度的问题。

可以这样分:眼前这些 task,teleoperation 能做的,基本只要收够数据似乎都能做成。

但也有 teleoperation 做不到的 task。我自己实操过。比如我 teleop,我快速展示一个。Physical Intelligence 也提过这个点:teleop 或五指是否必要,五指其实难度很高。

45:28 卢正锡 所以我们会看到很多公司用复杂硬件 form factor,把复杂问题作为商业定位。比如“我们是解决五指机器人+特定领域问题”的公司。

但最终也可能这个问题其实用两指甚至传统 gripper 就能解决。不同选择会导致完全不同路径。

46:01 朴钟贤 这是我自己做的挑战。我在做齿轮装配,亲自实现 teleoperation 去做这个,结果真的做不好。为什么?洞太小了,是那种严丝合缝的机械装配。我发现没有触觉就做不好。

34:23 卢正锡 真实场景?

46:21 朴钟贤 不是,模拟器。

46:22 卢正锡 模拟器是吧。

46:26 朴钟贤 因为我没有触觉,真的很难。我们现实里这种需要触觉的 task 比想象多得多,我自己做了之后感受很明显。所以就会进入“触觉到底需不需要”这个问题,很多公司在这个方向深挖。公司方向差异很大。首先,不需要触觉也能做的事非常多,比如洗碗就不太需要。但如果你要解需要触觉的任务,就会去解传感器怎么做、形态怎么做这些问题。

所以回到你问的“公司在做什么研究”,我的看法是大家都在定义不同的 niche 问题。那些想做“覆盖所有人类劳动”的,尤其学界会这么做,会在触觉上投入很多研究。举例说去学会,差不多一半内容都在讲触觉。产业界聚焦这个的没那么多。大多数还是先聚焦 data scaling 和当下能赚钱的地方。startup 基本都盯数据,硬件公司盯更精细的手,学界则做触觉或者 RL,也在研究这里怎么做 reinforcement learning,大概是这样。
我本来就想回答你这个问题。接下来我们看下模型。实际 VLA 研究推进到哪了,看看去年的模型会比较清楚。我是按最新排的,等于是倒序。你刚提到 RT 系列,Google 当时做得很多,Robotics Transformer,本质就是让 Transformer 输出 action。那时从语言出发,所以把行为当语言:输出 token,每个 token 映射到动作。RT 系列出了很多。到 2024 年,也就是前年的 OpenVLA 出来,算是开源阵营首次展示“可以做到这个水平”。而我觉得真正让大众开始关注 VLA 的节点其实是 π0。

Physical Intelligence 的 π0 一出来,大家第一次明显感受到“这能成”。之后去年又有 π0.5、π*0.6。再看去年模型,确实井喷:Figure 出了 Helix,NVIDIA 出了 GR00T,Google 出了 Gemini Robotics,HuggingFace 也出了,Boston Dynamics 和 Toyota Research 也出了 LBM,诸如此类。其实还远不止这些。
但看它们收敛点,我把 2025 年总结成这样。这个观点其实是我们联合主持人 J 先提的,我也认同:它们发生了收敛进化。

VLA 谱系:System 1/2 架构 48:04

50:08 朴钟贤 现在把模型拆开看,几乎都长得差不多。第一个收敛点是 System 1/2 结构。这个好像升准以前也讲过,Kahneman,Thinking, Fast and Slow。总之是借用人类智能结构来设计模型。我们看一下。

GR00T N1.6,是秋季出的版本。它就是 System 1/2 结构。有 VLM,也有 Diffusion Transformer,是两者组合。这个 VLM 本质就是我们熟悉的主流 VLM。具体实现各版本有差异,但这个例子里,它接收 vision input 和 language input,然后输出结果。和我们熟悉的 VLM 一样,跟 GPT 结构很像。输出可以 tokenize 成 token,也可以不 token 化,直接以向量形式输出。然后后面接一个 Diffusion Transformer,把这个理解结果(我该做什么、当前视觉环境是什么)再加上 robot state(我机体当前状态)作为输入,最终输出 action token。

51:31 卢正锡 你上面说的赫兹,是指这两个 System 里,System 2 吐一个 token 时,System 1 会吐几十倍 token,应该这么理解吧,就是频率不同。

51:49 朴钟贤 场景认知慢一点没关系,比如 10 秒一次都行。但 action 必须非常快,反应快才能保持平衡、避免失手、完成很多事。所以 action 这部分必须更快,才会这么拆。

52:01 崔升准 有意思,System 2 在前面。

52:05 朴钟贤 这里是这么接的。虽然标了 1、2,但关键是“高层认知”和“快速反应 action”必须分开。

52:14 卢正锡 这和我们在 LLM 里说的 System 1/2 似乎是略不同的概念。

52:21 崔升准 直觉原本是 System 1,更快,所以这里会这么命名。用了 Diffusion Transformer 就意味着 action 是生成出来的。

52:29 朴钟贤 对,Diffusion Transformer 负责生成 action value。

52:32 崔升准 会有那种多样化生成的感觉。

52:35 朴钟贤 再看 Figure Helix 也一样。

52:37 卢正锡 那个写 denoising 的部分就是它和早期 VLA 不同点。OpenVLA 是单一 Transformer 里直接吐 token,这里是把 action 拆出去,用 Diffusion 专门生成 action,对吧?图画得很好。

53:03 朴钟贤 Helix 也一样是 System 1/2,几乎一致。区别只是细节,比如它在 System 2 也吃 robot state,但我觉得不是本质差别。核心还是大模型慢速做场景认知和指令理解,再把认知向量交给快速模块,后者以 200Hz 生成 action。

Gemini Robotics 也一样。它甚至上下也分了 System 1/2:场景认知模型跑在云端,云端就是 Gemini 在跑,负责视觉理解、对话、接收指令、reasoning、写代码,能做的都做。然后把解释结果发给要吐 action 的小模型,小模型在本地跑。

所以 Google 显然想把“慢而大”的那部分作为云服务卖出去。分离后慢模块在云端可用更大的 GPU,用服务器级 GPU,自然更聪明。我认为这是好方法。

54:21 卢正锡 你现在展示的这些模型里,完全开源到代码层、开放域可直接拿来用的,是不是只有 NVIDIA GR00T?π 模型和 SmolVLA 感觉应该也偏开放,但印象里复杂度低一些。NVIDIA 说是 humanoid 对应,所以覆盖很全。这样理解对吗,还是太粗糙了?

54:52 朴钟贤 目标有点不同。今天我挑这 3 个是因为它们都体现了 System 1/2。NVIDIA GR00T 是完全开源,但模型不算特别大,大约 3B、7B,优势是完全开放可直接用。π 是 closed 模型,但有开放版本,放了一部分开源,不是全开,不过已经开放到可拿来用的程度。

接下来回到“为什么需要 System 1/2”,这其实也是今天开头和结论。它某种程度上说明 intelligence 可能本来就分成两块:判断情境、思考决策这种 cognitive intelligence,和本能快速反应的 physical intelligence,可能在人脑里本来就是分开的。如果这种实现被证明是 Robot Foundation Model 的最高效结构,反过来我们也许会更理解人脑本身可能就是这样。

55:57 卢正锡 完全同意。

连续动作与基于 Diffusion 的方法 55:59

56:00 朴钟贤 下一个收敛点是输出 continuous action。这和你刚才的问题也连上了。RT 或 OpenVLA 那些 action value 是 discrete 的,因为 LLM、Transformer 这套输出 token 是 autoregressive 且 discrete,不是连续的。

你想想图像也是,所以现在图像多用 Diffusion 生成,因为图像是 continuous。同理 action 也是 continuous。比如“你好”和“hello”这两个 token 中间没有连续态,不存在 0.1 你好、0.9 hello 这种值,因为 token 是离散的。

但 action 是连续的,必须有中间态。所以看 RT-1 那些模型动作会比较顿,一卡一卡,连续反应能力不够。

于是大家开始考虑 action 连续化怎么做,很多模型就参考 Diffusion。这里示例是 Diffusion Policy,不是 Transformer 架构,就是纯 Diffusion 产 action 的模型。它是早期很有冲击力的一项研究,证明了这条路能行。之后就开始融合,把 Diffusion 接到 Transformer 上。

就像 System 1/2 的融合一样,连续输出、快速反应这些都变得可行。不过 denoising 的计算方式会不同,这里要稍微懂点 Diffusion。

57:38 崔升准 denoising 不是独立全做吧?

57:41 朴钟贤 这个 Diffusion Policy 是独立全做。

57:44 崔升准 完整全做?

57:47 朴钟贤 这篇研究是这样。现在的 VLA 是融合来做。

57:52 卢正锡 它每跑一轮 Diffusion 会给出多个 action step,但在中间 state 过程里 state 也在不断变化。视频看起来像是多个 action state 持续叠加涌现出来。

58:12 朴钟贤 它会先吐出未来一串 action,但动作还没执行完 Diffusion 就会再跑一轮,你说的是这个。能跑多快就多快。因为动作是基于未来预测的,但真正执行后交互会变,观测也变,就得根据新观测重新生成 action。人也是这样,像平衡控制就是。 所以能更快循环当然更好。

π0 也是这种结构。pre-trained VLM,我记得可能用的是 PaliGemma。不同版本稍有差异,总之就是拿常见 VLM,后面接一个 action expert,这里用了 Flow Matching,一种和 Diffusion 类似的算法。两者拼起来,输入指令、语言、摄像头后,直接输出 action。结构基本一致。

这是 NVIDIA GR00T,刚才是 N1.6,这个是 N1,也很像。System 1/2 分离前的 N1 时代,是 VLM 后接 Diffusion Transformer。其实也算 System 1/2,只是当时没这么叫。

SmolVLA 也类似。有 VLM,这里是 SmolVLM,后接 action expert,同样用 Flow Matching,把 action 输出成 continuous value。整体扫一眼,大家都差不多。对应你刚才的问题,确实没有本质差异。并不是说这里在做完全分散、彼此无关的大量路线,主要是细节差异。

1:00:07 卢正锡 起点略有不同,但最后都收敛到这个方向:vision + System 1/2,把认知部分和 action 部分拆开。

1:00:17 崔升准 我觉得有意思的是,Diffusion 和 Transformer 是这一代很多系统的运行原理。如果这边也同样适用,就会给人一种“这个也会成”的路径感。虽然还有数据等不足,但路径看起来是通的。比如别的领域也是这样。

1:00:34 卢正锡 不是“会成”,而是“已经很好地在成”。

1:00:34 崔升准 已经在成。

1:00:42 朴钟贤 我也差不多这么看。这里也可以说“已经成了”。

1:00:46 卢正锡 对,这个也成了。

1:00:48 朴钟贤 甚至会让人觉得,不只是 action,其他领域也都可能成。

1:00:54 崔升准 概念是可以迁移的。

1:00:56 卢正锡 本质就是 modality 扩展。

1:01:00 朴钟贤 今年出的两个模型,我开头提过的 Sharpa 和这个,也给你看一下,结构也类似。因为加了触觉,所以叫 Vision-Tactile,VTLA。这里变成 System 0、1、2。

1:01:19 卢正锡 多了个 0。

1:01:21 朴钟贤 对,多了一个 0。触觉只放在 0 层。他们似乎认为触觉主要用于超快速反应。

1:01:29 崔升准 明白了,这个更偏 reflex,更底层。

1:01:36 卢正锡 但基本骨架是一样的。

1:01:39 朴钟贤 总之就是慢速思考、场景认知、推理,再逐层下放到需要更快反应的部分。Figure Helix 也是,进去看也是 System 0、1、2。

1:01:55 卢正锡 他们也有对应 0 层的东西。对,写着 0,Human-like Soft Motor Tracking。就是那种很微妙的,怎么说呢?

1:02:05 朴钟贤 是 Stable Motion Tracking。再补一句,比如 LBM 里 System 0 以前是 rule-based。action token 出来后直接控制机器人会有问题,比如会摔倒,或者 action 不完美导致碰撞、动作错误。像走路这件事,我们以前已经做得很好了,无论 RL,还是 MPC 这类传统机器人方法,都会计算“踩哪里能稳住重心”这些物理逻辑。所以以前会借助这些。常见是 action token 出来后再加规则限制或校正。现在趋势是把这些都拿掉,也全交给模型。

再看规模,System 2 是 7B,System 1 是 80M,这是 Figure 01 时代两层结构;现在又加了一个 10M 的更小模块。按这张图,这个小模块会混入 real-to-sim、sim-to-real 的数据,也就是含有仿真数据。我理解这基本意味着引入了 RL。因为 Helix 不是开源,我们无法知道细节,但至少到这里能看到 VLA 大体已经收敛进化,方向非常一致。

什么是 Physical Intelligence:Moravec’s Paradox 1:03:48

1:03:52 朴钟贤 最后我想收束到一个问题:到底什么是 Physical Intelligence。其实做 VLA 的过程,就是在解决 Physical Intelligence。就像我们通过 LLM 追 AGI 是在解“智能”一样,这里再做一次拆分。

有个最经典例子。大概十年前的 DARPA Challenge,出现过“谁都开不了门”的场面。所有人都做不到。大家当时都在说,开门有那么难吗,为什么都不行。这后来成了梗。现在其实类似。这叫 Moravec’s Paradox。我们觉得下棋很需要脑力和智能,但像口袋里有糖、钥匙、硬币时,我们取钥匙这种事做得极其轻松,几乎无意识。我们通常不会把这个叫智能,不会因为“你很会掏钥匙”就说你聪明。但真正要把它实现出来才发现难得离谱。为什么难?到底差在哪里?

所以我昨天拍了个视频。MIT 的金相培教授长期做机器人,我现场听过他的 talk,印象很深,所以也自己试了。我不看着手,直接在这里捏一枚图钉。视频放慢了,但这对人来说太自然了,99.9% 会成功,不太可能失败。而且别看是慢动作,实际不到 1 秒。就在不到 1 秒里我捏到了某个东西。那你看这个画面,能预测我会捏到哪一个吗?

46:21 卢正锡 不能。

1:05:51 朴钟贤 预测不了吧。假如我们用 rule-based + vision + 夹爪来做机器人,通常会觉得抓最上面那个最优。但人不是这么动作的。到 VLA 出现前,大多数机器人是先做 object detection 拿坐标,再据此控制机器人搬动物体,但这和人类方式差太远。看人类的 Physical Intelligence,我准备捏的时候其实已经失败过一次了。先碰到一个但没拿住。我的手有触觉输入,这个触觉是高维大量信号,因为手上 contact point 极多。然后基于这些触觉,我会无意识判断该抓哪个,再顺势抓住一个。

虽然只过了 1 秒,但里面其实有海量数据处理和高速决策。这就是 Physical Intelligence。

所以看慢动作我会觉得,这里面其实有 5 次决策,夸张点说有 5 次。类似例子还有舌头。舌头在吃饭时承担大量工作。我写了午饭,但现在是早上,就举个昨天晚饭例子:你可能记得吃了什么,但几乎不记得舌头当时做了什么。它是自动完成的。

所以这和 Cognitive Intelligence 不同。不是那种吐 reasoning token、显式思考的智能,是完全不同的智能。这些内容是我听教授演讲后被说服的观点。建议大家去看原演讲,TED 等很多场合他都讲过,对我们理解智能很有帮助。当然我也不是全部认同,只拿了我认同的部分。那为什么会这样?有人从进化角度解释。像这种运动类 Physical Intelligence,进化了 10 亿年,不只是人,很多动物都有。棋类或抽象数学从进化时间看并没那么久。所以这件事“看起来理所当然却很难”也许反而正常。

比如松鼠飞跃时不会先算牛顿力学。但 VLA 之前那些 MPC 算法,会计算这些动力学,算在哪施力、如何动作,做到很精准,但和人脑里的 Physical Intelligence 仍不一样。再从维度和速度看,人有触觉,视觉和触觉这类物理信息维度极高。文本语言世界是 token,我们现在 tokenizer 常用约 200K token,就是在 20 万类里不断选一个,语言被处理成高度抽象、低维表示。相比视觉触觉维度小很多。也就是说一开始要处理的数据规模就完全不同。而文本世界本身已经非常高效,对复杂思考和学习反而效率很高。

所以我们会做 RLVR,觉得这有助于打造智能、提升聪明度,语言很重要。但语言几乎只有人类能完整使用,因此物理世界的问题不一样。

而且这是我在做 nano-banana 的 Google Developers 频道里看到 nano-bana 团队说的,语言里有 Reporting Bias。比如我昨天去别人家,回来写感想,会写大楼很气派、能看到海这些我印象深的内容,这些会留下数据。但我不会写墙是白色还是米色,椅子具体长什么样,因为太理所当然,不会报告。除非椅子特别奇怪、墙色特别特别,才会写。文本世界只保留特别、有意义的信息。LLM 里也有类似问题。

它学了互联网规模的文本,学了知识,但你问“怎么把大象放进冰箱”,它本该说不行,却可能说“开门放进去就行”。因为对人类太常识的事实——大象太大,不可能进冰箱——往往不会被明确写成文本。也就是说文本世界有大量缺失信息,尤其基础常识层面的缺失。Physical Intelligence 要处理的就是这些信息,所以它可能是不同维度的问题。

所以结论是,Physical Intelligence 是不一样的。再者,AI 的学习方式和人也不完全一样。人很多能力,尤其物理能力,不是靠读文而是靠经验学来的。现在这些还没被很好实现,所以会更难。那是不是就做不成?我的结论是能成。因为虽然有这些难点,但可解方法很多。和 LLM 一样,这里也不一定非要按人类学习方式复刻。人做得好而模型做不好的地方会有,但仍可达到足以改变世界的 Physical Intelligence。比如触觉难做,所以现在很多 humanoid 在手掌或手背装摄像头,也能通过视觉去完成一些动作。

人类眼睛只能长在脸上,手掌不能长眼,但机器人可以。自动驾驶也是,靠 LiDAR 获得人类不擅长的距离感数据来解决问题。所以无论用哪种方式,只要能 scaling,我都乐观。先讲到这里。

1:13:23 卢正锡 今天你先讲了整体全景,再讲了发生了哪些变化,以及各个模块里做得好的公司、研究机构、模型结构,还有周边各种问题和哲学问题都覆盖了。最后你也简短说了,这依然是很快会成的游戏。正在这个赛道上的 startup 加油,准备进入的人也很多。这部分和 LLM 不同的是,它到底叫“各个 domain”,还是叫“last mile problem”,我最近对这个概念有点混,因为就算叫 domain,剩下的也几乎都是 last mile 了。

前面的 general intelligence 正在快速完成,所以大量 last mile 依然是机会。我觉得这个赛道今年明年会很热,错过 LLM 列车的人才,这里很值得去。

业务方向:社区战略与游戏仿真 1:14:27

1:14:30 朴钟贤 我也是基于这个想法决定要做这件事。

1:14:35 卢正锡 钟贤你自己的想法是什么?你一直在追踪 VLA,持续打磨“这里有机会”的直觉。同时现在各家公司也都跑去各自方向了,用我们的话说都“跑路”到细分点各做各的。你会站在什么位置做?挺好奇。能不能讲讲你的个人看法、个人方向,或者说业务想法?

1:15:10 朴钟贤 目前我想做的主要有两条。虽然有句话叫打不过就加入,但像 LLM 一样,跟着大玩家做 scaling 其实不容易,这里也一样。要追上大玩家的 scaling,不加入他们恐怕不行。

那就看他们不做的部分。第一,我个人认同并且喜欢 HuggingFace 的策略。我认为社区也可能赢。其次机器人和 LLM 不同,机体很贵。是否可以做“把机体做便宜并大规模部署”的事,这是我第一个方向。这里不仅是机体便宜,还要提供人们日常会用的 VLA task。然后让数据由社区一起积累,让所有人共同提升智能,也就是人人参与贡献。

另一个方向是,我从小喜欢游戏。游戏和物理仿真有很多相通之处,所以游戏世界里的 action,现在常被叫 world model。可以是 world model,也可以是物理模拟。游戏也许会成为突破口。连接虚拟世界和现实世界的工作,既能解决数据问题,也能解决 evaluation 问题。毕竟现实中评测机器人太贵了,所以我觉得这条线上机会也很多。

1:17:06 卢正锡 我觉得这两条是连在一起的。你讲的本质都是“解决无法靠砸钱直接解决的规模问题”。那钟贤,如果走第一条和社区一起做,像你刚提到 SmolVLA 这些是 open model。对于想入场的人,能不能给一个学习路径:第一篇先读什么 paper,第二用什么硬件 form factor,在哪个社区开始。或者“感兴趣来找我”这类建议。请给点指南,学习该从哪开始?

入门指南:LeRobot、Physical Intelligence 论文 1:17:10

1:17:53 朴钟贤 如果想做 researcher,确实需要好的硬件,所以加入大公司、实验室或研究组织会更合适。但即便没有这些,也完全可以 follow-up,因为有开源硬件。

我自己也是从 HuggingFace 的 LeRobot 入门,觉得它是最好的起点。机器人方面,韩国也有 ROBOTIS 的开源机器人。可以直接 3D 打印组装,大概 50 万韩元就能买到,而且 teleoperation 系统都齐全。可以直接做 VLA fine-tuning。我刚开始时韩国本地还没有,只能用 HuggingFace 的,整个流程两天左右:买机器人、组装、teleoperation 采数据、训练 VLA(当时还不是 VLA,是没有 language 的 vision-action 模型)并让它执行实际 task。两天左右,基本谁都能做。

所以喜欢动手的人,大概 50 万韩元就能开始。另外这个页面我会分享,我打算在这页补充这些指引。我们都做过,会放教程资料。

如果想做研究,模拟器里也足够,可以看 NVIDIA Isaac Sim 文档。论文方面建议直接去 Physical Intelligence 官网把 paper 顺着看一遍,脉络就很清楚。它毕竟是领先者,公开内容也比较多,所以推荐 Physical Intelligence 页面,paper 都在那。

1:19:44 卢正锡 明白了。

机器人进入我们生活的未来与收尾 1:19:45

1:19:51 崔升准 今天听完后我思路更复杂了。那最终随着技术发展和真实落地,几年后机器人会进入我们的生活吗?会是什么 form factor、什么产品,或者它们会做什么事,这些都让我开始想象。

再补充一点,现在最容易想到的是把劳动交给它们做。但会不会不止于此,我也在想这个。

钟贤你怎么看?

1:20:19 朴钟贤 我认为机器人一定会以某种形式进入我们的生活,几年内。问题主要是价格和量产。我对这块细节不了解,不知道具体难点和哪些会更快解决,但这个市场价值太大,谁都看得出来,所以很可能先从劳动市场开始。然后家用也会进来。至于形态是否一定是 humanoid,我觉得不一定。比如每张桌子上可能有一个机器人,也可能是机器人玩偶,可能有各种形式,甚至可能每个水槽旁挂一个机械臂。总之会以各种形态出现。

另外我想象中会发生我们现在难以预料的环境重构。现在家具、住宅、办公室形态都按人类 form factor 设计,比如门宽。如果很多只能由人做的事交给机器人,未来可能会像如今的大型工厂一样,出现针对机器人 form factor 设计的物品、工具和空间。比如咖啡馆里,现在是让机器人在给人走的通道里穿梭,也许未来会铺给机器人的专用小轨道。

1:21:55 崔升准 像医院那种。

1:22:02 朴钟贤 对,比如医院。它们可以做服务、搬运、洗涤,沿轨道移动。

总之我判断会出现很多现在难以想象的变化,尤其环境变化。它会以满足人类很多原始需求的方式进入生活。可能是劳动解放,也可能是做饭做得很好,或者是性相关需求,都会以很多形态逐步下沉到更底层需求。

1:22:31 卢正锡 你一直在说,这边会像 LLM 那样自然发生分化和无限演进。

1:22:41 崔升准 我一直会被 sudoremove RF 这几个字吸引。

1:22:49 朴钟贤 现在回头看,意义确实挺像。我们频道名 sudoremove,开发者都知道,意思就是“全删掉”。既然新东西来了,那环境也好、房子和家具也好都该重构,适配新世界。也包括我们脑中的知识和思维方式,大概这个意思。

1:23:08 崔升准 总之今天你把全景梳理了一遍,我们也建立了上下文。下次再见应该能聊得更深。

1:23:17 卢正锡 今天你介绍的 SmolVLA,还有 Physical Intelligence 那些 paper,我们会继续追踪。之后还要再向你请教。

1:23:33 崔升准 学到了很多视角,特别是刚才从 System 2 往上这块我之前完全没想到。谢谢。

1:23:36 朴钟贤 我只是把各位大哥们做好的研究替大家念一遍而已。

1:23:43 卢正锡 感觉我们生活在一个非常有趣的时代。今天和 sudoremove 的朴钟贤一起完成了 AI Frontier 和 sudoremove 的联动。非常感谢今天的分享,学得很开心。谢谢。

1:23:59 朴钟贤 辛苦了,谢谢。