AI Frontier

EP 84

Physical AIを知ろう(sudoremove パク・ジョンヒョン代表)

· ロ・ジョンソク, パク・ジョンヒョン · 1:24:02
ページ全体
エピソードの参考資料を見る

イントロとゲスト紹介: パク・ジョンヒョン(sudoremove) 00:00

00:00 ロ・ジョンソク この収録をしている今日は2026年1月31日、土曜日の朝です。今日は僕が本当に大好きなチャンネルで、最近ものすごくたくさん見ているんですが、sudoremoveチャンネルのパク・ジョンヒョンさんをお招きしました。

パク・ジョンヒョンさんと僕たちは何度かミーティングをしてきたんですが、今の最大の関心事がPhysical AIなんです。このPhysical AIにどんなチャンスがありそうかという話を会うたびにずっとしてくださっていて、その部分をずっとトラッキングしてこられたので、今日はジョンヒョンさんを通じてこのVLA概論を学び、何が起きているのか、そして中身はどうなっているのか、ここで考えるべき点は何か、そういったことを聞いてみたいと思います。先生としてお迎えしました。ようこそ。

00:49 パク・ジョンヒョン こんにちは。まず先生ではないですし、僕もたくさん学んでいます。僕はいつも皆さんに、みんな一緒に進む道伴だと表現しているんですが、僕も足りないところが多いので。まず僕たちの場合は、だいたい1年くらいになった気がします。

当時1年前はLLMを熱心にフォローアップしていて、そのときDeepSeek R1が出てreasoningモデルみたいなものを僕も直接作ってみたりしていたんですが、そのとき初めてVLAを一度回してみて、これは可能性があるなと思うようになりました。それから去年を振り返ると、このPhysical AIというキーワードがメディアでもかなり浮上してきた気がします。

実際にはNVIDIAが押しているからだと僕は思うんですが、なぜこういうキーワードが浮上するのか考えると、いま僕たちの世界ではとにかくLLMが出て、AGIの時代が来そうだという考えを持っているわけです。でも知能を少し分けて考えると、LLMがやっている仕事はほとんどコーディング、数学、推論といった部分に集中しています。

でもこの知能と、僕たちが物理的な行動をする知能は少し違う面があると、フォローアップしながら感じました。

なのでこの物理的知能について、既存のLLMが解いているような知能的行為は僕が任意でCognitive Intelligence、認知的知能と分類し、その隣にあるPhysical Intelligenceにはどんな特徴があるのか、僕たちはこれをどう解いていっているのか、そういう話をしてみたいと思います。

02:24 ロ・ジョンソク 今日はすごく面白くなりそうです。

最新ロボットデモ: Boston Dynamics Atlasと知能の意味 02:26

02:26 パク・ジョンヒョン まず最初はデモから見ようと思うんですが、ポッドキャストで聞いている方が多く、僕は動画がかなり多いので、ロボットは動画が多いので、できれば画面で見ることをおすすめします。まず今回のCESで出た最もホットなデモですね。これは韓国だけでなく世界で最もホットなデモで、このBoston DynamicsのAtlasというヒューマノイドが出てきて、こういう動きを見せたんです。

02:56 ロ・ジョンソク 驚きましたね。

03:03 パク・ジョンヒョン 特にこれが一番人気のモーションだったと思います。こういう人間のようなウェーブっぽい動きや新しいボディを見せながら、実際に親会社である現代の株価がものすごく上がったりもしました。注目を多く集めたんですが、こういう行動を見て、ここにはいったいどんな知能があるのかと考えると、公開されていないので確実には分かりませんが、実は特別な知能はないと思っています。デモを見ると、ただ立ち上がって、歩いて、同じ動作を見せます。なので、こういう時はこうしてああいう時はああして、転びそうなら急に重心を取って、何か物が飛んできても手で反応して掴む、というのとは違うんです。だから実際、昔から学んできたような知能があるパートではないと思います。ただ、このボディ自体があまりにも素晴らしいので人々が注目したのだと思います。

でもこのBoston DynamicsのAtlasは、実はこのCESデモではそういう知能が必要なデモは見せていませんでしたが、去年研究が出ていました。このAtlasを使って、知能がないと実行できない仕事を見せたんです。実際に労働をするんです。知能が必要な点は何かというと、横にただ何かが落ちているんです。つまり、どんな物体がどう相互作用するか分からない状況で、その状況に合わせて動作するわけです。見るとBoston Dynamicsらしくホッケースティックでこうやって邪魔するんですよ。どれだけ邪魔しても全部自分で対応して動くんです。実はこれって人にはすごく簡単なんですが、こうした動的状況を全部カバーするのは本来できなかったことです。こういうのができそうだと。だからどんな物体があっても自分で掴んで折って労働させるんです。このAtlasが動いているこの形にはLBMというモデルが入っています。VLAと似たものです。

親会社は現代ですが、これはToyota Research Instituteという研究機関と一緒にLBMを作って、そこにこのモデルを載せて動かすデモでした。とにかくこういうことが結局は知能を要する仕事で、ひとつずつ出てきているということです。

触覚まで備えたVTLA: Sharpa CraftNet 05:14

05:19 パク・ジョンヒョン なので今回のCESで出たロボットとモデルの中で、僕たちが最も印象深く見たのはこのSharpaという、僕も初めて聞きましたが、こういう会社からCraftNetというVLAが出て、これで何を見せたかというとトランプをディーリングするのを見せたんです。これは僕が見た限りたぶん最初のデモです。このトランプを配る手。このCraftNetというのは僕はVLAと言いましたが、またこういう名前を付けています。VTLAと呼ぶんですが、tactile、つまり触覚のあるデモです。なので前のデモを見ると、風車の折り紙のように風車を折るデモがあります。これは触覚なしではかなり実行しにくいデモなんです。触覚まで受け取り、視覚、言語、触覚を通じて行動を生み出すモデルが初めて出始めた。これが現時点だと思います。

Figure Helix: end-to-end制御の登場 06:12

06:15 パク・ジョンヒョン 出たてのボディをもう一つ見ると、Figureというかなり投資を受けた会社が先週出したHelixというモデルで、キッチンで普通に仕事をさせます。すると歩き回って物を取って整理したりします。ここで一つだけ見ると、これを一度見ましょう。ああやって骨盤で押し込んで入れるのを見ながら、これは本当に人間みたいにうまく学習させたなと。このデモにはautonomousと書かれています。

でも少し考えてみると、実はteleoperationでやるのと、これが4分くらいなんです。4分弱のデモと、こうやって足で持ち上げるのもそうですし、僕たちはこう言います。4分程度のデモは高度なteleoperationと大差ない。単純に何百回かteleoperationしてそのままの動作データを取り、そのまま学習させれば実は大きな違いはない、と言ったりします。でもそれでもすごいです。全身teleoperationで人間のように動くモデルを作ったこと自体が。とりあえずこのくらい。彼らが自慢したかったのは、4分ならそれでもかなり長く連続動作をやり切ったこと。その次に人々が驚いたのは、ああいう骨盤で押す動きや足で持ち上げるなど、人間のように振る舞う姿を見せたこと。

そして自慢したかったのは、その文書では10万行ほどのC++で書かれたlow-level controlが全部ただend-to-endでモデルに置き換わったという点です。これは結局TeslaのFSDが自動運転でも自慢したいことと実は同じです。end-to-endでコードがなくなる。rule-based時代のロジックがなくなる。そういう方向に進んでいるようです。

08:03 ロ・ジョンソク Teslaが正確に見せていたそのtrajectoryですね。その軌跡ですね。

08:13 パク・ジョンヒョン その道をそのままロボットでも同じように行っている気がします。ここまでがとにかく最新デモを軽く見たところです。なのでPhysical AIというキーワードが外であまりにも多く使われていますが、とりあえず今日はPhysical AIの定義を少し狭めて、こういうものを指すというのを整理していきます。

Physical AIの定義と範囲 08:17

08:33 パク・ジョンヒョン なので僕が考えるPhysical AIとは何かというと、昔rule-basedで組まれていた数多くのロジック、こういうものがなくなっていくと思うんです。さっきHelixが主張していたように。だからこのend-to-end学習を通じて、非定型な状況を全部カバーする本当の物理的知能が入ってくること、そうして変わっていく何か、これをPhysical AIと定義しようと思います。これをもう少し詳しく見ると。

まずPhysical AIという用語自体はNVIDIAが2年ほど前から使っていた用語で、ロボティクスでもChatGPTモーメントのようなもの、ChatGPTモーメントがすぐ来そうだという話をしていて、本当にそうだと僕も思っています。ただ、NVIDIAではこのPhysical AIという用語自体を少し広く使っている気がします。単に物理的な行動をする何かにAIが入っていれば、こういうヒューマノイドだけでなくロボットアームがシミュレーターで動いたり、あるいは飲食店でよく見ますよね。メニューが出ると配達してくれるロボットのようなものも全部Physical AIと考えているようです。

これももちろん間違いではありませんが、僕たちのチャンネルで関心があるのはそれよりもVLA、あるいはVLAでないかもしれませんが、どんな形でもend-to-endで学習してgeneralな仕事ができるロボット、そういう知能を搭載したロボット、これをまず僕たちはPhysical AIと定義して、この範囲の中で今日の話を進めます。

10:16 ロ・ジョンソク いいですね。

なので僕がなぜこう定義したかというと、僕が感じるには明確な境界点のようなものがあった気がするんです。LLM以前にも知能と呼べるものはたくさんありましたが、LLMが出てから完全に変わったじゃないですか。それと同じように、このLLMを基盤にした物理的知能の実装も完全に違うと思います。では何が違うのかというと、単純にはPhysical AIというキーワードが浮上する理由と同じで、できなかったことができるようになります。昔はできなかったこと。

それで昔何ができなかったかというと、これができませんでした。洗濯物をたたむこと。これは僕が直接撮ったものです。なのでこのデモを見ると、洗濯物が干してあるとそれを自分で広げて折ってきれいにたたんだりします。ロボットを考えると、実は歩行は以前もできてはいました。ここまでうまくはなかったですが。でも歩行は僕の感覚ではすごく小さなtaskです。なぜなら、実際に動かす関節もそこまで多くないし、バランスを取りながら歩くのがすべてだと考えると、実は歩行も簡単ではなくて、平らでない階段があったり障害物があったり、あらゆる床に対応するのがすごく難しいんです。森の中の泥のようなものも。

洗濯物も実は同じです。ここに知能があると歩行面が非定型なんです。床に何があるか分かりません。この洗濯物も、何か物体を移すことも、洗濯物なんて大したことないと感じるかもしれませんが、剛体を動かすのとは完全に別問題です。こういうのを何と呼ぶかというとdeformable objectと言います。まずシミュレーションがうまくいきません。服をたたむだけですが、服は柔らかいので、どんな動作をしたかによって形があまりにも多様に変わります。こういう非常に多様なケースの形を全部カバーできることが実は知能の必要な仕事で、そういうdeformable objectを扱えるようになる。

できなかったことができる時代: 洗濯物たたみとdeformable object 10:49

12:32 ロ・ジョンソク それで他に何が可能かというと、さっき見たHelix、Helixの第2バージョンが今回出たもので、第1のHelixが出たときこういう自慢をしていました。物流での労働をするんですが、これはビニール箱なんです。このビニール箱はdeformableなんです。だからシミュレーションもうまくいかないしcomputationもすごく必要です。さらに中に何が入っているか分からないので、掴むと形が勝手に変わります。人は中身をよく分かっていなくてもこういうものをすごく上手く扱います。なのでこういうデモが出始めたのは、ここにも知能が一つずつ追加されるんだなと感じられた気がします。しかもこのデモは1時間です。短いデモはcherry-pickして見せられますが、1時間やるデモを見せて本当にできると証明した事例だったと思います。実際に僕はこれを1時間近くかなり熱心に見ましたが、全部成功するわけではありません。

途中で落として床にこぼしたりもしていました。この時も見ると上半身だけなんです。なのでこの時はwhole upper body、上半身だけfully autonomousで動くロジックでした。

そしてもう一つ追加すると、前でも後でも話すことですが、結局LLMをベースに彼らはほぼ全部作っています。最近のモデルにはLLMに常識があります。World Knowledgeがあって、その常識が通じるんです。既存モデルには常識がありません。歩くのは常識がなくてもできます。でも例えば赤いカップを持てと言うと、カップが完全に新しい形の創造的なカップでも、カップのように見えればカップだと分かりますよね。でも以前はそれが分からなかった。だからカップとは何か、掴むとは何かということへの常識のようなものがあるので、どんな形のカップが来ても掴めるわけです。こういう常識をLLMがインターネットスケールのデータを学習して持っているので可能になったということです。

それでいろいろな会社のアプローチが出ていますが、これは少しあとでまた見ます。できなかったことができること、これをもう少し分解して説明すると、specialistだったモデルがgeneralistになってあらゆる状況に対処する汎用モデルになる。visionの例を一つ持ってきましたが、visionでもLLMでも同じです。昔を思い出すと、画像を一つ与えて「これは何?」と聞くと当てる、classifyするモデルが別にありました。ディープラーニングが世に出てCNNベースで解けるようになったんですが、画像を与えて「これは何?」だけでなく「どこにある?」まで聞くとobjectをdetectする座標まで取るモデル、最も有名なのがYOLOのようなモデルが必要でしたし、今でもビデオ会議でZoom背景をぼかせますが、クロマキーがなくても顔の輪郭を取って背景をぼかせますよね。そういうsegmentationもsegmentation専用モデルが別にありました。

languageも同じです。翻訳してと言えば翻訳モデルが別にあり、この文章がポジティブかネガティブかsentiment analysisしてと言えばそれをするモデルが別にありました。でも今はvisionもlanguageも、そうやってモデルを別々にはしません。ChatGPTを開いて画像を投げて「これ何?」と聞けばだいたい自分で説明してくれます。taskという区分がなくなりました。一つのモデルが全部やります。GPTでも僕たちがよく使うLLMでもVLMでも、こういう仲間は全部generalなモデルです。

このロボットも同じです。特定のボディで、そのボディにポケットビリヤードをやらせるならそれに合わせてコーディングしたりrule-basedモデルを作ったりしなければなりません。コーヒーを作らせてバリスタとして使おうとしてもそう作る必要があります。同じバリスタ仕事をさせるとしても、ボディが変わればまた作り直しです。これが既存ロジックでしたが、これからやろうとしているのは一つのモデルでどんなボディでもどんなtaskでも全部やること。なのでこれをRobot Foundation Modelと呼べると思います。

SpecialistからGeneralistへ: Robot Foundation Model 14:45

16:55 ロ・ジョンソク LLMもgeneralな仕事を全部するからFoundation Modelと呼びますが、それをロボット側にも同じように適用するわけですね。ではなぜgeneralist、こういうgeneralが可能になったのかというと、pre-train scaleになったからです。最近このRobot Foundation ModelはほとんどVLAという名前で呼ばれています。このVLAは普通どう作るかというと、VLMで作ります。LLMがあり、そこに行動を追加する方式で作ります。

だから常識があり、データをできるだけ多く、いろいろなcross-embodiment、あのロボットこのロボットのデータを集めて学習し、最大限多くのデータを集めて学習させて、LLMでscaling lawが成立したようにここでもすべてのtaskを集めて学習させればいい、generalになる、という仮定が土台にあります。

ではどこまでできるのかというと、Physical Intelligenceという会社がうまく見せた気がします。π0.5という去年4月に出たモデルですが、ここで何を見せるかというと、動画でロボットを載せて新しい家へ行きます。完全に新しい家にロボットを置いて仕事をさせるんです。食器洗いをさせるんですが、人間でも他人の家で食器を洗えと言われるとスポンジがどこにあるか分からないことはあっても、スポンジのようなものを目で探しますよね。違う形のスポンジでもそれっぽければ見つけて自分で食器洗いをします。新しい環境でもこれを全部うまくやる必要がある。それを見せた例です。似た家が似たような形なら行って全部できる。この程度のgeneralizationは達成した、というデモだったと思います。

Physical Intelligence π0.5: 汎化デモ 17:53

18:43 ロ・ジョンソク このπ0を作ったPhysical IntelligenceってStanfordのChelsea Finn教授が創業したその会社ですよね?

18:51 パク・ジョンヒョン その通りです。さっきここ横で作業させていたこの方がChelsea Finn教授です。

18:58 ロ・ジョンソク そうですよね。あのラボでOpenVLAを作っていたと僕も記憶しています。

19:07 パク・ジョンヒョン 本当にたくさんやっていて。モデルもそうだし方法論もそうだしボディもそうだし、ここの創業者は学界の方が2人いて、最も有名なのがStanford、たぶんBerkeleyだったと思います。Chelsea FinnとSergey Levine、この2人の研究者がこのVLA分野に非常に多くの貢献をしました。

19:31 ロ・ジョンソク どんどん行きましょう。ほぼ2年の間に起きた変化ですよね。以前DeepMind RT-1、RT-2、OpenVLAが出た時はおもちゃレベルだったのに、おっしゃる通り去年、この1年でとてつもなく進歩したという感覚があります。

19:49 パク・ジョンヒョン その通りです。去年本当にVLAが一気に出てきました。なので少し混乱し得る用語を一度整理しておくと、僕はRFM Robot Foundation Model、VLA Vision-Language-Action Model、あるいはLBM Large Behavior Modelと似た用語をいろいろ使いましたが、一度整理していきます。まずこの物理的知能、Physical Intelligenceを作るための最重要要素として今挙げられるのがVLAです。VLAは名前からしてすごく単純で、僕たちにはLLMがありますよね。

VLA用語整理: RFM, VLA, LBM 19:55

20:27 パク・ジョンヒョン わざとSmolLMというLLMを一つ持ってきたんですが、HuggingFaceが主導しているプロジェクトです。LLMにvision encoderを一つ付けてVLMを作ります。僕たちが使っているChatGPTのようなサービスはすでに画像を見ていますが、LLMにvisionを付けて目を付けたわけです。なのでSmolLMの場合はvision encoderを付けてSmolVLMのようなものを作って公開しています。そこにactionをもう一つ追加するんです。actionを追加してSmolVLAになります。こうなるとLLMの両側に目と行動を付けて作ったモデルがVLAで、ほとんどのVLAはほぼこう作られています。

現在これはSmolVLAがHuggingFaceで作られたVLAの例にすぎず、このモデルの場合はSmolLMからSmolVLM、SmolVLAまでのレシピが全部公開されています。なので再現可能なVLAです。ただしそこまで圧倒的に良いわけではありません。frontierモデルと見るのは難しく、HuggingFaceらしく追従して試せるモデルだと見ればいいです。

21:39 ロ・ジョンソク actionというのがリスナー理解のためにもう少し整理すると、ロボットがあるとして、僕たちが通常ボディ、embodimentと呼ぶそのロボットは形によってモーターが付いている場所も違うし指が付いているものもありますよね。それらにモーターの座標を与えることで実際にactionが起きるわけですが、そのモーター座標を出力することだと理解すると分かりやすいでしょうか?

22:15 パク・ジョンヒョン ロボットの各関節角度、と表現することもできますし、あるいは手の座標と表現することもできますが、角度と表現するのが一番分かりやすいと思います。人間は筋肉で動きますが、とにかくロボットは中のモーターが回るので、肘が何度に伸びているか、こういうものを全部action valueとして表します。

もう少し簡単な例を考えると、ゲームだと思えば簡単です。ロボットの代わりにゲームキャラクターだと思うと矢印キーを押しますよね。矢印がactionなんです。前へ行け、横へ行け、腕を伸ばせ、これが全部actionです。

10:16 ロ・ジョンソク いいですね。

22:55 パク・ジョンヒョン ゲームの話が出たので一つだけ追加すると、VLAをゲームでも熱心に使おうとしています。ゲーム会社もこれに非常に関心が高いです。VLAをもう少し分類して整理すると、結局Robot Foundation Model、汎用ロボットを制御するモデルを作るための手段で、その手段をVLA、LBMと各自好きに名前を付けて使っていますが、今はほぼVLAという名前に統合されつつある気がします。あるいはRobot Foundation Modelはここでは紹介しませんが、VLAでなくても実装可能なんです。LLMから必ず作る必要はありません。別の方法でもRobot Foundation Modelを実装できるので、そういう努力も一部にはあります。とりあえずここまではVLAとRobot Foundation Modelはほぼalignして呼べると思います。だからこれがうまくいくかと考えると、僕はうまくいくと思っています。楽観的に考える理由は、LLMがうまくいくのを僕たちが見たからです。そのままやればこれもいけるのではないか、単純にそう考えています。

核心ボトルネック: actionデータはインターネットにない 24:01

24:05 パク・ジョンヒョン ではLLMはなぜ賢いのかという点で、僕が思う最大の理由は当然scalingです。その中でも第一はpre-train scalingです。インターネット上のすべての文章を見て知識が膨大だから、その知識を基に行動する。回答しているわけです。ならactionもscalingすればいいのでは、みんな今そう考えているようです。でも本当にできるかと考えると、うまくいかないかもしれないという問題点も挙げられます。なぜならLLMの場合、テキストというデータ、あるいは画像まで含めるとvision問題は画像データがインターネットに散らばっています。持ってきて学べばいい。そうすれば少なくともGPT-3、3.5くらいまでは上げられたと考えられますが、問題はactionはインターネットに存在しないことです。

そのactionデータは実際にはこういう形なんです。見せると、これが実際にロボットが今動作しているactionデータをロギングしたものです。各カメラが人間の目のように視野を見ていて、手首にもカメラを付けて画面を見ていますが、下にあるのがactionデータです。流れているこの部分がaction valueで、これが各関節角度です。腕が伸びたり曲がったりしているんです。こういう動作データ、こうしたactionデータがインターネットに存在しないので学習するものがない。だからscalingが難しいんです。

ここが第一の問題で、ではどうするかというと最も簡単な方法は当然teleoperationです。teleoperationは少し驚いた例を一つ持ってきたんですが、僕もこんなのがあるとは知りませんでした。1957年なんです。今より60年前ですね。70年かな。約70年経っていますが、このteleoperationは昔でもこんなにできていたんです。teleoperationというのはこうやって遠隔で操縦することです。後ろで人が何らかの方法でロボットを操縦して動かし、これをそのままloggingするわけです。もちろん当時はloggingは不可能だったでしょう。あまりに昔でコンピュータなどが整っていなかったはずなので。だからこの時はロボットの動きをそのままloggingする方式で、これは最も有名なロボットの一つでteleoperationシステムです。両腕があり、人が操作しながら作業します。今この状況をそのままloggingしてactionデータが保存され、それを学習させるんです。

データ収集の現実: Teleoperationと多様なアプローチ 25:55

26:58 パク・ジョンヒョン すると似たtaskは全部実行できるようになる。ではこれを誰がどうやっていたか? Teslaです。Teslaはこのtrainingデータをhuman teleoperationで集めている。こうしてVRを付けて集めているわけです。ロボットを操作する映像が公開されました。これを自慢したんです。僕たちはこういうデータ工場を運営していると。現在はこうしていないそうです。別の方法に移ったんですが、とにかくTeslaはこのteleoperation収集のために採用をしていて、2年前くらいだったと思います。2年ほど前に時給50ドルで採用していました。でも応募条件を見ると身長もロボットと似ていないといけないし、1日に7時間以上10kgを背負って歩けること。本当にphysicalな動作をさせるということです。これ僕は無理そうでした。10kgを背負って7時間以上歩くのは簡単じゃないと思いました。

こういうteleoperationを僕たちが前回ライブセッションで直接やってみた例なんですが、僕がVision Proを付けて、これは実ロボットではなくシミュレーター上で操作しているものです。こういうのを直接やると少し酔うことがあります。VR世界で僕がしていることを画面で抜いただけなので、これがデータになるんです。ハンドル移動の問題があります。やってみると2時間で顔が痛くなります。そして4時間すると酔います。長時間作業するのが難しすぎるんです。そして長時間やったとしてもデータがscalableではありません。1人あたり1つ、ロボット1台人1人で1つ。だからデータをインターネットscale、いまの世界にあるインターネットscaleのテキストデータは、インターネットが生まれて全人類が書いた文章が集まっているレベルのscaleですが、これはscalableではない。とにかくteleoperationがあまりに大変なので、少しでもscalableにしようという研究がこれです。

うまくいかないので、これをUMIと呼びます。UMIという研究で、ああいうUIを作って今loggingしているわけです。人がはるかに楽にデータloggingできる方法で、こうしてactionデータを取って学習したモデルが多くあります。現在は他のアプローチもありますが、これはteleoperationです。これはNVIDIAが押している方法の一つです。こういうteleoperationはシミュレーター上で、さっき見せたようにデータを集めます。その次に何をするかというと、水増しします。シミュレーション上で似たようにロボットをランダム化して動くようにするんです。シミュレーター上なので失敗しても大丈夫です。その中で成功データだけ集めます。選別します。それを学習させるんです。

次にこれをtrajectory、軌跡と言いますが、ロボットの軌跡を多様化する。しかもそれだけでなく、同じ動きがあれば材質、背景、照明などを変えてデータをさらに作るんです。状況を多様にして、これはCosmosというNVIDIAが主張するworld modelでデータを水増しするわけです。こうしてデータを大量に作ってscalingする、これがNVIDIAのアプローチの一つです。

シミュレーションベースのアプローチ: NVIDIA CosmosとSim-to-Real Gap 29:20

30:27 ロ・ジョンソク なるほど。前半はまさに強化学習で、後半は以前ImageNetやCNN学習のときに見たdataset augmentationですね。まさにそうです。

ここでdatasetの話が出たので、たぶん何でしたっけ? さっきLLMとVLMとVLAの定義をしてここに来たので、少し混同している方もいるかもしれませんが、actionのdatasetとは何かをジョンヒョンさんがさっきグラフで画面に見せてくれました。カメラ3台があり、その3台のカメラである目的を達成するために、その目的は普通テキストで入るでしょう。で、それを実行するために出てきたモーターを何度動かすか、その組み合わせがどの位置かですよね。manipulatorのアーム先端。こういうものがdatasetで、モデルはこういうデータを学習するように作られているんです。Transformerが下の単語を入れると上で次の単語が出るように作られているのと同じように、これも画像とテキストとこれを全部入れると絶えずactionを出せるアーキテクチャがあるわけです。

それをジョンヒョンさんがVLAと定義したわけで、それを学習するために作られたdatasetを見せてくれたわけで、そのdatasetがなぜ言語と違って得にくいのか、そして得るためにシミュレーターや直接のteleoperationの形でdatasetを取得するという部分をお話しいただいた、という理解でよさそうです。

では次の段階に進みましょうか?

32:09 パク・ジョンヒョン この図で少し補足すると、こうしてvisionと言語がinputでactionがoutputになるんです。これを生み出すのがVLAです。

32:20 ロ・ジョンソク task 248と出ているけど実際は中にテキストがあるはずです。そうですよね。

32:22 パク・ジョンヒョン そうでしょうね。

32:24 ロ・ジョンソク 服をこう畳んでこの形に折れ、というaction、それがあります。目的が。一番重要な問題を実は指摘してくださったんですよね。

そしてジョンヒョンさんが言ったdataset生成がscalableでないことが、この市場の今最大の問題であり機会でもあり、あるいはNVIDIAのような大企業だけでなく小規模スタートアップも今多く機会を見つけている領域だと見ればよさそうです。

32:55 パク・ジョンヒョン なのでここに全手法を書いてはいませんが、例えばMetaの場合はメガネのようなものがあります。メガネにカメラを全部付けて、それを装着してloggingして行動しろという製品を出しています。するとそのメガネがデータ収集装置になるわけです。まずhumanがどうactionするか、そのメガネの場合は手の位置や座標、指までは無理でもそれをできるだけ自動取得する機械があります。なのでメガネ形態かもしれないし、Vision Pro形態かもしれないし、さまざまな方法でデータを取ろうとしています。

僕が期待する最大手法の一つは、実はロボットがまず売れることです。ロボットが売れてデータが回り始めれば、それ自体がデータになります。

33:45 ロ・ジョンソク ある一つのform factorがすごく安いこと。実際ジョンヒョンさんがやっていたHuggingFaceのLeRobotなどもこういうinitiativeとつながっているんですよね。ある決まった標準形のform factorが売れて、外に出てdatasetもopen domainで増えて、そういうものにコミュニティから多くの試みが出てきそうだなと思います。

34:09 パク・ジョンヒョン その通りです。HuggingFaceは会社というよりコミュニティ会社ですよね。まあ曖昧ですが、とにかくコミュニティ志向なのでロボットもオープンソースで作り、ハードウェアもソフトウェアも全部オープンソースで作ってチュートリアルも作りイベントも開き、ロボットをできるだけ配ってそのデータが全部HuggingFaceに上がるようにしました。そしてそうして集めたデータで、人々が自分で学びながら上げたコミュニティデータで作られたモデルがSmolVLAです。なのでSmolVLAのpaperを見ると企業repoのようにHuggingFaceのdata repoがずらっと書かれています。このデータで作った、お前らのデータで作った、と。

それから話が出たついでにもう一つ。表示してたかな。僕が最も期待しているのがflywheelで、これは別のところで使っていたものですが、この1Xという会社にNEOというロボットがあります。こういうヒューマノイドで、ここでもteleoperationをしていますよね? こういうのはできません。この会社はすごく攻めたマーケティングをします。これも今iShowSpeedという、たぶん何千万、1億近いYouTuberだと思いますが、ストリーマーですが、このNEOというロボットがMrBeastチャンネルにも出ていました。出てきて野球で人間と対決みたいなことをしていましたが、とにかく宣伝を熱心にやっています。このロボットを今売っています。予約購入を去年受けました。僕も注文しました。でもこのロボットは当然VLAがまだ完璧ではないので家事を全部やるのは難しいですよね。なのでどうするかというと、Teslaのように家事はteleopでやる、あとで良くなる。とりあえず広告では洗濯物たたみは全部うまくできると言うけど、できないものはteleopでやる、と言っているんです。

35:59 ロ・ジョンソク それはすごくいいビジネスモデルですね。まずハードウェアを配って入れ、でもソフトウェアはまだなのでソフトウェアは遠隔で人がやる。代わりにそこで得たものを使って、customerは問題が解決される体験をし、会社はdatasetを得る。双方win-winでデータ獲得もでき現実の問題も解け、すぐに事業的効用もある。すごくいいアプローチですね。

36:22 パク・ジョンヒョン あのロボットは本当に予定では今年配布されるんですが、配布されて家庭で仕事を始めればデータがscalableに、かなりscalableに積み上がる窓口になり得ると期待しています。なので僕もすぐorderを入れました。

36:38 ロ・ジョンソク いいですね。実際Teslaもこの戦略を正確に使いましたよね。まず完全完成していないFSDを売って、基本機能Autopilotから始めてAutopilotを進化させ、高速道路だけできます、その次に自動車専用道路できます、そうして市街地走行、その次に田舎道走行、と広げていったわけです。結局ジョンヒョンさんが最初に言ったこのoriginal datasetのcoverage問題とも正確にalignした問題に聞こえますね。

37:08 パク・ジョンヒョン できるだけ多様な環境で。

でも良いビジネスモデルだと思うのは、人件費は国によって本当に大きく違うのでteleopは人件費が低い国でやってもいいんです。そうすると人件費の高い国にロボットが配布され、そこに家事を、実際には代替ボディであるロボット本体さえあれば安い国の人件費でできるので、世界的に見るとphysicalな労働の価格がそろっていく契機になるかもしれないという気もします。

37:40 ロ・ジョンソク そういうのは研究ではなくビジネスならではの面白さでもありますね。面白いです。

37:43 パク・ジョンヒョン まとめると、data scalingがとても難しいので、これを集めるための努力を多くの会社が多様な方法で行っている。正解がどうなるかは分からない、ということです。

まず僕が期待しているのはあのシミュレーション、NVIDIAが主張するシミュレーションです。大きくはNVIDIAにはIsaac Simという物理シミュレーターがあり、その次にworld modelを進めながら物理シミュレーターではなく、実際には映像生成モデルベースのシミュレーターになるんです。シミュレーションが完全になれば、実質仮想でデータを全部作れるのでaction scaling問題は解けるはずです。

でも現状ではシミュレーションとrealのギャップがあるのでsim-to-real gapと言います。このギャップを埋めるのがまだ難しすぎるのでNVIDIAもデータを混ぜて使います。teleoperationデータ、実データ、仮想シミュレーションデータ、水増しデータを集めて混ぜて学習していますが、シミュレーションが精緻化すれば急に解ける問題かもしれないと僕は考えています。

Scaling Lawとタイムライン展望 38:46

38:47 チェ・スンジュン この分野にもscaling lawのようなものはありますか? それが一つの質問で、二つ目はスケーリングが動くとすると常に創発的現象があったので、他領域でも似たものがあったのか気になりますね。

39:01 パク・ジョンヒョン scaling lawが適用されるかについては、これは僕が意見だけ書いて中身は全部Claudeが調査したものですが、こういう内容、研究があります。例えばGeneralistという有名な方々が出て作った会社があるんですが、そこでデータスケーリングをUMIスタイルで非常に大きくやって、最大限集めて試したらfullデータ、つまりteleoperationデータが多いほどはるかに良い、という同じlawを数値で証明しました。

ただここでのスケーリングは当然LLMほどのデータが存在しないので同レベルではありませんが、集めれば集めるほど良くなるという観察は同じようにできたようです。NVIDIA GR00Tでも合成データを最大限入れたらどれだけ良くなるか、Physical Intelligenceにも似た研究があります。

まだかなり初期段階ですが、ほぼすべてのVLA開発現場で似た話をしています。データが増えると良くなるのは確実。ただどこまで行くかは分からない。

07:56 ロ・ジョンソク 同じですね。

40:17 パク・ジョンヒョン こういうのはやってみないと分からないです。それからそのemergenceが観察されたかというと、僕の知る限り今のところ特別にすごいものはないと思います。現在はin-distribution、つまり学習させたケースはほぼ確実にできて、out-of-distribution、新しい環境でもうまくいくかが気になるところで、一部はできるところまで来たようです。これがスケールがさらに大きくなると、おっしゃるようなemergentな何かになるかというと、僕は楽観的です。なぜならLLMができたからこれもできるでしょうし、人間もできるからできるでしょう。このくらいで考えています。

41:03 ロ・ジョンソク 僕も明確に同意します。LLMも最初そうでしたよね。この問題は解けない、あの問題は解けないを延々と打ち破る連続で、ベンチマークだけ出せばone policyで全部作る段階に来たわけですから。このrobot foundation modelは、あえて言うならGPT-2くらい、その段階だと見ればだいたい近い感覚じゃないかと思います。

41:31 パク・ジョンヒョン そうですね。最初のgeneralityを見せ始めた段階、と言えます。

41:39 チェ・スンジュン 要するにこれはいつかというタイミング問題なんですよね。雰囲気がどれだけ形成されたかって話ですよね。感覚的には。

41:47 ロ・ジョンソク でも市場インセンティブが、LLM側はいまもう何か終わった、大企業がすでに終わらせたという認識が支配しているので、投資コストも非常に大きい。そしてこのPhysical AI側にはジョンヒョンさんも良い例ですが、すごく賢い人たちがものすごく投入されています。するとここも資本とtalentが出会っているので時間の問題で、どんどん加速している感じがします。

42:14 チェ・スンジュン じゃあGPT-3が出そうな頃合いということですね。

42:20 ロ・ジョンソク GPT-3がもう今年すぐ出るし、実際ChatGPTモーメントとさっきジョンヒョンさんが言った、ここでも何かfoundation modelと呼べるポイントが今年中に来るのでは。ジョンヒョンさんの時間予測はどうですか? 今年夏くらいならここも拍手喝采の雰囲気ですよ。僕の感覚では。

42:39 パク・ジョンヒョン GPT-3モーメントをどの程度で見るかによると思いますが、結局本当にユーザーが使えるレベルと定義するなら、僕は今年だと思います。

36:22 ロ・ジョンソク 今年。

42:57 パク・ジョンヒョン 遅くても来年だと思います。本当にロボットが配布されて特定task、かなりgeneralなtaskを市場で取り始める瞬間。今年か来年だと僕も思います。

43:06 ロ・ジョンソク 実際の会社でどうしているか正確なデータはないんですが。多くの会社も例えばLLMでもそうですよね。アーキテクチャは数種類に収束し、Transformerでも少しの変種が出続けるように、ここでもVLAが以前RT-1、RT-2、VLAからChelsea Finn教授のπ0、そこが作った変化、その次にSmolVLAが見せた変化、その次にNVIDIA GR00Tもオープンソースで出したと見ますが、どのハードウェアを使うかによって、小さなハードウェアならオープンソースを使い大きければ大きいモデルを使う気がしていて。

モデルとこのハードウェアが決まれば、これはdataset生成すればだいたい全部いける問題になっているんですか?

アルゴリズムとdataset取得の間で、どの比率で努力が投入されるか、どの程度で受け止めればだいたい合っていますか?

VLAモデルの収束進化と残る論点 44:04

44:05 パク・ジョンヒョン 数値で表すのは難しいです。

44:07 ロ・ジョンソク 体感でお願いします。

44:14 パク・ジョンヒョン アルゴリズムというより、モデルはある程度収束した気がします。モデル構造、VLAはだいたいこう作ればよい。ただ他の論点、まだ解決されていない論点がある気がします。例えば触覚は必要か、あるいは指は必要か、ただのグリッパーでもいいのか、5本指は必須か、あるいは他に何があるでしょうか?

いまLLMから上がってきたVLM、VLA、この構造自体に本当に限界がまったくないのか。もっと異なる次元の問題を解いているように見えるんです。

つまり当面のtaskは、こう区分できる気がします。teleoperationで僕たちができるtaskは、データさえ集めれば本当に必ずできる気がします。

でもteleoperationでできないtaskがあるんです。僕も実際に動かしてみると、例えばteleopで一つだけすぐ見せます。これはPhysical Intelligenceの主張でもあります。teleopで、あるいは5本指が必要か、5本指はかなり難しいんです。

45:28 ロ・ジョンソク だから会社ごとに複雑なハードウェアform factorを置いて複雑な問題をビジネスポジションにしているケースをよく見ますよね。だから私たちは5本指form factorのロボットと特定ドメイン問題を組み合わせたこの問題を解く会社だ、というのがあって

結局でもそれは5本指でなく2本指、あるいは従来のgripperで解ける問題かもしれないし、その違いで全部変わるわけですよね。

46:01 パク・ジョンヒョン 僕が直接やってみたんですが、僕のチャレンジです。ギアを組み立てるんです。teleoperationでギアをこう組み立てるのを僕が直接teleoperation実装してやっていますが、本当にできないんです。なぜできないか考えると穴が小さすぎます。ぴったりはまる組立なんです。機械組立。これは触覚がないので無理でした。

34:23 ロ・ジョンソク 実機?

46:21 パク・ジョンヒョン いいえ、それはシミュレーター。

46:22 ロ・ジョンソク シミュレーターですよね。

46:26 パク・ジョンヒョン 触覚がないので本当にうまくいきません。こういうtask、触覚が必要な作業が思ったよりこの世界に多いんです。僕が実際にやっている、人間がやる行為の中に。なので触覚は必要か不要かという問題に入ると、そこに集中する会社がある気がします。会社ごとに方向が完全に違いますが、第一に触覚がなくてもできる仕事は非常に多いです。食器洗いなどは触覚なしでもできます。でもこうした触覚が必要な作業を自分は解くというところは、触覚をどうするか、センサーはどうあるべきか、そういう問題を解いているようです。

なので戻ると長くなりましたが、会社ごとにどう研究するかというと、こうしてnicheな問題をそれぞれ違う定義で設定している気がします。本当に人間のあらゆる労働を全部やるというところは、特に学界がそういうアプローチですね。触覚に多くの研究をしているようです。例えば学会に行くと半分くらいは触覚の話です。でも業界ではそこに集中するところはそれほど多くない気がします。データをスケーリングして、まず今すぐお金を稼げるところに集中している気がします。スタートアップはほとんどデータに集中し、ハードウェア企業はより精密な手を作る努力をし、学界は触覚やRL、この分野でもreinforcement learningをどうするかという研究をしている、そう整理できると思います。

その質問内容をやろうとしていたんですが、モデルを見ようと思います。実際そういうVLAがこれにどれだけ研究しているか、これは去年出たモデルを見ると整理しやすい気がします。実は最新順で整理して逆順にしていたんですが、さっきおっしゃったRT、RTですね。Googleが熱心にやっていたRobotics Transformer、つまりTransformerをaction出力するようにしたものです。この時は結局言語出発なので行動を言語のように見たんです。同じくトークンが出てそのトークンが行動にマッピングされる。そうするとこういうことができる。RTシリーズが出て、2024年、一昨年ですね。一昨年にOpenVLAが出て、これはオープン陣営でここまで来たんだというのを最初に見せた気がします。僕が思うにはこのVLAの始まり、正確には研究は前からしていましたが、大衆が関心を持つ契機はπ0だったと思います。

Physical Intelligenceのπ0が出て、これできるんだ、と最初に気づいた。結局このπ0は去年π0.5、π*0.6と出てきました。なのでこのモデル群、去年のモデルを見るとこうしてたくさん出ました。Figureのさっき見たHelix、NVIDIAのGR00T、GoogleのGemini Robotics、HuggingFaceも出し、Boston DynamicsもLBMをToyota Researchと共同で出し、こういうモデルが続々出ましたが、これ以外にも実際かなり多く出ています。出ていますが収束ポイントを見ると2025年、僕はこう挙げたんですが、これは実は共同ホストのJさんがこの意見を持っていて僕も同意した部分で、収束進化した。

VLA系譜: System 1/2アーキテクチャ 48:04

50:08 パク・ジョンヒョン なのでモデルを開いてみるとほぼ全部似ています。第一ポイントはSystem 1, 2構造を持っています。これスンジュンさんが以前話していた気がしますが、Kahneman, Thinking, Fast and Slow。とにかく人間知能がどうできているかを借用してモデル構造に溶け込ませているんですが、見てみます。

GR00T N1.6、これは秋頃に出たバージョンです。見るとSystem 1, 2構造です。VLMがあり、Diffusion Transformerがあって2つを組み合わせた形です。このVLMは結局僕たちが知っている有名なVLMです。これはバージョンごとに中身が少し違いますが、とにかくこのモデルはvision inputを受け、language inputを受けてoutputが出ます。僕たちが知るVLMと同じです。GPTと同じです。でもここでoutputをtokenizeすることもできるし、トークンにする前のベクトル形で出すこともできて、そう出力して最後にDiffusion Transformerを一つ付けて、ここにこの解釈結果、今何をすべきか、いま目で見ている環境はどうか、そういう理解結果とrobot state、自分のボディ状態をinputとして受けるとactionトークンが出ます。

51:31 ロ・ジョンソク その上でヘルツと話していたのは、このSystem 1とSystem 2でSystem 2がトークンを1回吐く時にSystem 1は数十倍吐く、そう解釈するんですよね。周波数が違うという話で。

51:49 パク・ジョンヒョン 状況認知はゆっくりでいいです。10秒に1回でもいい。でも例えば行動は非常に速くないといけません。反応が速くないとバランスも取れないし取りこぼさないし、多くのことができません。actionはもっと速くないといけないので分けたわけです。

52:01 チェ・スンジュン 面白いですね。System 2が先なんですね。

52:05 パク・ジョンヒョン ここではこう付けています。数字は1,2ですが、大きな認知と高速反応が必要なactionは分けるべきだということです。

52:14 ロ・ジョンソク LLMで話すSystem 1,2とは少し違う概念な気がします。

52:21 チェ・スンジュン 直観は本来System 1側で速いのでこうなっているんですね。Diffusion Transformerが使われるのは結局actionが生成される意味ですよね。

52:29 パク・ジョンヒョン Diffusion Transformerがaction valueを作るんです。

52:32 チェ・スンジュン 多様に多様に生成される感じ。

52:35 パク・ジョンヒョン それからFigure Helixも見ると

52:37 ロ・ジョンソク そのdenoisingと書いてある部分がVLAと違うところですね。OpenVLAは一つのTransformerモデルでトークンが出ていたけど、これはactionを分離してaction部分はDiffusionモデルで生成する形に変わっているんですよね。そうですよね。図がよく描けています。

53:03 パク・ジョンヒョン それからHelixも同じです。Figure HelixもSystem 1,2構造でほぼ完全に同じです。違う点があるとすればSystem 2でもrobot stateを受けること、こういうディテール差はありますが実はそこまで重要ではない気がします。とにかくこれも大きいモデルがゆっくり状況認知と命令受け取りで考え、その認知ベクトルを受けてactionを作るモデルが高速で200Hzでactionを作る。

Gemini Roboticsも同じです。Gemini Roboticsは上下もSystem 1,2に分けていますが、状況認知モデルはクラウドで回し、クラウドでGeminiが回りながら状況認知、visionで状況把握し会話し命令受けreasoningしコードを書く、できることを全部やって、解釈結果をactionを吐く小さいモデルに送って、そのモデルはローカルで回るんです。

なのでGoogleはこのクラウドで大きいものを回すことを事業モデルとして販売しようとしている気がします。分離して遅いものはクラウドで回す、代わりに大きいGPU、サーバークラスGPUを使えるので賢くできる。僕は良い方法だと思います。

54:21 ロ・ジョンソク さっき見せたこのモデル群で、外のオープンドメインに完全にコードベースが出ているのはNVIDIA GR00Tだけなんですよね。πモデルやSmolVLAは当然オープンモデルだと思うけど、複雑度が低いモデルという認識があって、NVIDIAはヒューマノイド対応だから非常に多く対応しているモデルに見えるんですが、そう理解して合ってますか? それとも雑すぎる理解でしょうか?

54:52 パク・ジョンヒョン 少しターゲットが違う気がします。ここで3つ紹介したのはSystem 1,2構造だからで、NVIDIA GR00Tは完全オープンソースですがそこまで大きいモデルではありません。3B、7B程度で完全オープンなので使いやすい利点があります。πはclosedモデルですがオープン版があります。オープンソース公開があり、すべてがオープンではないですが、使える程度にはオープンです。

次に、まずSystem 1,2構造がなぜ必要かというと、今日の始まりであり結論でもある話ですが、intelligenceは実はある程度2つに分かれていることを示している気もします。状況判断や思考をするcognitive intelligenceと、本能的に反応すべきphysical intelligenceが人間の脳でも分かれているのではないか。もしこの実装方式がRobot Foundation Modelとして最も効率的構造だと分かるなら、実際の脳もそうではないかと逆に分かる契機になるかもしれません。

55:57 ロ・ジョンソク 完全に同意です。

連続行動とDiffusionベースのアプローチ 55:59

56:00 パク・ジョンヒョン 次の収束ポイントはcontinuousなactionを出すことですが、これはさっきの質問にもつながると思います。RTやOpenVLAはaction valueがdiscreteなんです。LLMが元々Transformerで、出力トークンがautoregressiveでdiscreteだからです。単語は連続ではありません。

でも画像を考えると、だからこそ僕たちは画像もDiffusionでよく作りますよね。画像もcontinuousだからです。同じようにactionも実はcontinuousです。例えば「こんにちは」と「ハロー」には、この2トークンの間がありません。0.1こんにちは、0.9ハローというvalueはありません。トークンがdiscreteだからです。

でもactionはcontinuousなので中間が全部存在しなければならず、だからRT-1などの動作を見るとかなりカクカク途切れます。なので連続反応が必要なものがうまくいきません。

そうなるとactionはcontinuousでなければならないのでどうするかとなって、多くのモデルがDiffusionを参照し始めます。ここにある例はDiffusion Policyで、これはTransformerベースではなく本当にDiffusionだけでactionを作るモデルです。これもセンセーショナルにうまくいくことを示した初期研究の一つで、今は混ぜ始めたわけです。DiffusionもTransformerに付け始めたんです。

System 1,2を付けたようにcontinuousで素早く生成できるんですが、denoisingを連続で行う必要があるので演算方式が少し違います。

57:38 チェ・スンジュン denoisingを単独で全部やるわけではないですよね。

57:41 パク・ジョンヒョン このDiffusion Policyは単独で全部やります。

57:44 チェ・スンジュン フルでやるんですか?

57:47 パク・ジョンヒョン この研究はそうでした。最近のVLAは混合です。

57:52 ロ・ジョンソク これってDiffusionが一回回るたび複数action stepを見せるけど、その中間stateへ行く間もstateが絶えず変わっていますね。複数state、action stateが重なって次々出るようなことを動画が見せようとしている気がします。

58:12 パク・ジョンヒョン 未来actionを一気に吐いたけど、その行動を全部する前にDiffusionがまた回る、それをおっしゃってますよね。できる分だけやるんです。なぜなら未来予測で行動したけど実際に行動すると相互作用が変わることがあります。するとその観測値に応じてactionを再生成しなければならない。人間もそうですよね。バランス取りなどがまさにそうです。なので可能な限り速いほど当然よいです。

なのでπ0もこういう構造です。pre-trained VLM、これはたぶんPaliGemmaを使っていたと思います。これもバージョンごとに少し違うので、VLM、僕たちが知るよく使うVLMを持ってきて、その後ろにここではaction expertという名前ですが、ここはFlow MatchingというDiffusionに似たアルゴリズムを使います。2つを付けて、命令と言語とカメラが入るとそのままactionが出る。同じように作られています。

これはNVIDIA GR00T、さっきのはN1.6でこれはN1です。全部似ています。これはSystem 1,2分離前のN1時代でVLMの後ろにDiffusion Transformerが直接入る形で、これもSystem 1,2構造と言えますね。この時はその言葉を使ってなかっただけです。

SmolVLAも似ています。VLMがあってSmolVLMにaction expert、同じくFlow Matchingを付けてaction出力をcontinuous valueにする。なので中身を見ると全部同じような形です。これを見るとさっきの質問への答えになります。大きくは違わない。ここがばらばらに多様な研究をしている感じではない。細部差はありますが

1:00:07 ロ・ジョンソク 出発点は少しずつ違っていたけど、みんなこの方向に収束した。vision、System 1,2方式で認知担当とaction担当が分かれた。

1:00:17 チェ・スンジュン 面白いのは、僕にはDiffusionとTransformerが現世代の動作原理ですよね。多くがそれを使うから、これもそれならいけるという経路、まだ不足、データ不足などはあるけどいける経路だという印象ですね。別の例で

1:00:34 ロ・ジョンソク いけるというより、かなりうまくいっている。

1:00:34 チェ・スンジュン うまくいってますね。

1:00:42 パク・ジョンヒョン 僕も同じです。ここもいける、と見られると思います。

1:00:46 ロ・ジョンソク そうですよ。これもやはりいける。

1:00:48 パク・ジョンヒョン action以外もいけるかもしれないし、他分野も全部いけると思えてきます。

1:00:54 チェ・スンジュン 転用できるんですね。概念が。

1:00:56 ロ・ジョンソク ただのmodality拡張ですね。

1:01:00 パク・ジョンヒョン そして今年出た2つ、イントロで説明したSharpaとこれを見せると、ここも似ています。2つは触覚を追加したのでVision-Tactile、VTLAと呼びますが、ここはSystemが0,1,2です。

1:01:19 ロ・ジョンソク 0が入ってますね。

1:01:21 パク・ジョンヒョン 0が一つ増えました。そして触覚は0にだけ入る。3段階に分離し、触覚は本当に高速反応にだけ必要だと考えているようです。

1:01:29 チェ・スンジュン なるほど、これはreflexが強いものですね。より根源的な層に上がるんですね。

1:01:36 ロ・ジョンソク ただ基本骨格は似ている。

1:01:39 パク・ジョンヒョン とにかくゆっくり考えて状況認知して思考し、どんどん反応速度が必要な層へ下りる。そしてFigure Helix、これも見ればSystem 0,1,2です。

1:01:55 ロ・ジョンソク ここも0に該当する何か、そうですね。0, Human-like Soft Motor Trackingとありますね。つまり微妙な、その何というか。

1:02:05 パク・ジョンヒョン Stable Motion Trackingですが、補足すると、例えばLBMではSystem 0の位置がrule-basedでした。actionトークンが出るけどactionトークンでロボットを制御すると例えば転びます。あるいはactionが完璧でないので手先がぶつかるとか行動で誤りが出ることがあります。歩行はすでにうまく作ってあります。以前RLベースで作るか、あるいはMPCという僕は詳しくないですが、ロボティクスで昔からやってきた物理的方法でどこを踏めば重心が取れるかを計算するロジックが全部あります。なのでそういう助けを受けるんです。受けていました。以前はactionトークンが出てそこに制約や補正をruleで加える実装が多かったですが、今はそれをなくす。そこも全部モデルでいい、というアプローチに見えます。

ここでサイズを見るとSystem 2が7B、System 1が80Mで、Figure 01時代はこの2つがあり、10Mのもっと小さいものが一つ追加されたんです。そして小さい方はこの図によればreal to sim, sim to realのデータを作ってシミュレーションデータが混ざっているとあるので、結局ここにRLが入った意味に見えるんです。僕の感覚ではHelixはオープンソースではないので正確には分かりませんが、とりあえずここまででVLAがだいたいこう収束進化してこの方向で進んでいる、みんなだいたい似ている、ということが分かりました。

Physical Intelligenceとは何か: モラベックの逆説 1:03:48

1:03:52 パク・ジョンヒョン そして最後に整理したいのはPhysical Intelligenceとは何か、これを考えてみたいです。結局VLAを作ることはPhysical Intelligenceを解いていく過程だと思っています。LLMでAGIを作ることが知能を解く過程だと考えていましたが、ここでさらに分割するわけです。

最も有名な例があります。DARPA Challengeという10年ほど前の出来事で、誰もドアを開けられないケースがありました。みんなこれができないんです。いやドアを開けるのがそんなに難しいのか、なぜ誰もできないのか。これがミームになりましたが、今も似ています。これをMoravec’s Paradox、逆説と言います。チェスなどは頭脳が必要で知能が必要だと思いますが、ポケットに飴や鍵やコインがある時、鍵を取り出すのはすごく簡単にできますよね。何でもなく。こういうことを普通知能とは呼びません。賢さを語るとき、これが上手いから賢いとは言わない。でもいざ実装しようとするとこれが難しすぎる。なぜ難しいのか、何が違うのか。

それで僕が昨日撮りました。MITのキム・サンベ教授は長くロボットをやってきた方で、この方のトークを現場で見てすごく印象深かったので僕もやってみました。目で見ずにここでピンを一つ掴みます。スローモーションにしたものですが当たり前ですよね。人なら99.9%成功する仕事です。失敗しない仕事です。そしてスローモーションだからそう見えるだけで1秒もかかっていません。撮影時間は1秒未満ですが、僕がある言葉を掴んだ時、この状況で見て僕がどの言葉を掴むか予想できますか?

46:21 ロ・ジョンソク いいえ。

1:05:51 パク・ジョンヒョン 予想できないですよね。これをrule-basedでvisionで取り、グリッパーで掴むロボットを作ると考えると普通一番上を掴むのが最適だと思うんです。でも人間はそう動かない。object detectionで座標を取り、それでロボットを制御して物体を動かすのがVLA以前のほとんどのロボットでしたが、その方式と違いすぎるんです。とにかく人間のPhysical Intelligenceを見ると、僕が掴もうとした時点ですでに一度失敗しています。適当に触れたものを掴もうとして失敗し、僕の手には触覚が入っていて、この触覚は非常に高次元の値が入ります。手のcontact pointが非常に多いので。その触覚を基に何を掴むべきかを無意識に判断して、引っかかったものを掴むわけです。

1秒しかないのに、その中に非常に多くのデータ処理と高速意思決定があった。これが実はPhysical Intelligenceなんです。

なのでスローモーションを見ながら整理すると、その中に意思決定が実は5回もあった、少し誇張して5回あった、ということです。似た例が舌です。舌は食事中に非常に多くの仕事をしますが、昼と書きましたが今は朝なので例えば昨日の夕食に何を食べたかは覚えていても、そのとき舌が何をしたかは全く覚えていない。勝手にやっているわけです。

なのでこれはCognitive Intelligenceとは違う。reasoning tokenが出て考えるのとは完全に違う知能だ、という考えになります。これはすべて教授のトークを聞いて納得した内容です。内容は一度見ることをおすすめします。TEDにもあり多くの場所で講演されていて、知能について考える良い契機を分かりやすく説明してくれます。すべて同意しているわけではないので、同意する部分だけ持ってきました。ではなぜこうなるか考えると、進化的観点で説明する人がいます。こういう運動、Physical Intelligenceは10億年かけて進化した能力で、人間だけでなく多くの動物が持っている能力ですが、チェスや囲碁、抽象数学は進化的にはそこまで長期間かけた能力ではない。だからむしろこちらが当然だと思うのに難しいのかもしれない、という考えになります。

だからリスは飛ぶときニュートン力学を計算して飛んでいない。でもVLA以前のMPCというアルゴリズムはこういう力学を計算して、どこにどう力をかければどう進むかを完全に計算できますが、人間の脳で動くPhysical Intelligenceとは違う。その次に次元と速度の観点で考えると、人間には触覚があって、visionや触覚の物理情報は次元が非常に大きい。でもテキスト、languageの世界はトークンなので、いまのtokenizerは200Kくらいのトークンを使いますよね。20万種類から1つ選ぶ連続としてlanguageを扱っていて、かなりabstract化されている。次元が非常に小さいということです。visionや触覚に比べると。だからそもそも処理すべきデータが大きすぎる。そしてテキスト世界はすでに非常に効率的です。難しい思考や学習にはむしろかなり効率的です。

不要情報が一つもありません。だから僕たちはRLVRのようなことをして、これが知能、賢さを作る研究に必要で効率的だ、言語が非常に重要だと考えますが、実は言語はほぼ人間だけが完璧に使うので、ああいう物理的なものは少し違うということです。

しかもこれはナノバナナを作ったGoogle Developersチャンネルに出たナノバナナチームの話で見たのですが、言語にはReporting Biasがあると言うんです。例えば僕が昨日他人の家に遊びに行って、帰ってから文章を書く。どうだったか。僕が昨日別会社にミーティングに行って、建物がすごく立派で海が見えた、みたいな話をする。印象深かったことを話します。そういうものはデータに残る。でもその建物の壁が白かアイボリーか、椅子がどうだったかは書かない。reportingしません。なぜなら当然だから。もし椅子が非常に特殊な形だった、壁色が特殊な装飾だったなら書きますよね。すごく特別で意味のある情報だけがテキスト世界に残ります。LLMにも同じ問題があります。

テキストを全部学習し、インターネットスケールでデータを全部学び知識も学んだのに、「象を冷蔵庫にどう入れる?」に対して無理だと言うべきなのに、入れろと言う。ドアを開けて入れればいいです、と。なぜなら人間にとって当然だった、象は巨大だから冷蔵庫に絶対入らない、こういうことがテキストに書かれていないからです。テキスト世界には実はかなり欠落情報が多い。基本的な欠落情報が。Physical Intelligenceはそういう情報を扱う問題だ。だから少し違う次元の問題かもしれない、という考えになります。

なので結論としてPhysical Intelligenceは少し違うということ。次に実際AIはLLMも同じですが人間と学習方法も少し違うということ。人間は経験を通じて、特に物理的なことは文章より経験で多く学びますが、それが今はうまく実装されていないので難しいかもしれない。ではうまくいかないのかという最後の質問には、僕はできると思います。なぜなら今こういう難しさがあっても解決方法があまりにも多いし、LLMも同様にここも同様で、人と同じ学び方をする必要はないと思います。人が得意で彼らが苦手なことはあるでしょう。でも世界を変えるほどのPhysical Intelligenceは十分達成可能です。こう考えていて、代表例が触覚です。実装が難しいので最近のヒューマノイドを見ると手のひらや手の甲にカメラが付いていますよね。そういうvision情報でも何らかの行動は実現できます。

人は目が顔にしかないし手のひらに目を付けられませんが、ロボットは付けられるので。自動運転車も同じでLiDARなどを付けて人が苦手な距離感データを取って解けるので、どんな方法でも十分達成可能だと思う。スケーリングさえできれば、僕はこう楽観的に考えています。ここで締めます。

1:13:23 ロ・ジョンソク 今日は全体概観を話していただき、その次にどんな変化があったか、それぞれの概観領域でうまくやっている会社、研究機関、モデル構造、そしてその周辺のさまざまな問題点や哲学的質問まで全部カバーしていただきました。そして最後に短く言われましたが、これも結局すぐ実現するゲームだ。ここでプレイしているスタートアップはファイトで、これから参入したい多くの方にとって、この部分はLLMと違ってこの各ドメインと呼ぶべきか、あるいはlast mile problemと呼ぶべきか、最近その概念が少し混乱するんですが、なぜならドメインだとしても残っているのはlast mileだけだからです。

前にあるものはgeneral intelligenceがほぼ終わらせていて、その多くのlast mileが依然として機会として残っているので、これは今年来年かなりホットだ、LLM列車に乗れなかった人材は行ってみる価値がある、という程度の考えです。

事業の方向性: コミュニティ戦略とゲームシミュレーション 1:14:27

1:14:30 パク・ジョンヒョン 僕もまさにその考えでこれをやろうと思っています。

1:14:35 ロ・ジョンソク ジョンヒョンさんはどんなアイデアを持っていますか? ジョンヒョンさんは実際このVLA分野をずっとトラッキングして、ここに何か機会がありそうだという感覚を磨き続けていますよね。そうしながら今会社はどこへ向かっているのか、僕たちの表現ではみんなどこかへ逃げていったじゃないですか。行って一つずつやっているんですが、ジョンヒョンさんはどんなポジションでやるのか、それが気になります。個人的意見、個人的方向性、事業アイデアのようなものがあれば話してもらえますか?

1:15:10 パク・ジョンヒョン 僕がやりたいのは今のところ大きく二つあります。勝てないなら合流しろという言葉がありますが、LLMも大手プレイヤーのスケーリングを追うのは簡単ではないですよね。ここも同じだと思います。大手のスケーリングに追随するにはそこに合流しないと難しい。

なら彼らがやらない何かのパートがあるはずで、第一に僕はHuggingFaceの戦略に個人的に同意していて好きです。コミュニティが勝つこともある、そう考えます。そして結局ロボットがLLMと少し違う点はボディが高いこと。このボディを安く作って配布し大衆化する仕事をやってみてもいい、というのが第一です。そこではボディを安くするだけでなく、人々が日常で使えるtaskをVLAで作って提供することを一緒にやる必要があります。そしてそのデータをコミュニティが集めて皆で知能を上げる。全員が貢献する方式にも行けると思います。

もう一つ別方向は、僕は子どもの頃からゲームが好きで、ゲームは実は物理シミュレーションとかなり似た部分があるので、ゲーム世界でのaction、最近はworld modelと表現されることが多いですが、world modelでも物理シミュレーションでも、このゲームが突破口になるかもしれない。そういう仮想世界と現実世界をつなぐ作業、データ問題も解け、何よりevaluation問題が解けます。実生活でロボットをevaluationするのは非常に高コストなので、そういう方向にも機会が多いのではと思います。

1:17:06 ロ・ジョンソク つながる点がある気がしますが、どちらもお金では解決できないスケールを解く方向性について話してくださった、と受け止めています。ではジョンヒョンさん、その第一のコミュニティと進む方法をやる場合、さっきおっしゃったSmolVLAや次のモデルはオープンモデルですよね。僕たちがこの分野に飛び込みたい立場から、今始めるなら学習経路を教えていただくと、最初にどのpaperを読むのが良いか、次にどのハードウェアform factorでどのコミュニティから始めるのが良いか、興味ある人は自分のところに来いみたいな、いろいろガイドがありそうなので、ガイドをください。勉強はどこから始めればいいですか?

入門ガイド: LeRobot, Physical Intelligence論文 1:17:10

1:17:53 パク・ジョンヒョン 研究者になりたいなら良いハードウェアが必要なので、実際には合流するのが正しい気がします。大企業や研究室、研究組織に。でもそれがなくても十分フォローアップできます。オープンソースハードウェアがあるので。

僕はHuggingFaceのLeRobotが最初の入門で、最も良い出発点だと思います。ロボットは韓国にもロボティズという会社のオープンソースロボットがあります。3Dプリンタで出力して組み立てられます。だいたい50만 원で購入できて、teleoperationシステムまで全部あります。VLAを直接fine-tuningできるんですが、僕が最初にやった時は韓国製はなくHuggingFaceのものだけで、2日かかりました。ロボットを買って組み立て、teleoperationでデータを取り、実際にVLA学習、そのときはVLAではなく言語のないvision-actionモデルでしたが、fine-tuningして実taskをさせるまで2日くらいでした。誰でもやれます。

なので実際に手を動かすのが好きな方は50만 원くらいで始められます。その次に僕たちがこのページ、共有しますが、このページにそういう案内を追加する予定です。僕たちがそれを全部やってきたので、チュートリアル資料を入れる予定です。

そして研究したいならシミュレーターでも十分できるので、NVIDIAのIsaac Sim文書を参照すればよく、paperはPhysical Intelligenceの会社に行ってpaperをずっと見ればだいたい流れが分かります。とにかく先頭走者で公開もかなりしているのでPhysical Intelligenceのページをおすすめします。Paperは全部そこにあります。

1:19:44 ロ・ジョンソク 分かりました。

ロボットが私たちの生活に入る未来と締めくくり 1:19:45

1:19:51 チェ・スンジュン 今日の話をずっと聞いてまた考えが複雑になるんですが、では結局こういう技術進展や実装が起きると何年後に僕たちの生活にロボットが入るんでしょうか? どんなform factorでどんな製品か、あるいは彼らがやるべき仕事は何か、そういうのを想像するポイントだと思います。

ただ文脈を足すと、今当然強く思うのは労働を任せる感じですよね。でもそれだけなのか、そういうことを考えるようになります。

ジョンヒョンさんはどう考えますか?

1:20:19 パク・ジョンヒョン まずロボットはどんな形でも僕たちの生活に入ってくるのは確実だと思います。数年以内に。ただ問題は価格と量産だと思います。そこは僕もよく分からないので、どんな難しさがあるか、どの解決が容易かは分かりませんが、誰が見ても市場価値が大きすぎるのでまず労働市場から始まると思います。その次に家庭用にも十分入ってくる。ロボット形態が必ずヒューマノイドかについては、必ずしもそうでない可能性もあると思います。例えば机にロボットが一台ずつあるかもしれないし、ロボット人形かもしれない。いろいろな形で出ると思うし、シンクに一台ずつ付くかもしれない。腕のようなものが一つずつ付いて。とにかく多様な形で、何らかの形で生まれると思います。

その次に僕の想像では、今は考えられない全く新しい環境変化が起きると思います。つまり今の家具、家の形、オフィス形態は全部人間form factorに合わせています。ドア幅など。でも実際人間だけができる仕事の多くをロボットが担うなら、今の巨大工場のように、今後はロボットform factorに合わせた物や道具や空間が作られると思います。例えばカフェで今は人間通路にロボットが動くなら、そうではなくロボット用の小さなレールが敷かれるかもしれない。

1:21:55 チェ・スンジュン 病院みたいにそういう。

1:22:02 パク・ジョンヒョン 例えば病院みたいに。すると彼らが配膳も回収も食器洗いもしてレールで移動するかもしれない。

とにかく今は想像しにくい多くの形、特に環境変化が生じると推測しています。そして人間の多くの原初的欲求を解決する形で入ってくるでしょう。それは労働解放かもしれないし料理を上手くすることかもしれない。あるいは性的なものかもしれないし、いろいろな形でどんどん下位レベルへ降りていくと思います。

1:22:31 ロ・ジョンソク LLMで起きた変化に似た分化、無限発展がこちらでも当然起きるという話をずっとしてくださっている気がします。

1:22:41 チェ・スンジュン ここでsudoremove RFがやたら目に入ってきます。

1:22:49 パク・ジョンヒョン 似た、今見ると似た意味かもしれません。僕たちのチャンネル名sudoremoveは開発者なら皆知っていますが、全部消すという意味ですよね。新しいものが出たので環境も例えば家も家具も全部消して新しい世界に合うものを作るべきだ。僕たちの脳内知識も思考方式も、そういう意味です。

1:23:08 チェ・スンジュン とにかく概観をずっと解いてくれて、僕たちにもコンテキストが入ってきたし、次に会う時はもっと深く入って話せそうです。

1:23:17 ロ・ジョンソク 僕たちも今日紹介してくれたSmolVLAですね。SmolVLAとPhysical Intelligence、その方面のpaperをもっとトラッキングして、また教えを請いたいと思います。

1:23:33 チェ・スンジュン さまざまな観点を学べました。特にさっきSystem 2から上がるというのは僕は全然想像していなかったです。ありがとうございます。

1:23:36 パク・ジョンヒョン 兄貴たちが研究してくれたものを僕が代わりに唱えているだけです。

1:23:43 ロ・ジョンソク 本当に面白い世界に生きている気がします。今日はsudoremoveのパク・ジョンヒョンさんと一緒にAIフロンティア、sudoremove、このコラボ回でした。今日は教えていただいて本当にありがとうございました。とても楽しく学べました。ありがとうございます。

1:23:59 パク・ジョンヒョン お疲れさまでした。ありがとうございました。