EP 81. DeepSeekが変えてしまったすべて: MoEとRLVR、2025年AI回顧

オープニング: 2025振り返りと2026展望 00:00

00:00 ロ・ジョンソク 収録している今日は2025年12月27日、土曜日の朝です。2025年がついに終わりに向かっています。本当にいろいろなことがありました。2025年は特に変化のスピードがとても急だったので、一度recapして、そして2026年にどんなことが起きるか予想してみるのがいいと思い、ソンヒョンさんをお招きして貴重な時間を持つことになりました。ソンヒョンさん、ようこそ。

DeepSeek-R1以後: RLVR・エージェントポストトレーニング 00:29

00:29 キム・ソンヒョン 2025年の振り返りをこういう形でやるとは思いませんでした。でも面白い機会になりそうです。2025年に本当に多くのことがあった気はします。ただ、この振り返りをしようとして過去の記録などをずっと見直してみると、思ったほど大きな変化があったわけでもないようにも感じました。

2025年初めにあったR1、DeepSeek事件で一度パラダイムが大きく転換した後は、その後に起きたことは漸進的な発展に近かった気がします。RLVRとエージェントポストトレーニングという新しいパラダイムが2025年初めに登場して、2025年の間ずっとそのパラダイムを発展させ、理解し、探索することで2025年が過ぎたように思います。

学術的なこととはやや別、あるいは学術と重なる出来事の中で最も興味深かったのは、多数のオープンフロンティアモデルが登場したことだと思います。DeepSeek、MiniMax、Z.ai、Xiaomi、Tencent、Moonshot、Ant、Alibaba、Meituanなど、本当に多くの企業がモデルを公開し、

2025年の変化 #1: 中国発オープンフロンティアモデルブームと主導権 01:20

01:40 キム・ソンヒョン これらのモデルは、単に以前のように70B、多くても70B程度のLlama 2規模のモデルを開発して公開する形が多かったのですが、2025年に公開されたモデルはほとんどがフロンティア、あるいは準フロンティア級です。そしてこれらの企業のほとんどがフロンティアを狙っています。これが2025年最大の変化だとも私は思います。

2024年の場合は、私たちが使える資源の範囲でやれることをやろう、そしてそれはフロンティアというより、いわゆるもっと小さいモデルとか効率的なモデルとか、そういうものへの関心が高かった、というよりそれが限界だったとも言えます。そうだったと思いますが、2025年にはそうしたモデルがほとんど減りました。モデルを公開する主要企業のほとんどがフロンティア級を狙い、より大きく、より強力なモデルを狙っています。これは思考や流れの非常に大きな変化だと思います。

02:42 チェ・スンジュン 全部中国ですね。

02:44 ロ・ジョンソク 書いてくださったモデルは全部100%中国ではないですか？

02:50 キム・ソンヒョン はい、100%全部中国です。中国以外のモデルで、フロンティアモデルと呼べて印象的な結果を出したモデルはほとんどありません。Llama 4のようなものはありましたが、Llama 4はあまり印象的な痕跡を残せませんでした。年末ごろにMistralが何かモデルを出そうとしてはいますが、それはフロンティア級モデルでもオープンモデルではなかったようです。だから中国が主導しました。

そして中国は比較的制約された計算力の中でも、みなフロンティアを狙って次の段階へ進もうとしています。それが重大なパラダイム転換だと思います。もはや小さくて適度なモデルへの関心はそれほど高くないようです。みなより高性能で、より大きなモデルを追求しているようです。これが2025年最大の変化の一つだと思います。本当に多様な企業がモデルを作っています。

03:39 ロ・ジョンソク 中国しかないですね。本当に。

03:43 キム・ソンヒョン 中国しかありません。特にモデルを公開するケースは中国しかありません。

DeepSeekが変えてしまったこと: 誰もがフロンティアを狙う 03:47

03:47 キム・ソンヒョン そしてこうした変化が可能だった理由は、実際のところ中国は依然として計算力に大きな制約がある状況ですが、そう考えるとこの計算力の中でできることをやろう、小さいモデル、やや強いモデルを作ろう、という流れがあったとしても、この小さい計算力でもフロンティア級を狙えることが証明されたからだと見られると思います。

そこで最も大きな役割を果たしたのはやはりDeepSeekだと思います。DeepSeekは制限された演算資源、800~2,000台分程度の演算資源でもフロンティアを狙えることを示し、それが証明されると、みながそれならフロンティアを狙うべきだという方向へ転換し始めました。みながより大きく、より強力なモデルへ進み始めたわけです。

MoEグラフ解説: dense vs MoE、演算倍率 04:34

04:34 チェ・スンジュン このグラフはどう読めばいいんですか？

04:40 キム・ソンヒョン 実はこのグラフを入れるかどうか、かなり悩みました。

どう直感的に理解できるか考えると、最も薄い水色の部分が、いわゆるdense modelだと見ればいいです。

そして上の線がMoEモデルだと見ればよいと思います。ここ、このlegendがちょっと間違っているのですが、これがMoEモデルです。

このグラフが非常に重要でインパクトがあるのは、下にあるのが学習演算量だからです。学習演算量が10の24乗程度だとすると、フロンティアモデルには少し届かない程度の演算規模です。

この演算規模で、MoEモデルの性能はdense modelに比べて7倍以上だということです。言い換えると、10の24乗の演算力を使ったモデルで比較したとき、MoEモデルはdense modelに対してdense modelの7倍程度の演算力を注いだのと同じような性能を出すということです。

つまりdense modelに10の24乗の演算力を使ったとき、同じ演算力でMoEを作れば、MoEモデルを作れば、7掛ける10の24乗程度の性能が出るということです。

これが非常にインパクトがあるのは、学習演算量が増えるほどこの倍率が大きくなる点です。これは非常に珍しい現象です。

モデルでは実際、直線で2倍が維持されるだけでも大発見なのに、これまで知られているところではMoEモデルの場合、学習演算量が増えれば増えるほどこの倍率がさらに大きくなります。つまりますます良くなるわけです。

dense modelに比べてMoEモデルを使わない理由がなくなります。ここまで来ると、使わないほうがおかしい状態です。

sparsityとcompute multiplier: なぜMoEが有利なのか 06:14

06:14 チェ・スンジュン でもMoEモデルが3つあるというのは、なぜ分かれているんですか。

06:24 キム・ソンヒョン これはsparsityと呼ぶものですが、全体パラメータのうち実際に1回のinferenceトークン予測で使うパラメータ数の比率だと見ればいいです。

06:32 チェ・スンジュン もっと細かく分割されている、そんな感じですか？

06:35 キム・ソンヒョン はい、例えばこれは全体パラメータのうち4分の1だけ使うわけです。でも上にあるのは全体パラメータのうち50分の1だけ使います。例えば使用するパラメータ数が減れば減るほど、あるいはより希疎になるほど、この倍率と表現すべきでしょうか？compute multiplierと表現しますが、compute multiplier、演算倍率はさらに大きくなります。傾きが大きくなっています。もちろんこれはFLOPsで計算しているので、実際の推論条件やメモリ帯域幅などを考えると必ずしもこうはなりません。それでも純粋に学習演算量の側面だけ見ても、こういうパターンが現れること自体が非常に驚くべきことです。

07:20 チェ・スンジュン scaling lawまではいかないけど、少し似た感じはありますね。

07:26 キム・ソンヒョン 一種のscaling lawです。これもscaling lawには2つのcomponentがあって、exponentという、べきの指数と呼ぶexponentがあり、その前に係数がありますが、exponentが変化する形のパターンになるとこういうものが現れます。そうなると、これは使わないと、いわゆる使わないほうがおかしい形の技術発展になります。MoEがその役割を果たしました。

MoE主流化とDeepSeekレシピの拡散 07:48

07:51 キム・ソンヒョン 2024年まではMoEモデルは稀でしたが、2025年に出てくるモデルはほとんどがMoEモデルです。いわゆるエッジデバイスのような事例を除けば全部MoEモデルで、GPT-OSSのようなモデルだけ見てもかなり希疎なMoEモデルでした。そしてこのMoEのレシピをうまく確立したことがDeepSeekの非常に大きな貢献です。そしてある意味ではDeepSeekが設計したアーキテクチャが、前世代のLlamaのようなアーキテクチャになってベースアーキテクチャになりました。

それでKimiのような、MoonshotのKimiのようなモデルの場合、DeepSeekアーキテクチャをあえて改善しようと努力するのは不要だ。このアーキテクチャは十分に良いので、このアーキテクチャの基本構造をそのまま持っていけばよい、という話をしてそのまま採用してしまう形の作業もしていましたし、Mistralもおそらく似た動きをしたと思います。それほど非常によく確立されたMoEアーキテクチャをDeepSeekが先駆的に開発し、これによってみながこのアーキテクチャを使えば、このアーキテクチャを採用すれば、私たちの非常に限られた計算力だけでもGPT-4以上を狙えることを経験しました。これは非常に重要なコンポーネントでした。

MoEの原理: 希疎性・モジュール化・ルーティングの観点 09:01

09:01 ロ・ジョンソク MoEは直感的には「そうだよね、そうならいいよね」と理解できるけれど、それでもやはり理解しにくい領域でもあります。expertと言うと、数学はこのexpert、科学はこのexpert、みたいに考えがちですが、実際はそうじゃないですよね。トークンごとに全部違うexpertルーティングを通って、その中でもshareされるものがあって、7つ同時にactivationされて、そういうものが全部hyperparameterで構成されているじゃないですか。ソンヒョンさん、MoEについて理論的背景のようなものは少し明らかになっているんですか？なぜこれが機能するのか。

09:37 キム・ソンヒョン 最近のMoEモデルの場合は、希疎性として見るのが最も良いと思います。希疎性という概念で考えるのが非常に良くて、潜在的なモジュールが数百あるとして実際に毎回使うのはその一部だけです。こういう状況を希疎だと表現できます。そしてその希疎性を通じて、実際に毎回使う演算量は制限されています。なぜなら実質的に使うパラメータはその中の一部だけだからです。それは固定されています。全体パラメータは非常に多く、そして毎回の場合やトークンによって異なるモジュールを使うので、実際には全体パラメータが増幅される効果があると見られます。説明が少し難しいですが。

10:26 ロ・ジョンソク はい、難しいです。難しいけど、これ説明が本当に微妙です。

10:34 チェ・スンジュン ただ漠然とですが、これってモジュール化されていて直交的だから組み合わせ可能、そんな感じもあるんですか？

10:38 キム・ソンヒョン はい、そうです。組み合わせ可能性を開いてくれたのもDeepSeekですが、モジュール化されていて、その中の各モジュールの一部だけを使う。ケースによってはそうですが、モジュールが非常にたくさん用意されているので、システム全体の側面では非常に大きいモデル効果を出す、こう考えられると思います。23年、24年にもMoEが良い方向だという考えは多かったですが、ここまで良いとは誰も思っていなかったようです。GPT-4がMoEだと知られた時点でも経験が積み重なるにつれ、ただ良い程度ではなく「これ、すごく良すぎないか？」という感じになるわけです。

11:13 チェ・スンジュン これが1番なんですね、2025年に。

11:17 キム・ソンヒョン MoEが1番です。そしてこのすべてのモデルがいまMoEへ変化していて、MoEでないモデルが非常に稀な状況です。

11:23 チェ・スンジュン ロ・ジョンソクがレビューされたKimi k2でも、MoEで単位に分けたものがすごく多かった、何千個でしたっけ？

11:32 ロ・ジョンソク いいえ、数百個レベルです。DeepSeekより数を増やした形でしたが、全体アーキテクチャは同じで、ソンヒョンさんがさっきおっしゃっていたそのsparsity関連の効率がどの程度optimalか、そういう実験をいくつかしていたと思います。

11:46 チェ・スンジュン 重要キーワードはまたsparsityになるわけですね。MoEとつながって。

11:53 ロ・ジョンソク 2025年の1番に挙げてくださったのがMoEですね。MoEはMixture of Experts、expertを混ぜたという意味です。

11:58 チェ・スンジュン 名前がちょっと変ですね。どんどん行きましょう。

2025年の変化 #2: RLVR公開と推論モデルの拡散 12:01

12:03 キム・ソンヒョン そして次はRLVRだと思います。これがo1の方法をほぼ公開してしまって、これがものすごく大きな変化を生みました。これも結局DeepSeekがやったことでした。

12:14 ロ・ジョンソク そうなんですよ。

12:15 チェ・スンジュン 改めて考えると驚きですね。

12:19 ロ・ジョンソク 大仕事をしました。24年末にDeepSeek-V3 paperが出てMoEなどを規定し、RLVRは2025年1月にDeepSeek-R1というモデルが出て、そのpaperと一緒に出た方法論でした。

12:38 キム・ソンヒョン 実はDeepSeekの影響力はむしろ過小評価されている気もします。これ自体がパラダイムと市場状況をあまりにも大きく変えたと思います。そしてRLVRという方法、検証可能な形で正答を使って報酬を与えると推論が学習される。2024年を通じて人々が探索していたものの中で考え得る最も単純な方法で、この方法の核心に終止符を打ちました。そしてこれがo1の方法に対する強力な手がかりを与え、これを基盤にo1のような推論モデルを開発することが可能になりました。推論そのものがモデル性能を非常に大きく上げ、またエージェントポストトレーニングと呼ばれるものの一つの側面を開きました。

推論というのは単に数学問題を一生懸命考えて解くことだけではなく、モデルがツールを使い、外部環境と相互作用し、その相互作用を通じてエージェントとして作業を遂行する、その過程全体についてRLVRという概念の下で報酬を与えてモデルを学習させることで、モデル自体がエージェントとして学習され始めるのです。

これ自体が非常に大きな影響を与え、市場にも影響を与え、いま出ているフロンティアモデルは以前なら、例えば単純にbase pre-trainingだけしてからpost-trainingを少しする、instruction following post-trainingを少しするだけでもモデルを誇らしく出せたとすれば、いまのモデルはエージェントポストトレーニングと推論が非常に基本的に搭載されるようになりました。これ自体が非常に大きな変化を起こし、モデルの使い勝手や可能性の面でとてつもなく大きな変化を起こしました。

エージェントモデルが実際市場でどんなインパクトを与えたかは、あえて強調する必要もないと思います。いま出ているコーディングエージェントをはじめ、さまざまなすべてのエージェントが、こうしたエージェントポストトレーニングによって可能になった結果です。

14:27 チェ・スンジュン じゃあこう言うと語弊がありますか？RLHFがチャットボットを作るためのpost-trainingだったなら、RLVRはエージェントを作るためのpost-trainingだ。

14:39 キム・ソンヒョン はい、そしてRLVRを通じてモデルをエージェントとして学習させることが可能になったと考えられると思います。

14:43 ロ・ジョンソク これに関連しては、私たちがソンヒョンさんの前回セッションでこの話を深く掘り下げた記憶がありますし、本当に面白いセッションだったので、もう少し気になる方はソンヒョンさんの前回セッションを一度聞いてみるといいと思います。

14:56 チェ・スンジュン でもそのときはエージェントポストトレーニングという用語は使っていなかった気もするんですよね。

15:04 キム・ソンヒョン はい、RLVRがエージェントとしてどうつながるかは話していませんでした。例えばこうです。

RLVRでエージェントを学習させる方法: ツール使用・最終結果評価 15:07

15:11 キム・ソンヒョン モデルがエージェントとして機能するには、モデルにいろいろなツールが与えられる必要があります。例えばあるツールを呼び出してエディタを使うとか、ソースコード、コーディングエージェントならソースコードrepository内でコードを読み、ファイルを読み、変更を書き込む、といったことがすべてツールを通じて起きます。

このツールを通じてモデルが外部と相互作用するわけです。この過程で、ではモデルがこれを上手くできるようにするにはどうするか、学習させるにはどうするか、こうしてツールを使って望む作業を遂行できるようにどう学習させるかを考えると、RLVRがそれに対して非常に簡明な答えを一つ与えたのです。

まずモデルがツールを使えるようにして、次にモデルがツールをどう使うか、この部分はいったん論外として、最終成果物で評価しよう、このパラダイムへ転換するのです。

つまりあるコーディング作業なら、コーディング作業の最終成果物、これが満足できる結果かどうかを評価するのです。

例えばunit test、unit testが代表的でしょう。unit testを通じてコーディングをきちんとできたか最終成果物を検証できます。

そうすると最終成果物に至るまでの過程は、ひとまず人間があえて考えないのです。モデルが自分でツールを使い、どうにかそのツール使用を通じてその結果に到達するようにするのです。

そして望む結果に到達したら報酬を与えるのです。これを通じてRLVRによるエージェントポストトレーニングが起こります。

もちろんこれはかなり単純化した話で、cold start問題などさまざまな問題はありますが、基本アイデアはこうです。これを通じて最終成果物だけで評価することで、モデルがエージェントとして学習されることが可能になったのです。

以前ならこれらすべてを設計しなければならなかったでしょう。

16:58 チェ・スンジュン このグラフは何ですか？

17:00 キム・ソンヒョン グラフは、実はRLVRをうまく説明できるグラフが何かないか考えたんですが、適切なものがなかったんです。DeepSeek-V3.2論文から、ただ学習とモデルのRL学習とともに性能が向上する結果を一つ持ってきました。これはもう少し具体的には環境を合成で作ってRL学習した結果なんですが、それは重要ではないディテールだと思います。

17:30 ロ・ジョンソク x軸がtraining stepで、左はそれに伴う性能指標、

17:35 キム・ソンヒョン 性能変化指標です。

17:37 ロ・ジョンソク benchmark指標ですね。前回ソンヒョンさんがしてくださったセッション、果たしてRLが、このRLVRがどんな影響を与えるのかという考察を前回してくださったんですが、それが私には本当に印象深かったんです。もともとこのベースラインが持っている能力だったけれど、RLを通じてその能力をうまく引き出せるようにしてくれる、というのが私にとって最大の学びとして残りました。

18:04 キム・ソンヒョン それに関連する話をこれからもう少しできると思います。そして最初の導入で申し上げたように、新しいパラダイム転換があり、RLVRというパラダイム転換があり、その理解、2025年自体がその理解を広げ、改善し、発展させることに多くの時間を使ったと思います。

2025年RLインフラの急成長と安定化課題 18:22

18:26 キム・ソンヒョン これはモデル性能とは少し別の問題ですが、RL関連で非常に興味深く現れたものの一つはRLインフラの発展です。LLM RLというのは非常に厄介な要件を持っています。

つまりモデルを学習できる必要があるので、学習インフラが必要です。

このモデルで実際に生成し環境と相互作用する必要があるので、生成するサンプリングエンジンのインフラが必要です。サンプリング結果を通じて環境と相互作用し、環境から何らかの変化や結果を得る、そのためのインフラが存在しなければなりません。

そしてそれらのインフラの間はすべて接続されています。学習結果がサンプリングエンジンに渡り、サンプリングエンジンのサンプルが環境に渡り、環境で得た結果が再び学習へ戻ります。

ところが実際インフラの側面では、1つだけやるのも非常に難しいんです。その学習、このパート1つだけ切り出して効率的にやること自体が非常に難しい仕事です。これはpre-trainingインフラでほぼすべてでした。

しかしそれだけでなく、非常に異質なインフラ同士が相互作用するようになりました。モデルを素早く学習しなければならず、サンプル生成も速くなければならず、学習と生成の切り替えも速く、評価して報酬を付与するのも速く、さらにこの全過程が正確でなければなりません。

この過程でわずかな誤差があると学習を阻害するという研究が2025年の間に非常に多く出ました。ですが速さと正確さを同時に取るのはいつも難しいことです。これが非常に新しい多くの問題を引き起こしました。

そしてMoEが主流になるにつれて、MoE RLをどう安定的に行うか、MoEモデルをどう安定的にRL学習するか、これ自体も非常に重要な話題になりました。とても難しい問題ですが、中国側が飛びついたからか、非常に速く発展していました。これが2025年にあった出来事の中で非常に重要な一軸だったと思います。

そしてRLへの理解が非常に大きく進みました。RL理解の一つの軸としては、RL方法の改善も多くあると思います。RLはいったいどう起きるのか、RLが起きるときLLMにはいったいどんな変化が起きるのか、なぜLLMでRLがこんなにうまくいくのか、こういう研究が非常に多く出ました。

そのRL理解の側面で非常に興味深い研究の一つだと思うのは、私が個人的に興味深い研究の一つだと思うのは、LLMやRLが最初に登場したときから出ていた問題で、RLは新しい能力を付与できるのか、それとも既存能力を引き出すだけなのか、という点でした。つまり既存にあった能力だけど埋もれていた。それを引き上げるのだ。そしてそれがほぼすべてらしい、というのが初期によく出ていた話でした。ところがこの部分の理解が深まるにつれ、RLが付与する新しい能力についてのアイデアが出てきました。それがatomic skillと呼ぶ原子的能力と、この原子的能力を組み合わせる能力の部分です。

atomic skill vs 組み合わせ能力: RLがしてくれることへの新しい理解 21:10

21:18 キム・ソンヒョン 原子的能力というと四則演算のようなものだと考えられると思います。四則演算のような部分が原子的能力で、この四則演算をうまく組み合わせてより複雑な問題を解く能力、これが組み合わせ能力だと見られると思います。この原子的能力も重要で、この能力を組み合わせる能力も明らかに重要です。いま人々がRLについてどう考えているかというと、こうした原子的能力はpre-trainingで学ぶと考えています。四則演算のような能力はpre-training過程で学ぶわけです。ではRLを通じてどんな能力を学べるかというと、pre-trainingで学んだ能力を組み合わせる能力をモデルが学べると考えています。

21:55 チェ・スンジュン それってさっきMoEで話していたのと似てないですか？

22:01 キム・ソンヒョン MoEとは少し違います。これは四則演算のような単純で基本的な能力があるとして、この基本能力そのものをRLが学習するのは少し難しいと見ています。でもこの基本能力を順序に合わせて組み合わせ、新しい問題を解けるようにする能力、こうした組み合わせ能力はRLを通じて学習できるようだ、という話です。これはRL理解の面で2025年にあった最も興味深いテーマの一つだと思います。

22:28 チェ・スンジュン はい、いま聞く限り、このスキル1、2、3に行くのは何か違う部分ですね。これが重要なんですか？

22:38 キム・ソンヒョン スキル1、スキル2、スキル3、これらは全部独立したスキルだと考えられます。これはこの問題だけでなく他の問題でも登場するスキルでしょう。これらのスキルはpre-trainingで学ぶと普通よく考えられます。これら個別技術はpre-trainingで学ぶわけです。でも実際に問題を解くにはこれらスキルをうまく組み合わせる必要があります。

23:03 チェ・スンジュン これって組み合わせ、組み合わせですか？少しチェイニングした感じ、1つやってみて、それを次につなげて、そんな感じですか？

23:05 キム・ソンヒョン はい、チェイニングは組み合わせの一つの使い方でしょう。

このスキルの結果を次のスキルにつなぎ、その次のスキルへ、このスキルの結果を次のスキルにまたつなぐ、そういう形の組み合わせだと考えられます。

例えば簡単な四則演算問題でも、四則演算を多様に組み合わせることで多くの作業ができますよね。

そうすると四則演算の個別技術はあるけれど、その技術をどう組み合わせるか、これもまた別の形の能力だと見られます。

そしてこの組み合わせ能力をRLが付与してくれるようだ、という話をよくします。そしてこの理解を通じてpre-trainingと、いわゆるmid-training、post-trainingを私たちがどう理解すべきかについて理解がかなり進みました。

もちろんatomic skill、つまり原子的スキルをいったいどう定義すべきかは微妙ではあります。

pre-trainingでatomic skillを学ぶと言うけれど、atomic skillとはいったい何なのか。単に四則演算だけでなく、もっと多くのものと関係するかもしれません。もっと大きい単位かもしれませんし。

そういう部分についてはまだ理解すべきことが多いのは事実です。

それでもこれを通じてモデルをどう改善できるか、そしてRLがどんな作業をしてくれるのかについて多くの理解が生まれました。

RLを通じて組み合わせ能力が生まれるなら、pre-trainingではこうした原子的能力を多く養い、こうした基本能力をよく磨けば、モデルがさらに強くなって、もっと多くのことができるようになる、そういう理解が生まれるわけです。

24:40 チェ・スンジュン これは経験的観察なんですか？RLがなぜ新しい、つまり組み合わせ能力を持つようになるのかは分からないんですよね。

24:43 キム・ソンヒョン はい、そこまでは理論的に分析されているわけではなく、経験的にやや単純な設定を通じて経験的結果を得たのです。つまりRLを通じてモデルが基本的な、例えばこうです。基本能力がないとRL自体がうまくいかない、そういう基本能力があるとそれらを組み合わせ、組み合わせの長さがより長く、より複雑に組み合わせる能力がRLで生じる、そういうことを経験的に検証した、経験的に検証したわけです。これが実際にはやや単純な設定で分析する傾向が多いので、これが実際にどんな影響を与えるかはもう少し考える必要があります。

それでもすでに人々の中には、pre-trainingやmid-training段階でこうした原子的能力、エージェントに必要な原子的能力を個別によく付与することに集中しよう、という思考の転換がすでに起きているようです。なぜならそうした原子的能力がうまく、エージェントに必要な能力がうまく注入されれば、それを組み合わせるのはRLでできる、というアイデアが生まれるからです。

12:14 ロ・ジョンソク そうなんですよ。

25:51 チェ・スンジュン mid-trainingはdomain specificな訓練をさせる側でしたっけ？

25:56 キム・ソンヒョン mid-trainingはうまく定義された概念ではありません。ただ、post-trainingに移る前にpost-trainingを助けられる学習をする、と見られると思います。だからpost-trainingの下で何か組み合わせ能力を学習するとすれば、mid-trainingの側面ではこうした原子的能力の学習に集中しよう、という流れが可能になりました。

そしてRLへの理解がこうして深まることで、さまざまな問題に答えられるようになったと思います。つまりRLを通じて私たちがもともとモデリングできなかったことをできるようになるのか？こういう問題、より複雑な問題を解けるようになるのは本当か？こういう問題に答えられるようになりました。

RLを通じてそういうことが可能なようだ。RLの演算力が増えれば増えるほど、より複雑な問題を個別技術の組み合わせで解けるようになるだろう、こうしたことについて少し楽観的な見通しを持てるようになった気がします。単に既存能力を引き出すだけ、というよりは。既存能力を引き出すだけだと見るなら、「pre-trainingにないものは無理なんじゃない？」と考えがちですよね。でもpre-trainingが外へ進めることが証明されつつあるようです。

27:06 ロ・ジョンソク そうですよね。私たちもそれは面白い話ですが、高校のときに習った数学試験って全部こういう構成じゃないですか。例題を通じて基本スキルは全部学ぶけれど、その後の練習問題の多様さを経験しながら有用性が増しますよね。

27:21 チェ・スンジュン まだ「例題」という表現ありますか？高校で。

27:29 ロ・ジョンソク 実は例題だけ深く理解しても、実は森羅万象を解けるけれど、その後ろの練習問題を30問くらい解いてこそ試験を受けられますよね。

27:33 キム・ソンヒョン 実際にやってみないと学べないものがあって、そしてそれを通じて実際にこういう技術を問題に合わせて使う方法を学べるわけです。いま人々はそれがRLの最大の役割だと考えています。

27:48 ロ・ジョンソク 2025年はRLの年でしたね。MoEとRLは実際また別レイヤーの話だから、アーキテクチャの部分と、その上の学習、ある種のカリキュラムの話なので別部分ですし。RLは本当に大きなイシューでした。2025年、はい。

「真のRL」論争とLLM RLの意味 28:01

28:01 チェ・スンジュン これが本当にRLなのかどうかという論争は、もう終わったんですか？

28:08 キム・ソンヒョン まだあります。まだ存在しています。まだ対立はあるし、まだRL、やや本流としてRLをやってきた人たちは、これは真のRLではないという話を続けています。でもよく分かりません。私は、真のRLを追求すること、真のRLという言葉がどれほど意味があるのかという気もします。そしてRLが本当に、その前段階のRLが本当に良い問題を全部うまく解ける方法だったのか？実はpre-trainingを通じてLLM RLという形でできることが非常に広がった

28:39 チェ・スンジュン それはそうですよね。強力なpriorを活用するんですよね。

28:42 キム・ソンヒョン はい、priorを使うわけで、実際それがなければ今のように問題を解くのは明らかに不可能だったと思います。atomic skillとかスキルとかスキルの組み合わせとか、こういう問題はRLで大きな関心を集めるテーマではなかったでしょう。でもLLMによってこうした観点が可能になり、この観点で考えると、組み合わせ能力を学ぶなら、LLM pre-trainingで学ぶatomic skillのような能力を養うことが非常に重要なんだな、と逆方向にも考えられます。ロ・ジョンソクがおっしゃったように、2025年は本当にRLの年だったと思います。

みながRLにも関心を持つようになり、RLをやるべきだと全員が気づき、認め、受け入れるようになり、研究もRLを効率的に行えるインフラを作り、RLの方法を改善し、より良いobjectiveを作り、RLへの理解を高め、いったい何が起きているのかの理解を高め、さらにRLに必要なmid-trainingのような準備作業を改善し、こうしたすべてが結局RL関連テーマでした。そして先ほど申し上げたように、もう一度言いますが、こうした理解を広げ、基盤を築き、その次に技術を磨くこと、鍛えることが2025年の重要な出来事だったと思います。

なので少し皮肉ですが、2025年にパラダイムシフトや天地がひっくり返るような出来事が何度もあったら面白かったでしょうが、その出来事は実際は序盤に集中していた気がします。DeepSeekモーメントに集中していた気がして、残りの部分は天地がひっくり返るような、「うわ、このパラダイムが完全に変わった！」という感じよりは、研磨の時間だったのではないかと思いました。

30:23 ロ・ジョンソク そうですね。その方法論をスケールさせる時間だったと見るべきだと思います。2025年の後半は。

30:30 チェ・スンジュン でもレシピがこうして知られているのに、なぜアメリカと中国しかできなかったんですか？

30:36 キム・ソンヒョン さあ。それは私もよく分かりません。誰かがTwitterにそう書いていました。DeepSeekがレシピを全部教えてくれたのに、中国ではそのレシピ基盤でみんなやっているのに、なぜ中国でしか出ないんだ？みたいな話をしていました。でも多分それは意志の問題だったかもしれないし、いろいろな環境や資源の問題もあるかもしれません。でももう少し時間が経てば結果が出るのではないでしょうか？韓国でもいまRLVRのようなことをやっていますから。

31:06 ロ・ジョンソク はい、私たちの隣でもたくさん見ているじゃないですか。この能力が良くなっていくのを。

論文の外のレシピ: データ・インフラ・暗黙知競争 31:11

31:17 ロ・ジョンソク これ、スンジュンさんが重要なことを言いましたが、実はソンヒョンさんと私たちが話している、paper上で見る方法論はこうだ、intuitionはこうだ、というものは、ある意味で氷山の一角だと見るべきだと思います。

実際には「ああ、あれはそういう形をしてるんだな」と言っても、その下にはデータセットの精製、その次にそのcomputation infrastructure、そして先ほどソンヒョンさんが見せてくれた、実はRLのせいで非常に複雑になったモデルのトレーニングパイプラインがあって、私たちはこれらをひっくるめていわゆるレシピと呼んでいるわけですが、こういうものって何と言えばいいでしょうか？paperにきれいに書かれない非常に多くの暗黙知の形を持っている気がします。「あれをああいうhyperparameterでやるとそこで壊れる、ここで壊れる」というようなものが、経験した人の頭の中にしっかりある気がするんです。だからそういうレシピ全体を持っている人の価値がすごく高いんだと思います。

32:11 キム・ソンヒョン 特に表に出ないのがデータに関する部分です。pre-trainingデータのときもそうですが、post-trainingのためのデータをどう作るべきか、この部分はさらに隠れた知識で、実際この部分で多くの企業が競争しているはずです。独自に技術を開発し、データはこう作るべきだというノウハウを積み、そのノウハウが最終的にプロダクト、製品のクオリティとして現れるわけです。

つまり見方を変えると、フロンティア企業はそれで競争しているとも言えます。いま例えばコーディングエージェントをより良く作ることが目標なら、このコーディングエージェントを作るために作るべき良いデータがあるはずで、そのデータをどう作るか、どんな形であるべきか、こういうものは隠れたノウハウです。それらはおそらく直接やって経験して改善していくしかないでしょう。そしてそういう知識も隠れた知識です。

33:02 チェ・スンジュン それが人の中に入っていてdirty engineeringかもしれないから、結局はその人たちがいるコホートでこれが作動するということですね。中国でもアメリカでも。

33:11 キム・ソンヒョン はい、ただ私の考えでは、これほど多くの企業がその境地に到達しているのを見ると、何らかの前提条件が整っていれば、つまりこれは何かクリティカルな秘密を知らないと絶対分からない、というものではなく、環境や条件が整っていれば、語弊があるかもしれませんが、誰でも到達できるものではないかと思います。できる。明らかに、秘密を知らないとできないと言うには、やっている企業が多すぎる、そう思います。

そしてそういう側面では、モデルはますます研究対象というより、ますます製品に近づいています。研究の側面では90%到達すれば十分かもしれません。はい、製品として成功するにはさらに磨いて99%、99.9%を狙わないといけないですよね。そしてそういう面で、AIモデルを製品として受け入れるその観点、そしてそういう文化が重要に作用しているのではないかと思います。製品を作るようにAIモデルを作り、製品を作るように研究開発をするべきなんでしょう。

フロンティアの基準: モデルサイズより学習方法・データ 34:17

34:17 ロ・ジョンソク ソンヒョンさんがさっきその中国系フロンティアモデルの話をしながら、こうずっと中国モデルは幸いモデルサイズやアーキテクチャなどが全部公開されていますよね。フロンティアモデルだと言うと、例えばOpusやGemini Proの場合は1T級で1Tから2T、つまり1,000Bから2,000Bの間のモデルだろうという推定があり、DeepSeekやKimiが発表するモデルも600Bから700B、そしてその下のSonnetやGemini Flashの場合は100B未満だろう、という推定があって、その間にモデルがたくさん出ていますよね。

でも実際には30Bを超えるだけでも、人間レベルでは区別しづらいほど非常に賢いのが見えるのですが、ソンヒョンさんの頭の中ではこのフロンティアのモデルサイズとの関連をどう把握されていますか？モデルサイズはこの程度あってこそフロンティアだ、といった分岐点の感覚をお持ちなのか気になってお聞きします。

35:23 キム・ソンヒョン モデルサイズそのものより、実際にはそのモデルをどう学習させ、どう作ったかがフロンティアではより重要な問題だと思います。

ただ以前で言えば、DeepSeekのような場合も600B程度を超えるモデルで、600Bから1T程度は必要だと思えたのですが、いまMiniMaxやZ.aiのようなモデルは100B程度、総パラメータ100Bで実際にactivateされる実使用パラメータは10B程度の非常に小さいモデルですが、そのモデルも非常に興味深い結果を多く出しているようです。そしておっしゃったようにFlashやSonnetが100B程度のモデルだとすれば、100B程度の、総パラメータ100B程度のモデルでもすでにフロンティアの痕跡のようなものが見えるのではないかと思います。

そしてそのモデルをうまく訓練すれば、実際に意味ある作業をかなり遂行できるようです。

12:14 ロ・ジョンソク そうなんですよ。

36:11 キム・ソンヒョン それ以下はあまり考えない気がします。概して。

36:18 ロ・ジョンソク だいたい今は100B程度でも、このくらいのモデルでもフロンティアの香りが出ると。

36:22 キム・ソンヒョン うまく作ればです。

36:23 ロ・ジョンソク はい、お金のある、資源の多い方々はさらに大きい領域を探索されているでしょうし。

36:29 キム・ソンヒョン はい、そして100Bといっても実際使われるパラメータは10B程度なんです。これ、非常に小さいモデルです。考えようによっては。

36:36 ロ・ジョンソク MoEのおかげで可能な。

36:38 キム・ソンヒョン MoEのおかげで可能です。MoEのおかげで可能で、MoE以上にさまざまなモデル学習方法や理解が非常に深まったから可能になった気もします。100B程度のモデルなら、結局以前の70Bモデルと大差ない規模なんです。でもその程度の規模でも、いま非常に興味深いことが可能になったわけです。これは何というか…

37:04 チェ・スンジュン 私がよく分かっていない部分なんですが、ではフロンティアで昔GPT-4が2T程度だと言われたときって、結局サービング限界と関連していたわけですよね。でも最近なら実際は4T、4TくらいでもMoEならサービングできるんですか？

37:24 ロ・ジョンソク ただBay Areaシリコンバレーで流れている話では、現在のOpus級フロンティアは1T程度だそうです。1T。

37:29 チェ・スンジュン でもそれって結局サービング限界と噛み合って回っているのは確かですよね？

37:33 ロ・ジョンソク そう見ることもできますが、本当にそうかは私たちには分かりません。はい。

37:38 キム・ソンヒョン サービングの難点もあるかもしれませんが、その部分は私はよく分かりません。はい。

37:43 ロ・ジョンソク Long story short、話してみると結局このディープラーニングや私たちが見ているモデルの発展像、結局は全部データ問題だ、という話に強く還元する方々もいます。最近のNeurIPSでも、だからチェ・イェジン教授がキーノートをされて、データがすべてだという話を強くされていたのを覚えています。

38:03 キム・ソンヒョン 最近聞いた表現ですが、モデルは製品で、データはモデルだ、この表現を誰かがしていて、私はその通りだと思います。データは重要です。データが重要だということを否定するAI研究者やエンジニアはまったくいないでしょうが、それでも常にデータが最重要だと強調しないと、少し忘れてしまうんですよね。

38:23 ロ・ジョンソク そしてデータ品質に実際ものすごい努力をしているんです。フロンティアラボが。そして今回発表されたNemotron paperもtech paperのほぼ半分以上がデータの話です。hyperparameterやアーキテクチャの話はほとんどしません。自分たちがデータセットを作るのにどんな努力をしたか、そこに非常に多くの紙面を割いています。

38:47 キム・ソンヒョン ディープラーニングではいつもデータが最重要問題でした。絶対に忘れてはいけないのに、データが重要だという話を続けること自体が、人がしばしば忘れてしまうことでもあるんです。データが最重要だということを。

38:58 ロ・ジョンソク はい、私たちも見る立場では図とかアーキテクチャとか、何かこうしたらこうなった、というところに関心が向くしかないですよね。面白いですから。

39:06 キム・ソンヒョン でもデータを磨くのは本当に常に重要な問題だったし、またproductの観点、製品の観点で見ると、製品を作るためのデータを製品になれるレベルまで向上させることが非常に重要な問題になるでしょうし、今もそうでしょう。

39:21 ロ・ジョンソク そのNemotron paperでも最後に一つだけ付け足すと、データ加工にほとんどQwen 30Bモデルで加工していました。はい。

39:33 キム・ソンヒョン 逆説的ですが、そのオープンモデルがデータ加工に対して非常に大きな役割を果たしています。

39:37 ロ・ジョンソク ほとんどその通りです。はい。

39:42 キム・ソンヒョン モデルを作るにはデータが必要ですが、データを作るにはモデルが必要なので、その最初の段階のモデル役割をオープンモデルが担っているわけです。

39:49 チェ・スンジュン いまデータ加工ですか？生成ですか？

39:55 キム・ソンヒョン 両方です。はい、両方、両方ともますますモデルベースに行っているのでモデルが必要です。ここまでが2025年についての所感で、

40:02 ロ・ジョンソク MoEとRLの年だった。

2026展望 ① スケールアップ: より大きいpre-trainingとactiveパラメータ 40:06

40:06 キム・ソンヒョン ここまで説明した程度で扱ってきました。次の段階を考えているんですが、いま次の段階で全企業が望んでいること、特に中国企業が望んでいるのはスケールアップだと思います。

みなスケールアップへの物足りなさがにじんでいるようです。ああ、モデルをもっと大きくできれば、pre-trainをもっと大規模にできればいいのに。RLは十分やってみた気がするし、この経験を基盤にpre-trainingをもう少しスケールアップできればいいのに。私はこういう動機がtechnical paperからにじみ出ている気がします。みな中国企業が望んでいて、さらに望むようになっているのは、もともと人はやりにくいことほどもっと望むじゃないですか。いま中国の場合はとにかく計算力制約があるので、計算力に制約があるからこそ、なおさらこれを渇望しているようです。

そしてそういう意味では、スケールアップは来年にはおそらく確実に出ると思います。自然な流れでしょう。そして今出ているモデルよりさらに大きく、さらに長く学習されたモデルが登場すると思います。

40:57 ロ・ジョンソク スケールアップを、ソンヒョンさん、もう少し詳しく説明していただくと、ここで言っているスケールアップは何を意味されるんでしょうか？ハードウェア演算資源の拡張、それによるモデルサイズ増加、データセット増加、RL環境増加、こういうすべてを言っているんでしょうか？

41:14 キム・ソンヒョン はい、すべてを言うことになりますが、ここでもっと重要なのはモデルの基本サイズ、基本体格に近いです。それはpre-trainingの体格により近いと思います。つまりモデルがいま1T、2Tと言っていても、ほとんどのモデルで実際に使われるパラメータは先ほど言ったように10Bあるいは30B、40B、50B、この程度の規模なんです。100B以下です。実際使われる規模は。

全体パラメータが1T、2Tだとしても、そのうち100B程度、100B以下だけ使われると見られると思います。でもRLをやっているとこの考えになるんです。この規模でもこれだけうまくいくなら、もっと大きくしたらどうなるか、100Bではなく200B、300B activeパラメータにしたらどうなるか、この考えを明らかにすることになります。そしてpre-trainingの長さも、いま中国モデルの場合は15T程度トークンで学習します。

15T程度だとしたら、50T、100T学習したらどうなるか、という考えをすることになる、この考えをすることになるわけです。ではそのとき何が起きるか。もちろん何が起きるかはやってみないと分かりません。それでも一段階ジャンプする可能性のようなものを予想しているわけです。ジャンプできるかもしれない。はい、だからこのスケールアップをみな望んでいると見ます。演算力がもっと与えられて、より大規模でモデルを学習できるなら、その大規模モデルを通じてより強力なRLVRとエージェント学習が可能になるはずだ、こう考えているわけです。

42:37 チェ・スンジュン そういう話がこのリンクの、少し中国側ポッドキャストなんですか？

42:41 キム・ソンヒョン あ、これは少し別の話です。この話はDeepSeekのtechnical reportで最近少し出ている話です。pre-trainingをもっと強化できればいい、という話に言及しています。もっとlong contextを扱えたらいいし、モデルがもっと大きかったらいいし、実際DeepSeek-V3でも興味深かったポイントの一つが、モデルが大きくなることでRLVRがよりうまくいく効果を経験したんです。ああ、R1の側面、R1論文で、つまり小さいモデルではうまくいかないのに大きいモデルにするとRLVRが急にうまくいき始めたわけです。これも観測しました。ならここだけでジャンプが起きるのか？もっと大きいモデルでは、できなかったことがもっとできるのでは？こういうことを当然考えるはずです。

43:20 チェ・スンジュン 11月にGemini 3が結局pre-trainingの突破がすごく重要だったという話がありましたよね。結局同じ方向ですね。

43:31 キム・ソンヒョン はい、同じ方向です。pre-training方法改善もあるでしょうし、pre-training規模そのものの改善もあるでしょう。そういう部分をみな意識しているようです。みなが望んでいる部分です。

43:40 チェ・スンジュン pre-trainingでスケールアップすれば、RLのスケールアップや性能向上も当然ついてくるだろうと。

43:44 キム・ソンヒョン はい、当然ついてくるだろう。そしてこの性能向上は点数が上がる程度ではなく、できなかったことができる形で現れる可能性が非常に高いです。

43:50 チェ・スンジュン さらに新しい能力が創発するかもしれないし、新しい能力が出るかもしれないですし。

43:56 キム・ソンヒョン それが最近中国企業が2026年に望んでいる目標の一つでしょう。だから何とかもっと多くの演算力をかき集めようと努力していて、H200を買うべきかどうか悩んで、みなそうしているでしょう。そしてずっと出ていた話ですが、いつも言っていた話が、今の方法でも続けていけば経済価値が創出されるという話ですよね。

それと同じように、今の方法の延長で性能を継続的に高度化し、ドメインを拡張し、これまでできなかったことをもっと多くやり、例えばホワイトカラー業務と呼ばれるものへ拡張し、科学のような、実際科学の場合は実験が必要でしょうが、その実験が必要なものともつないでエージェント学習をしてみて、こうしてドメインを拡張することは非常に自然な目標でしょう。当然これはやらない理由がなく、当然やる価値のある目標です。

ボトルネックはデータ: 99%→99.9%へ向かうロングテール問題 44:40

44:44 キム・ソンヒョン でも最大のボトルネックはデータ問題になるでしょう。このポッドキャストも一昨日かその前日に出たポッドキャストですが、ここで言っていることも同じです。いまフロンティア企業がものすごい資源を良いデータ作りに使っているけれど、これをいつまでやるのか、これ自体があまりにも難しいと感じざるを得ないのです。

つまりモデルを通じて、エージェントを通じてより複雑な仕事をするなら、より複雑でよりクオリティの高い仕事をするなら、データ自体もより複雑でクオリティが高くなければなりません。そうすると、より高クオリティでより多様なデータを作らなければならず、そこに膨大な資源が投下されてボトルネックになるわけです。ここ、このポッドキャストでは自動運転に似た問題だと比喩していますが、それが最も興味深い比喩だと思います。どこまでできるようにするのか。90%程度の自動運転は簡単にできるけれど、99%、99.9%を作ろうとすると、無数のエッジケース、コーナーケース、そしてロングテールに存在するデータを収集しなければならないのです。

絶えずデータを収集し続けて、少しずつ上げていかなければなりません。それ自体がとてつもなく大きいボトルネックです。これをいつまでこうできるのかという考えになるし、これを突破する方法があるのではないかと考えるようになるはずです。そしてこれが今、開発速度を遅らせる最大の問題だと思います。

45:58 チェ・スンジュン 少し脇道かもしれませんが、中国側ポッドキャストの談論はかなり質が高いみたいですね。ファン・ドンソンさんが翻訳してくださったものを私も見ましたが、話のレベルが本当にフロンティアに届いている、そんな感じというか。話がかなり興味深かったです。

中国ポッドキャストで見るフロンティア談論 46:03

46:17 キム・ソンヒョン すべてのエピソードが私にとって興味深かったわけではないですが、非常に興味深い話が多いです。ロボティクスとかAIとか、そしてそこに研究者が来て話すんです。例えばこういうポッドキャストの場合、驚くことに単なるCEO級ではなく研究者、Chief Scientistなどそのクラスの研究者が来て、いま自分たちが解いている問題は何か、何を重要だと考えているか、こういう言及を多くするんです。でもそういう情報は英語圏でもそんなに多くない気がします。

46:54 ロ・ジョンソク でもこれはまたチェ・イェジン教授がそのキーノートで冗談めかして言っていたんですが、いまのこのフロンティアはアメリカにいる中国人と中国にいる中国人が作っている。

47:00 キム・ソンヒョン そして中国側から出てくるChief Scientistのような研究者は結局フロンティア企業に属している研究者なので、フロンティア企業内部の話を少し聞ける機会にもなります。だから私はすごく良い

47:11 チェ・スンジュン つまり中国側ニュースも見ないといけないということですよね。

47:17 キム・ソンヒョン はい、中国側、関心があるなら見てみると学べることが本当に多いと思います。

47:24 ロ・ジョンソク はい、ポッドキャスト名からしてただものじゃないですね。シャオユージョウ、ピンインは分からないけど、小宇宙(小宇宙)みたいです、これ。

47:28 キム・ソンヒョン ポッドキャストのタイトルが「Language is World」、「言語は世界だ」こんな形だったと思います。すごく興味深いです。このエピソードも非常に興味深いんですが、これがトランスクリプトのようなものを共有するのも少し微妙で、内容を共有しづらいですね。

47:41 ロ・ジョンソク 中国語の会話ですよね？

47:43 キム・ソンヒョン はい、中国語です。

47:44 チェ・スンジュン でも今は翻訳して見られるから

47:46 ロ・ジョンソク はい、中国語会話をトランスクリプトで抜いて、それを英語や韓国語に変えて見られますね。

47:51 キム・ソンヒョン 私は英語に翻訳して見ています。

47:55 ロ・ジョンソク はい、実質的に中国語-英語翻訳がほぼ完璧なので、見るのに支障はなさそうです。はい。

48:00 キム・ソンヒョン Gemini 3がよくやってくれています。ここまでは今までのパラダイム拡張の話だと思います。私はそのパラダイム拡張を超えて、まったく別のパラダイムを考えることが依然として重要だと思います。そして私が望むこと、あるいは期待することは、来年には新しいパラダイムの様相が見えることでもあります。

2026展望 ② より自律的なエージェントとインターフェースの変化 48:05

48:21 キム・ソンヒョン ただ新しいパラダイムに関連して非常に重要な部分は、より自律的なエージェントが経済価値創出に非常に重要な問題になることだと私は思います。いまコーディングエージェントもかなり自律的にやってくれますが、人がずっと指示するじゃないですか。指示して成果物が出たとき気に入らなければ修正を求める、こういうフィードバックが回っていますが、それ自体もかなり多くを自動化してくれるとはいえ、より強い経済価値を創出するにはもっと自律的であるべきだと思います。

つまりエージェントが自分でコードを改善するんです。ただエージェントに任せておくと、エージェントが自分でコードを継続的に最適化するのです。人が指示しなくても、例えばそういうことが考えられますよね。回しておけば夜通し人の次の指示が来るまで自分でコードを改善し、機能をさらに追加し、コードを継続的に最適化するわけです。さらに進めばプロジェクトを完成させるほどの自律的エージェントも考えられるでしょう。

そうなれば、そういうエージェントが創出する価値は現在のコーディングエージェントに比べてもとてつもなく、質的にずっと大きいと思います。そしてそうなってこそ本当の経済価値が創出される気がします。モデルが自分で作業できてこそ人は自律性がありますよね。自律性で自分でコードを改善し自分で機能を実装する。そういう機能がエージェントにも存在してこそ、より大きな経済価値につながると思います。

49:40 ロ・ジョンソク 私は個人的にこれは実現する問題だと見ています。いますでに多くの人がHarnessを通じてこれを真似しているじゃないですか。はい、でもこれが単一モデル内でこういう自律性を持ってずっとアクションを続けること、これもすぐ実現する問題じゃないですか？

49:57 キム・ソンヒョン 私はこれが実現してほしい問題でもあります。実現するかどうかは、ここで引き続きこの段階へ進むための技術問題のようなものを考えなければならないと思いますが、私は実現してほしいという側に近いです。

そしてこういうエージェントが登場すれば、いまは結局まだチャットインターフェースに近いですよね。人が指示すると、その指示に従って作業して次の指示を待つ、こういう形のインターフェースでしょうが、こういうエージェントはインターフェースの流れ自体が変わるはずです。エージェントは自分で継続して仕事をして、その都度成果物、中間結果を見て人がフィードバックを与える形に変わるでしょう。エージェントは継続して仕事をします。

そういうパラダイム変化が起きるといいと思います。そして継続学習になるでしょう。先ほどの中国ポッドキャストではこう表現していました。いまシリコンバレーでは、そしてSan Francisco Bay Areaでは、全員が継続学習の話をしていて、これが最大の話題で、みなここに関心を持っていると。

2026展望 ③ continual learning: モデルが「何を」学ぶかを自ら見つける 50:42

51:00 キム・ソンヒョン はい、継続学習は非常に重要なパラダイム変化だと思いますし、これはデータ問題とも関連します。先ほど申し上げたように、人間がデータを全部作ってあげるのは難しすぎると言いましたよね。なら人がデータを作って学習させるのではなく、モデルが自分でデータを発見して学習すればいいという考えになります。それが継続学習ともつながります。

継続学習というのは、ただデータを追加し続ける程度を超えて、ここで言う継続学習はモデルが自分で学習することに近いと見られると思います。そうなると人が各シナリオや各複雑状況についてすべてデータを作る必要があるのではなく、モデルがそのシナリオについて自分でデータを作るなどして学習する形になるでしょう。

ただこの継続学習問題についてはいろいろ技術的制約はあるでしょうが、多くの人が考えるのはin-context learningを拡張すべきか、こういう部分ですが、私はもっと重要なのはモデルが何を学ぶのか、なぜそれを学ぶのか、これらを見つけることが継続学習の最重要コンポーネントだと思います。

学習できること自体が重要なのではなく、学習できる能力があるときにそれを使って実際状況で重要なものを学習する能力が必要なのです。学習自体が可能であることが重要なのではなく、実際状況に投げ込まれたとき必要なものを学ぶ能力、これが必要なんです。そしてこれがたぶんパラダイム変化につながる最重要コンポーネントだと思います。

52:28 ロ・ジョンソク もうSFみたいなことが起きますね。モデルが自分の学習を自ら制御する。

52:33 チェ・スンジュン じゃあいま2026年の話なので、ソンヒョンさんのこれに関連する確率はどのくらいですか？

52:39 キム・ソンヒョン 50%くらい。

52:43 チェ・スンジュン 50%、2026年に50%くらいでcontinual learningになるかもしれない。

52:45 キム・ソンヒョン はい、continual learningにおいて少なくとも非常に重要なコンポーネントが登場する可能性はあると思います。なぜならみなが研究していると言うんです。研究していると言っていて、OpenAIの場合はこの部分がかなり進んでいるとも言われていますし、こういう話が出るのを見ると、その様相が何かは2026年くらいには見られるのではないでしょうか。私はそう期待しています。少し希望混じりの期待かもしれませんが。そうです。

self-playの難点と「興味深い問題」生成の難しさ 53:10

53:10 キム・ソンヒョン そしてRL関連でいつもよく出るのが、いわゆるself-playですよね。AlphaGoの側面でAlphaGoがself-playを通じてモデル性能を向上させた事例が人々に強い印象を残しているため、そのself-playを通じて、これもデータ関連問題ですが、データが提供されなくてもモデルが自分で学習できるものを開発できたらいいのではないかという期待が多いです。ところが私たちが扱う数学問題やエージェントコーディングのような問題は囲碁のようなゲームではありません。これはzero-sum gameではないのでself-playを実装するのは非常に難しいです。

例えばこうです。問題を作るエージェントがいて、その作られた問題を解くエージェントがいるとすると、問題を作るエージェントは徐々に難しい問題を作り、問題を解くエージェントは徐々に難しい問題を解きながら相互作用しモデルが発展する、こういうものを考えられるでしょう。すると問題作成エージェントは継続してより難しい問題を作るはずです。難しい問題を作るほど報酬を得るでしょう。でもここに落とし穴があります。囲碁は分かりませんが、数学問題を考えると正答率0%の問題を作るのはあまりにも簡単です。

ただ無茶な問題を作ればいいんです。なら0%のようにただ難しい問題を作るのではなく、ちょうどよい水準の問題を作ろう。正答率が半分程度出る、半分程度の問題を作ろう。ところがこれも非常に簡単です。例えば四則演算をするとして、四則演算の長さを継続して増やして難易度を調整することなどが可能になるんです。

これが示しているのは、self-playが私たちが興味深いと考える問題に対しては作動させるのが相当難しいということです。重要なのは正答率を下げてより難しい問題を作ることではなく、人が見て興味深い問題を作ることです。本当に価値が高い問題を作ることです。この問題は非常に難しい問題で、多くの研究者が取り組んでいる問題でもあります。そして最近の論文での考えは、人とアラインしていないとこれは無理だ、人とモデルがアラインしていないとこれは無理だ、こういう考えが多いです。

55:27 チェ・スンジュン 今2番でおっしゃったことと少し共鳴する部分がありますね。1層上がって、今の層位からもう1つ上がるものが2番にも3番にもあるわけですね。学びを学ぶことと、今もnon-trivialなもの、好奇心を持つとか、とにかく問題自体を作り出すのがいま肝心だということですよね。

問題は内的動機・人間アラインメントに収束する 55:42

55:45 キム・ソンヒョン だから私はこの3つの問題がこの問題に収束すると思います。内的動機、人間とのアラインメント。この問題に収束すると思います。self-playをするときも人が見て興味深い問題を作る必要があります。そしてモデル自体にもそういう動機があればいいと思います。例えば人も数学問題を作ってその問題を解いてみますよね。「これは興味深い問題だ」という感覚があるわけです。continual learning、つまり継続学習も同じです。

人が何かを学ぶときは「あ、これ面白い」「これを学べば問題を解くのに使える」という動機があるわけです。自律的エージェントの場合も同じです。例えば最適化問題を考えたときも、人はコードを見て「あ、これをもう少し最適化できるといい」「こういう機能を追加するといい」という動機があるわけです。

56:27 チェ・スンジュン そうですね。

56:28 キム・ソンヒョン そしてモデルにそういう動機が付与されるなら、その動機は人の目標や価値とアラインしている必要があるはずです。人が見て価値ある動機、価値あるものを追求する動機がモデルに付与されるべきなんです。

56:42 チェ・スンジュン これ、私たちが少しIlya Sutskever編で感情がvalue functionだと言った、それとも関連あるんですか？

56:50 キム・ソンヒョン 少しは関連があるかもしれません。感情と動機は必ず一致するわけではありませんが、多くの場合かなり強く関連してもいます。情緒と動機の問題は心理学では、情緒はやや一時的で、動機はずっと長期的だと見るようです。それでもかなりの部分で関連しています。なぜなら私たちが動機を感じることには感情も強く結びつくからです。

はい、そういうすべてが関連していて、おそらくIlya SutskeverのSSIやミラ・シンキング・マシンなどその他そうした会社もみな、こういうことに関心が高いという噂が回っているようです。そして私はこの問題の様相が2026年に見えてほしいと思っています。2026年に様相が見えれば、最も重要なパラダイム転換がこれに関連して現れるのではないかと思います。

そしてそうなったとき私たちが経験するエージェントの変化は非常に大きいのではないかと思います。例えばRLVR以前、今のコーディングエージェント以前の段階にも確かにエージェントはありましたよね。RLHFモデルでも作られたエージェントがありました。でもそのエージェントに比べて今のコーディングエージェントははるかに強力で、はるかに大きな経済価値を創出しています。ところがその次、これがパラダイム転換を通じてエージェントが質的に変化したわけです。はい、その次のパラダイム転換と結合されたエージェントが創出する価値は、それ以前の今のコーディングエージェントとは質的に違うと思います。そしてはるかに有用でしょう。

58:17 チェ・スンジュン 厄介なことですね、実際。

58:19 キム・ソンヒョン はい、厄介なことです。そうですね。

投資・バブル・FOMO: 2026に必要な質的跳躍の論理 58:21

58:21 キム・ソンヒョン そして私は、これがおそらく今の莫大な投資金額を説明できる程度の価値を創出するには必須要素ではないかと思います。つまり今みなが疑っているのは、投資金額がこんなに大きいのに、これで十分な価値を創出できるのか？を問うていますよね。はい、ドメイン拡張や今の性能改善も、それもそうした価値を創出する、価値を拡張するのに役立つでしょうが、私はおそらくこのすべての投資を説明するにはパラダイム転換が必要で、それに伴う質的改善が必要でなければ難しいのではないかと思います。

58:57 ロ・ジョンソク Elon MuskやSam Altmanは、まさにソンヒョンさんが今おっしゃった趣旨で話します。あの人たちはAIが創出する価値がほぼ無限に近く増えるから、無限の豊かさが来る、だから全体的な富の観点ではそう言うのですが、この中で、そのシステム内で稼いで生きていた人たちには、それが短期的には大きな衝撃なんですよね。

59:24 チェ・スンジュン 私はhyperstitionという言葉が浮かびます。自己充足的予言。つまり今これが投資金額を正当化するにはその境地に到達しないといけないから、今これが正しいなら、2026年にはこういうことがマイルストーンとして打たれなければならない、という論理なんですよね。

59:44 キム・ソンヒョン 私の考えではそうです。今の投資を正当化するには、今もAIバブルのような話が続いていますが、こういう形のイノベーションがなければ2026年に漸進的改善程度では多くの疑いを招くのではないかと思います。もちろん漸進的改善でも十分だ、という話も引き続き出るでしょうが。

59:59 ロ・ジョンソク さっきスンジュンさんがソンヒョンさんに質問したことに、確率は50%だと答えたことと、これも正確に関連しています。おそらくこの50%以上の確率で2026年に何かまた進歩が起こる気がします。

1:00:13 チェ・スンジュン そうするとまたFOMOが生まれるんですよね。

1:00:20 ロ・ジョンソク はい、でもそれは当然だと思いますし、私たちも計画を立てるべきだと思います。今、もうさっきスケールへの欲求のために、半導体これはバブルじゃないですか？循環出資じゃないですか？と言う人たち、論理的にはそう理解したいのでしょうが、実際はそうでもしてもっと回さないといけないインセンティブが活発に回っているんです。

1:00:24 キム・ソンヒョン バブル…

1:00:40 ロ・ジョンソク バブルだと思いますか？ソンヒョンさん、スンジュンさん、私たちだけで話してみますか？バブルだと？

1:00:47 チェ・スンジュン 私の意見というより、前にDemis Hassabis編で話したときは、一部バブルは混ざっている、という話をしましたよね、Demis Hassabisは。

1:00:55 ロ・ジョンソク はい、でも転換期には…ソンヒョンさん、どうぞ。

1:00:58 キム・ソンヒョン 私は実はこれを見ながら、人類の技術発展史でこういう状況があったのか、という考えになります。新しいこの技術を継続的に発展させて、その技術発展が投資を正当化しなければならない状況。こういう状況が人類の技術史にあったのか、と考えるようになります。でもFOMOという表現が合っている気がします。つまり今出ている技術ではないですよね。今完成している技術では明らかにありません。

でもその技術が開発される可能性が0でないなら、そして誰かがその技術を開発し、誰かは開発できないなら、そのときの波及効果を非常に大きく見ているという考えがあるはずです。そういう意味で一種のAI戦争になるわけです。この技術開発に成功するかどうかは分かりません。私も50%と置きましたが、事前情報がない状態での話です。

でももし誰かが技術開発に成功したら、その波及効果、そこで生まれる経済価値があまりにも想像できないほど大きく、そこで敗北することをあまり考えたくない状況になったようです。だからその状況を防ぐために残っているすべてのお金を引っ張ってきて競争しているわけです。私がもう一度言うと、私はこういう状況が人類の歴史にあったのか、前例があったのか、と考えるようになります。でも今感じている人、その行為者が感じている感情はそういうものではないかと思います。

AI戦争の比喩: Manhattan Project・Apollo Project 1:02:20

1:02:20 ロ・ジョンソク 似た事例はいくつかあったんじゃないでしょうか？

1:02:24 キム・ソンヒョン はい、確かにあった気はします。

1:02:30 ロ・ジョンソク Manhattan Project、Apollo Project。当時としてはあり得ない天文学的なお金が入ったわけですが、そのときは主体が全部国家だったのに、今は民間企業が国家を超えるレベルまで実際大きくなっているわけですよね。はい、だからこのゲームも先に1位になった人が後ろの人たちのはしごを全部蹴り外す確率があるわけで、はい、そして私たちが核開発の事例で見るように、その核の傘を持っていた国家だけが1世紀を強大国として生きたじゃないですか。

それと同じ論理ではないかと思います。私たちが一人の人間として考えるには大きすぎる談論ですが、ここでまた「逃亡」のコンセプトが出てきます。私たちはじゃあどうするべきか？はい、私たちには「どうするべきか」が残ります。その中で現実を生きなければならない私たちはどうするべきか、という質問は依然として大きく残ります。

私たちが2025年を始めるときに、シニア、ジュニア、コーディングエージェントがどれほど良くなるか、こういう話をしましたが、いま2025年が終わる時点で人々の談論はAndrej Karpathyがまた投稿していましたが、今や何かpriorを持っていたシニアより、ただAIツールに最初から触れたネイティブ、AIネイティブジュニアのほうがはるかに仕事ができる。でもソンヒョンさんが今言ったようにモデルが自らこういう自律性を持つようになるなら、この話もまた全部終わるんです。

1:03:53 チェ・スンジュン そうですね。今おっしゃった3つは兆しだけ出てもかなりインパクトがありますよね。それがまた1つずつじゃなくて噛み合って回るので、1つ起きれば残りがついてくる可能性があるものですし。それ、すごく厄介なんです。

個人の姿勢: 不確実性の中で楽しむこととunlearning 1:04:07

1:04:07 ロ・ジョンソク それでソンヒョンさんはどう生きようと考えていますか？急にこんな質問を投げてすみませんが、こういう世界をこうして眺めている立場で、私はどう生きるべきかという考えを時々されるでしょう。

1:04:21 キム・ソンヒョン 私はただ楽しむことにしました。

1:04:25 チェ・スンジュン それ、どこかでよく聞いた話ですね。避けられなければ楽しめ。ロ・ジョンソクも似た話をしていましたよね。

1:04:32 キム・ソンヒョン はい、ただ実際これらすべてが予想にかかっていることでもありますし。まだ不確実性は残っていて、こうなるのかならないのか、ということが残っていますが、ただ楽しむことにしました。これからは予想が不可能になる気がします。特にこうして完全に確率的なものにすべての結果がかかっているときは、なおさら予想が難しいと思います。なので私はただ楽しむことにしました。

1:04:59 チェ・スンジュン でも予想は難しいとしても、これがすべて競争を通じてその後の過程を展開しているから、結果物が出るかどうかは分からなくても副産物が出るのは確実なんです。追求の過程があるから、かなりの水準の副産物が出る可能性がある。私はそう見ています。1つは予想できますね。2025年に「あ、これできた」と思ったものをunlearningする可能性が非常に高い。

1:05:21 キム・ソンヒョン はい、ありえますね。いまエージェントAI製品について多くのことがそんな感じです。みな「これはまだだめだね」と、だめなことに集中するじゃないですか。まだできないからまだ機会は残っている。でもそういうものを全部捨てて考えなければならない可能性もありますよね。

1:05:40 ロ・ジョンソク 2ステップ、3ステップ先にあるものを狙って、これをやりますと言ってこそ話になる、そういう状況です。

1:05:43 チェ・スンジュン そうですね。確かに来年、「あ、これうまく動いていたし、これ慣れてるけど続けたらだめかな？」と思う地点がありそうです。学びたくないけど仕方なくまた追いかけなきゃいけないんだな、と。

1:05:56 ロ・ジョンソク この話は2026年に入ったらまたやりましょう。

1:06:01 チェ・スンジュン これ、いま一年の最後が少し憂鬱とか微妙な方向に行っていませんか？私たち楽しく締めないといけないのに。

1:06:11 ロ・ジョンソク 私たち最初のポッドキャスト、2年半前にスンジュンさんと私が始めたときのタイトルが「Geoffrey Hintonの憂鬱」だったんです。でもその方は私たちよりずっと先を観照していた方じゃないですか。私たちが見られなかったものを全部見ていたはずで、その方が2年半前にそう言っていたことがかなり現実化していて、

1:06:33 キム・ソンヒョン 技術発展そのものに集中すると一番それなりに楽しい気がします。技術の発展自体は「お、こんなことができるの？」「本当にこの境地に到達するの？」というふうに集中できると思います。はい、そこから派生し得る社会的影響のようなものを…考えると少し気が重くなりますね。

1:06:44 ロ・ジョンソク はい、同好人として生きるとすごく楽しいんだけど、いまは

1:06:49 チェ・スンジュン 私の人生は重なっています。同好人としても生きるけど、いまの現実も生きなきゃいけないので、とにかく2025年はこうでした。

まとめ: 2025はMoE・RL、2026はスケール・新パラダイム 1:06:57

1:06:59 ロ・ジョンソク 2025年を要約し、2026年はこれより速い変化が予想されて、その大きな方向性はソンヒョンさんが示してくださいましたが、1つ目がスケール、このスケールへの投資を止めるつもりはまったくないというのが1つで、2つ目はこれまでの何かのパラダイムではない、別の断絶的な次レイヤーのパラダイムがどうも出そうだ、というお話があり、そこに継続学習、そしてもう1つは何でしたっけ？それを示してくださったと思います。

1:07:36 キム・ソンヒョン すべて関連している問題ですが、継続学習とかself-playとか、あるいはそれを通じて実現されたより自律的なエージェントなどになると思います。

1:07:44 チェ・スンジュン それってコーディングエージェントだけを言っているわけじゃないですよね。co-scientist的な感じかもしれないし、「co」が外れるかもしれないし

1:07:48 キム・ソンヒョン はい、そうですね。これ、当然もっと大きな価値を創出するには少なくともホワイトカラー職業と呼ばれるものまで超えていく必要があると思います。そして実際これがどんな形で実装されるかは分かりませんが、もし実装可能なら、それにも非常に大きな助けになると思います。なぜなら今はそういう業務について一つ一つデータを作ってあげなければいけないですよね。Photoshopのやり方、使い方などを全部教えなければならないでしょうが、モデルが自分で学べるなら、自分でモデルが動画を見てPhotoshopの使い方を学んでPhotoshopを使う、そういうことが起きるかもしれません。

エンディング: 新年のあいさつ 1:08:24

1:08:24 ロ・ジョンソク では、私たちも一年を少し締めくくって終わりましょうか。はい、またソンヒョンさんに学ぶと頭の中がまたふわっとして、あれこれの考えが縦糸と横糸のように絡み合っています。はい、毎週土曜日こうして私がこのお二人からこういうことを学べるのは、私の人生にとって本当に大きな福です。ありがとうございます。

1:08:45 チェ・スンジュン もちろん私もそうです。まず話自体がとても面白かったです。今日もソンヒョンさんがとても興味深いストーリーラインで構成してくださって、これを織り上げてくださったので、すごく没入して聞けました。一年が少しするすると回った感じでした。でも2026年、これまたドーパミンが出る時期じゃないですか。すごく興味深いし、何が展開されるか楽しみです。1月はまた何が展開されるのか、AlphaGo週間の近くでは何が展開されるのか、Google I/Oの近くでは何が展開されるのか、これ全部楽しみなんです。

1:09:17 ロ・ジョンソク もう来週1月中旬になれば、またどっと出始めそうです。そうですよね。

1:09:20 チェ・スンジュン はい、では私たちもその頃にまたお会いすることにして、いまは休みに行かないとですね。ソンヒョンさんも最後にコメント、言いたいことありますか？

1:09:36 キム・ソンヒョン 特別なことではないですが、私も毎年この時期に振り返りを一度ずつ書いていた気がしますが、その振り返りをこういう形でできるようになったのが私にはとても面白いことだと思います。そして私は振り返りを書くとき、必ず来年何が起きるか予測を書いていたんです。たぶんその習慣が残っていて、ここでも振り返りをしながら来年2026年に何が起きるかを書くことになったんだと思います。それだけ不確実性があるので、何が起きるかを期待しながら2026年を迎えると面白いのではないかと思います。

1:10:05 ロ・ジョンソク それでも私たちは人間の枠に閉じ込められているので、健康でいてください。はい、2026年、私はこの健康関連ビジネスにもっと投資してみようと思っています。

1:10:12 チェ・スンジュン 次は年を越してお会いしないとですね。

1:10:14 ロ・ジョンソク はい、2025年一年お疲れさまでした。ソンヒョンさん、スンジュンさんありがとうございます。私たち2025年、本当に本当に楽しかったです。大変でもありましたが、本当に本当に本当に楽しかったです。2026年はこれよりもっと速く変わりそうなので、私たちは心を固めなければならないし、もっと懸命に生きなければならない、そんなことを考えます。そしてまた私たちの購読者の皆さん、逃亡者連合の購読者の皆さんにも本当にありがとうございます。では、スンジュンさん、ソンヒョンさんも最後に一言ずつして、締めましょう。

1:10:49 チェ・スンジュン はい、一年の間私もとても楽しくて、毎週土曜日がもちろん疲れるときもありますが、あまりに頻繁に会うときはそうでも、いつも期待される時間だったんです。だから一緒に話して、一緒に見る風景、違って見える風景について話せてとても楽しい時間でした。そしてこれをいつも見守ってくださる購読者の方々を意識すること自体もすごく助けになる気がするんです。なのでいつも感謝していると申し上げたいです。2026年、新年、皆さんどうぞ良いお年をお迎えください。

1:11:18 キム・ソンヒョン はい、私はこのポッドキャストで1年を満たしてはいませんが、それでも継続してポッドキャストに参加できて感謝しています。そして2025年についてあれこれたくさん話しましたが、それでも依然として技術的に非常に興味深い一年だったと思います。2026年の新年も良いお年を、そして健康でいらっしゃいますように。

1:11:33 ロ・ジョンソク 皆さん健康で、私たちは新年にお会いしましょう。

1:11:36 チェ・スンジュン 新年にお会いしましょう。

1:11:38 ロ・ジョンソク はい、お疲れさまでした。