EP 75: （数式なしの）強化学習の話

オープニング: Kimi K2モデル発表と強化学習 00:00

00:00 ロ・ジョンソク 収録している今日は、2025年11月8日土曜日の朝です。

本当にもう私たちはGemini 3.0を待っているんですが、もうすぐ出そうですね。

一昨日、いや昨日ですね、韓国日付で中国のフロンティアラボの一つであるMoonshotがKimi K2 Thinkingモデルを発表しました。

各種ベンチマークで、他の米国のフロンティアモデルを上回る結果を見せています。

なので、依然としてreinforcement learning、RL、強化学習が大きな話題だと思うので、今日はソンヒョンさんと一緒にRLの部分をもう少し深く掘ってみようと思います。

はい、こんにちは。

Kimi K2モデルの特徴とベンチマーク 00:38

00:39 キム・ソンヒョン こんにちは。Kimi K2モデルが出てとても話題になっていて、今も話題ですが、最も注目されたのはベンチマークスコアだと思います。

ベンチマークスコアでは、他のモデルとちょうど2つだけ比較しているんです。GPT-5とSonnet 4.5 Thinkingです。つまり、今トップの状態にあるモデルと比較していて、それらと比べても引けを取らない、あるいは一部のベンチマークではさらに良い性能を記録しているわけです。

もう一つ興味深い点は、Kimi K2はその前までは推論モデルではなくinstructモデルだったのですが、そのinstructモデルが出たのは9月頃なんです。なので、新しいモデルが出る周期がどんどん速くなっています。

ポストトレーニング時代とモデル開発サイクル 01:14

01:19 キム・ソンヒョン もうプレトレーニングではなくポストトレーニング時代に移るにつれて、各社がポストトレーニングのレシピを改良していて、その改良されたレシピがモデルに導入されることで、改善モデルが出る速度は、プレトレーニングを改善してから再びポストトレーニングを行って新モデルが出る速度に比べて、その周期が非常に速くなるんです。

おそらくGPT-5やOpenAI、Anthropicから出るモデルもその周期は引き続き速くなると思います。いろいろ紹介されていますが、1回の指示に対して200~300のtool useを実行できるといった話も続けて出ています。

スコアがよく出る、性能がよく出るという話があり、他に興味深い点として、Kimi K2の場合はKimi以前のモデルも同様だったと思いますが、コーディングと数学関連だけを強調してはいません。

彼らはいつも見るとcreative writing、創造的な文章作成能力のようなものもかなり強調します。そして私が使ってみると、確かにKimi K2、MoonshotモデルにはMoonshotモデルらしい文体やスタイルがある気がします。

文章作成におけるそうした部分も興味深い点ですし、一般的な能力のようなものも継続して強調しながら持っていっている、そういう点が興味深い部分だと思います。特に最近「尖った知能」という表現をよく使いますが、数学やコーディングだけ得意なモデル、あるいは特定部分だけ得意なモデル、こうした部分への関心が再び高まっているようですが

それとは別にフロンティア企業は依然として汎用的な知能、そして多様な作業を実行できるモデル、こうした部分への関心が高く、その部分を引き続き追求しているようです。

MoEと量子化によるモデル軽量化 02:55

03:00 キム・ソンヒョン それから少しディテールの話ですが、推論効率性と表現しつつ、これはサービス効率のことです。サービス効率を打ち出しながら、ポストトレーニング過程でquantization-aware trainingを行ったと言っています。

Quantization-aware trainingというのは、いわゆるquantization、つまり量子化を通じてモデルのサイズを減らす作業において、学習段階で性能低下を抑えるためのテクニックですが、ここを見るとMoE部分、MoE FFN部分に対してINT4 quantizationを行ったそうです。

OpenAIから出たgpt-ossと同じように4-bit quantizationを行っているんです。MXFP4という形で4-bit quantizationを行いましたが、それと似た形でINT4 quantizationをポストトレーニング段階で導入していて、こうした流れは今後さらに主流になると思います。

これはおそらくMoE研究と関連してもう少し深く見るべき部分ですが、MoEは、特にMoE部分はquantizationが一般的なdenseモデルよりもうまくいくという話が多いです。

自然な話で、モデルのウェイトは学習を重ねれば重ねるほどquantizationが難しくなるんです。なぜならモデルのウェイトに情報がより多く入るからです。学習を重ねるほどです。ただMoEの場合は各モデルのモジュールが全データに対して学習されるわけではなく部分的に学習されるので、圧縮できる可能性がより高いと言えます。

だからgpt-ossの場合もMoE部分を特に量子化しましたし、Kimiの場合もその部分を量子化しているわけです。

なのでこうした流れは、おそらく今後さらに頻繁に見られる基本的なテクニックになると思います。

04:38 ロ・ジョンソク モデルサイズもじゃあそのおかげでかなり減ったんでしょうね。これ1兆パラメータモデルのはずですが、サイズは1TB未満になりそうですね。理論上500GBくらいになるんですかね？ 600GBくらい？

04:53 キム・ソンヒョン これ、ウェイトの大半がMoE部分に入っているので、おそらく1TB、そのレベルにはならないはずです。もちろんquantizationしてメモリに載せたときは1TBではなく500GB程度、今おっしゃった通りそのくらいになるはずです。

05:16 ロ・ジョンソク そのくらいなら本当にGPU 8枚載せた1台でも回せるレベルですね。

05:20 キム・ソンヒョン はい、ぎりぎり押し込めそうですね。

05:24 ロ・ジョンソク そうですよね。性能は維持されるのに、どんどん小さくなって、計算効率は上がっている。

05:34 チェ・スンジュン パラメータは1兆級だけど、容量で言うと500GBくらいになると推定されているんですね。

05:38 キム・ソンヒョン はい、実質容量はそのくらいまで減るはずです。半分のサイズになるので。たぶんこういう流れは今後も続くと思います。

ポストトレーニングレシピの重要性 05:43

05:48 キム・ソンヒョン ポストトレーニングとRLに重点が置かれつつ、RLの学習レシピが急速に改良されていて、その急速に改良されたレシピがモデルに適用されてリリースされる周期が速くなっています。こういうものを今後も見続けると思いますし、そういうレシピ改善についてはテックレポートを別で出しもしません。

どれだけ良いレシピを持っているかが、おそらくフロンティア企業の競争力になるはずです。

プレトレーニングは、これまではあるデータをうまく使うことに近いとすれば、ポストトレーニングはデータを創造するという感覚により近いんです。

そうなると、その創造をどれだけうまくやるか、この部分がノウハウになるわけで、そこによってフロンティア企業の競争力は非常に大きく分かれると思います。

おそらくポストトレーニングのレシピやコツのようなものは、各企業ごとにかなり違うと思います。

06:40 ロ・ジョンソク はい、かなり違ってきているでしょうね。はい、それから哲学的にどこに重要度の重心を置くか、こういう点も、Anthropicのようなところはコーディングや現実的な問題、B2B useにかなり重心がある一方で、OpenAIやKimiはおっしゃったようにもっとgeneralization、こういう方向にずっと重心がある感じもします。

06:59 キム・ソンヒョン はい、Anthropicももちろんgeneralな部分を引き続き押さえるでしょうが、その部分で特化の方向へ行くのか、それとも全体を全部持っていくのか、そういう違いはあるでしょうね。

ただ私は基本的に、フロンティアラボの基調はどこも全体を一緒に引き上げる、だと思います。

私は一般的な知能や能力というものが、他の能力と完全に切り離せるものではないと見ているんです。

ただこれは少し哲学的な部分ではあります。

07:25 チェ・スンジュン どんどん進めましょう。

強化学習（RL）への新しい視点 07:26

07:29 キム・ソンヒョン はい、それでは本来やろうとしていたreinforcement learningに移ります。前回私がRLVRについて扱いましたが、扱い終わったときはそれで十分だと思っていたのに、いざやってみるともう少し深くきちんと扱いたいという気持ちが強くなったんです。なのでreinforcement learningの話をもう一度してみようと思います。

私と同世代のエンジニアにとってreinforcement learningはかなり特別な場合が多いです。なぜならAlphaGoと一緒に始まったからです。ディープラーニングが。なのでAlphaGoを再現するのが最初のプロジェクトだったという方もとても多いでしょう。でもそれに比べて私は強化学習から始めたタイプではありません。

私は普通に教師あり学習から始めて、強化学習については「そんな厄介なものをなぜわざわざやるの？」という、ややそんな感覚だったんです。最近まではそうでしたが、LLM時代が来て強化学習をやらないわけにはいかなくなり、結局強化学習に関する話をするようになりました。ただそういう意味では、強化学習から始めた方々と私では、強化学習に対する視点や感想が少し違うかもしれません。

以前から強化学習に深い愛着を持っていた方々と、私は強化学習といえば厄介な対象という感じで見ていて必要に迫られて再び関心を持つようになった立場なので、視点は少し違うと思います。とはいえ新しい視点もおそらく面白いかもしれないと思っています。

それで、強化学習とは何かを改めて簡単に紹介すると、あるエージェントがいて環境の中でエージェントが行動します。行動すると、環境はエージェントの行動によって何らかの変化をします。これを状態が変化すると表現します。そして場合によっては、そこで報酬と呼ばれる、この環境で定義された報酬が入ってくることもあります。

なのでゲームで高得点を得た、といったことが一つの報酬になり得ます。そうしたとき、この環境の中で行動するエージェントがこの報酬を最大化できるように学習する方法が強化学習です。そしてこの部分が教師あり学習とは少し異なる方法でもあります。

教師あり学習 vs 強化学習: 自動運転の比喩 09:30

09:36 キム・ソンヒョン ただ教師あり学習は、もちろん強化学習と完全に別物と見るのが難しい点もあります。なぜなら教師あり学習の手法が強化学習の一部として考えられる部分もあるからです。ただ強化学習と言うときに教師あり学習と異なる点は、エージェントがどう行動すべきかを人間の専門家のような人たちが教えるわけではない、という点です。

10:02 チェ・スンジュン ちょっと混乱するのは、これは教師なし学習の文脈じゃないですか？教師あり学習のときはRLじゃなくて教師なし学習のときがRLではないですか？

10:04 ロ・ジョンソク 教師あり学習と言っても合っていますよ。ソンヒョンさんが意味したのは、強化学習が進む中で成功したものに対して報酬を得て更新する、こういう部分は実は教師あり学習でラベルに合わせて学習する過程とも似ている、ということですよね。

10:21 キム・ソンヒョン これは自動運転を比喩にするとよいと思います。自動運転を比喩にして、教師あり学習で自動運転を学習するとしたら、人がある走行軌跡を作るでしょう。こう運転する過程の記録を作って、その記録をモデルが模倣するよう学習するのが教師あり学習的な観点に近いです。

強化学習を使うなら、それよりはある目標を与えて、成功裏に目標、つまり目的地に到達することに報酬を与え、どう運転するかはエージェント、つまりAIモデルが自分で見つけるようにする方に近いです。これが教師あり学習と強化学習を対比したとき最も大きな違いでもあります。

つまり、どう問題を解くかは教えないわけです。問題を解けという目的だけを与えることに近いです。ですがそのために、より利点が生まれます。

人間が作ったデータで、人間が作ったデータを模倣するよう学習すれば、結局人間レベルの性能が出るでしょう。もちろん完全にそうとだけ言えるわけではありませんが、だいたい人間レベルの性能に到達するのが目標になります。人間のやり方を追うからです。

実際、人間より劣る可能性が高いです。模倣というのは。ですが強化学習はその方法をモデル自身が見つけるようにするので、人間レベルを超える可能性が生まれます。

つまり囲碁でそれを最もよく示しています。モデルが自分で囲碁の打ち方を見つけるので、人間を超えるレベルの囲碁が打てるようになるわけです。そういう意味で、機械学習の方法の中で超人的、つまり人間を超える性能に到達できる唯一の方法とも言えます。強化学習は。

強化学習の手法とは何か、どういう形で起きるのかと言うと、これを数学的にアプローチすると非常に複雑ですが、Karpathyがとても簡単に要約していました。強化学習についてかなり辛辣に表現してはいましたが、かといって全く間違った表現でもありません。

基本的なコツは、エージェントが行動を実行します。環境の中で行動させたあと、たまたま行動していると報酬が入ってきます。すると報酬が入るまでに行っていた行動の確率を上げるんです。これが最も基本的なアイデアだと思っていただければよいです。

行動させたあと、報酬が入ったら、その報酬が入るまでにしていた行動の確率を全部上げるわけです。すると少し変な感じがしてきます。

強化学習の核心: Credit Assignment Problem 12:43

12:46 キム・ソンヒョン その行動の中には役に立たなかった行動もあり、役に立った行動もあるはずですよね。特にランダムに行動しているとそういうことがより起きるでしょう。なら、その中で実際に役立つ行動だけ確率を上げるのがよいですよね。

ただこれはCredit Assignment Problemと呼ばれる問題で、韓国語でどう訳すのがいいか今すぐには浮かびません。つまり、どの行動が実際に役立つ行動なのかを見つける問題ですが、よく考えると簡単な問題ではありません。

人間でも先験的な知識が全くない状態で良い結果が起きたとき、その結果につながった行動は何か、それをどう見抜けるかと考えると簡単ではありません。人も皆、以前の経験や推論で見つけるのであって、ただ放り込まれた状態でどの行動が役立ったかを見抜くのは本当に難しいです。

そして人間もこの部分でミスを非常に多くします。つまり、パターンがないところでパターンを見つけようとしたり、全く関係ないのにその行動が役立つと考えたり、こういうことがよく起きますよね。これは全体として難しい問題だということを示唆しています。

つまりギャンブルのような場で人はそういうミスを非常に多くします。パターンがあると思い込み、ある行動が役立ったはずだと考えてジンクスが生まれる、ということです。

なのでこの問題はかなり難しく、AlphaGoのおかげで強化学習の輝かしい姿を多く見ましたが、それでもこうした部分、特に報酬が非常にまばらに与えられる場合、行動を数百回、数千回した後にしか報酬が与えられない場合には、依然としてこの問題は難しいです。

強化学習は難しい問題で、その強化学習でAtariゲームを解いていたとき、Atariゲームは多く解かれました。でもその中にMontezuma’s Revengeというゲームが一つあったんです。今ここにスクリーンショットを出しているゲームですが、このゲームは私の知る限り今でも人間平均レベルまでは到達したものの、変則的な方法を使わない限り、例えば人間のガイドや環境をリセットできる能力などを与えない限り、依然として超人的能力には到達していないと理解しています。

つまり、強化学習にうまく合わない、すなわち多くの行動をした後にしか報酬が入らない環境については、依然として難しい状態なんです。なので全体として簡単ではない問題です。

LLMに強化学習が導入された理由: RLHF 15:10

15:10 キム・ソンヒョン ではこの強化学習がLLMに対してなぜ導入されたのか、そしてどのような形で導入されたのかを紹介するところから始めようと思います。最初に導入されたのはRLHFだと言えると思います。もちろんそれ以前にも別の形で導入された事例はありますが、主流で導入された事例はRLHFです。

RLHFがRLかどうかという論争は多く、強化学習をやっている人はRLではないと言ったりしますが、とにかく私はRLだと思います。基本的なアイデアはこうです。こういうものです。

LLMにあるプロンプトを与えて、応答を2つ生成させます。すると応答が2つ生成されれば、その中に良い応答と悪い応答があるでしょう。そこで人間がどの応答が良く、どの応答がそれに比べていまひとつだったかをラベリングします。

ラベリングしたあと、このラベル結果を使って報酬モデルを作ります。この報酬モデルは、応答を受け取ってその応答が良い応答かどうかを人間の評価に近く予測するようにしたモデルです。そしてこの報酬モデルがRL、つまり強化学習において報酬を提供する報酬関数の役割を担います。

こうして報酬モデルを作ったあと、LLMで再び応答を複数生成させます。複数生成したあと報酬モデルに入れると、その応答が良かったか悪かったかを評価しますよね。すると報酬モデルがその評価スコアを最大化するように、つまり報酬を最大化するようにRLをするわけです。

そうすると報酬が最大になる、つまり人間が肯定的に評価する応答が出るようにモデルが学習されます。なのでこの過程が人間とのアラインメントになります。人が好む応答をモデルが生成するようにモデルを学習させていき、だから人間と整列していくわけです。人間の嗜好とこの形で学習されます。これがRLHFの基本的なアイデアです。

考えてみると「これをなぜやるのか？」と思うことがあると思います。そして実際に「これをなぜやるのか？」と思ってやらないケースも多くありました。特にオープンソースモデルの場合には「これをわざわざこうやる必要ある？」ということが多く、「なぜやるの？」という意見が多くてやらないことが多かったのですが、この問題についてはいろいろ理由があり得るとしても、最も代表的に挙げられるのはハルシネーション問題だと思います。

SFTの限界とハルシネーション問題 17:18

17:28 キム・ソンヒョン まず「なぜやるのか？」という話で、ではRLHF以外に方法があるかと考えられますが、その部分で最も代表的な方法がいわゆるSFTと呼ばれる方法です。これは専門家、あるいは人間が正答を書くんです。

さらに言えば人間が書くのではなく、GPT-4のようなすでに整列されたモデルが生成した応答を持ってきて正答を作ることもあります。とにかく専門家が正答を書きます。リヒテンシュタインの首都は私もこれを調べて知ったのですがファドゥーツィだそうです。こういうデータを書くわけです。

そしてモデルはこの専門家が書いた正答を模倣するように学習します。Next Token Predictionをそのまま使います。「リヒテンシュタインの首都は」という入力に対して「ファドゥーツィ」というトークンを予測するよう学習させるわけです。これがSFTの基本アイデアで、多くの場合「RLHFをわざわざやる必要ある？」ただこうすれば「いいんじゃない？」という形でよくアプローチされ、実際多くのオープンソースモデルはこのように学習され、今もこのように学習されています。

ただここで重要なのは、学習するモデルであるLLMと専門家は別のエージェントだという点です。LLMはLLMというエージェントで、専門家はとにかく人間なので別のエージェントです。この二者は同じ存在ではありません。この点を一つ押さえて注意深く考える必要があります。

そこで何が起き得るかを見るために、モデルが知っている質問で学習すると考えてみます。「フランスの首都はパリだ」この質問と正答で学習するとして、モデルはフランスの首都がパリだと当然知っていると仮定してみます。

ではモデルが学習するのは何かと考えると、質問に対して自分はひとまずパリだと知っているわけです。すると自分が知っている事実をもとに「応答すればいい」という行動様式を学習するわけです。

ではモデルが知らない質問だと仮定してみます。リヒテンシュタインの首都の場合はLLMは皆知っているでしょうが、仮に知らないとして「リヒテンシュタインの首都はファドゥーツィ」というもので学習すると、モデルはリヒテンシュタインの首都がどこかを知りません。するとモデルは何を学ぶでしょうか？

当然リヒテンシュタインの首都が何かも学習するはずです。でも同時に学べるのは、自分が知らないときでも「とりあえず応答しよう」というこの行動様式も一緒に学ぶということです。

なのでOpenAIが今回ハルシネーション論文を出しながら似た指摘をしたのは、モデルがまず答えることに対して報酬を受けているからだ、という表現ですよね。同じことです。とりあえず答える行動様式を学んでしまうわけです。

こうなるとモデルを大きく変えます。新しい知識も習得しなければならず、知らなくてもとりあえず応答することも習得しなければならず、モデルを大きく変えることになり、モデルを大きく変えることは通常よくない結果につながります。ハルシネーションが発生するわけです。

On-Policy vs. Off-Policy学習の概念 20:15

20:15 キム・ソンヒョン こういう場合には「とりあえず知らなくても応答しよう」「何でもいいから」というパターンを学習するわけです。この部分でなぜこうした問題が生じるのか、もう少し深く考えてみます。

On-PolicyとOff-Policyという概念があります。RLの非常に重要な概念です。Off-Policyというのは、学習するエージェントと行動するエージェントが別にいることです。行動するエージェントが行動してデータを作り、このデータで学習エージェントが学習するわけです。これがOff-Policyです。

通常Off-Policyの方がはるかに難しい問題です。たとえば最も極端な例を挙げると、これはSuttonの本から例を持ってきたのですが、行動するエージェントが料理をしているのに学習エージェントは運転を学べませんよね。そのデータでは望むことを学べません。

つまりこれが一致しているか一致していないかが、学習の難易度に非常に大きな影響を与えます。「じゃあそれをなぜやるの？」と思うかもしれません。「ただOn-Policyでやればいいのでは？」と思うかもしれませんが、Off-Policyでしかできない学習パターンがあります。

専門家が経験し、その専門家がデータを生成して、学生がそれを学ぶわけです。たとえば先生が実際に自分で経験し、経験過程で蓄積した経験をその過程、つまりデータを要約して学生に渡すわけです。こうするとより効率的ですよね。自分とは異なるエージェントが学習した結果や行動で得た経験でも学習できるので、データ効率が高いです。

そしてOn-Policyは制約がかなり極端なんです。過去の自分と現在の自分も互いに別のエージェントです。学習過程でエージェントは変化し続けるので、過去の自分がした経験を現在の自分が使うのは難しいわけです。

そのためデータ効率で差が大きく出ます。だからOff-Policyをやりたくなるのですが、Off-Policyはかなり難しい問題で、その難しさがどう起きるかをもう一度見ると、この慢性的な問題があります。

専門家がOff-Policyであるという代表的な形は、専門家が行動した後、その専門家の行動過程でモデルが学習することだと言えると思いますし、先ほどの自動運転の例で言えば、人間が運転した後にその運転をモデルが学ぶケースが基本的なOff-Policyの例だと言えると思います。

ただ人間が運転した過程で学んだとして、人間にはある経路に行ける能力があるが、モデルにはその能力がないと仮定してみます。A地点から人間はB地点に行けるが、モデルはB地点に行ける能力がまだないわけです。

するとモデルはAからBへ行った後に目的地へ到着する、この部分だけで学習したことになります。でもモデルは実際に現実へ出るとB地点へ行く能力がありません。C地点へ行ってしまいます。

そうしてC地点へ行くと、今度は自分が初めて見る状況が発生するわけです。学習過程で見ていない状況が発生します。するとここでは問題を解けなくなるわけです。

この問題は、あるモデルがその問題を解けるか解けないかという問題と結びつきます。モデルにある課題が与えられたとき、モデルにその問題を解く能力があるかないか。

でもモデルに能力がない状態で、その能力があることを前提に問題を解かせると、現実ではうまくいかないわけです。そしてこれは機械学習のある概念とも結びつけられて、オーバーフィッティング問題とも似ている点があります。

一般化のためのモデルの問題解決能力 23:31

23:41 キム・ソンヒョン オーバーフィッティングというのは、よく見るとあるデータがあるとき、そのデータに過適合しすぎて生じる問題だとよく表現されますよね。点があるとき、その点を全部結ぼうとするので非常に複雑な曲線ができるわけです。でも実際にはもっと単純な直線の方が一般化がうまくいくかもしれません。

オーバーフィッティングの基本的直観は、普通は教科書レベルの直観として、データの変数が少なくモデルが単純ならオーバーフィッティング可能性が低い、とよく表現されます。でもこれをもう少し深く考えると、こうも見られる気がします。

オーバーフィッティングが起きると、このデータの各点を全部覚えるわけです。暗記したと表現できます。この暗記という点が少し面白い部分で、私たちは「モデルがあるデータを暗記してそのまま解いた」という表現をよくしますよね。

この暗記と一般化を対比して考えると、オーバーフィット状態は暗記だと考えられ、やや過剰な一般化ですがデータを暗記した状態であり、一般化可能な状態は暗記を超えてある根本的パターンを予測した状態です。

ただこの部分で一つ興味深い点は、単純にデータの変数数が小さくモデルが単純だということを超えて、モデルが解ける問題を与えるかどうかが非常に大きな影響を与えるということです。

ここに小さい写真が一つありますが、画像分類問題を解くと仮定してみましょう。非常に小さい写真は、言ってみれば変数が少ないと表現できますよね。ピクセルが小さいので。

ではピクセルの小さい写真を与えるとよいか、オーバーフィッティングが防げるかというと、そうでもなく、そうだけでは見られません。ここに小さい写真がありますが、これは何でしょう？この写真はリンゴの写真です。

リンゴの写真をリサイズして非常に小さくしてありますが、あまりに小さい写真を与えると変数が減るのはよくても、この写真で実際に画像分類問題を解くのは不可能ですよね。情報がないので。解ける問題を与えることが一つの重要点です。

これはデータの側面でも考えられますが、モデルの側面で考えてみます。モデルが大きくなるほど必ずオーバーフィッティングが起きるのかというと、これもそうではありません。

それだけでは見られない点があって、あるニューラルネットワークモデルでレイヤーが一つあるごとに足し算を一回できると考えてみます。attentionのようなものだと考えてもよいでしょう。

そうするとレイヤーが一つ増えるたびに解ける足し算の数が、一度に解ける足し算の数が一つずつ増えるわけです。レイヤーが2つあると仮定すれば、2回の足し算を解けるでしょう。

なので足し算1回の問題は解けますし、2回の問題も解けるでしょう。3回の問題からはモデルが解けません。モデルが解けない問題に対してモデルはどう行動するでしょうか？

ニューラルネットワークモデルが非常に弱ければ学習自体が進まないでしょう。でも普通ニューラルネットワークモデルは非常に強いんです。非常に強いのでデータを全部覚えてしまえる能力がある場合が多いです。

するとこの問題については問題を丸ごと暗記する可能性が高いですね。どう暗記するかは色々あり得ますが、数字4が出たら10を出す、といったものを覚えられるでしょう。データをそのまま覚えてしまうんです。

解けない問題に対してデータを暗記してしまう一種のオーバーフィッティングが起き得ますよね。オーバーフィットする形でモデルが学習されるわけです。なのでこの場合はレイヤーが3つ必要でしょう。

レイヤーが3つあるというのはモデルが大きくなったということですが、モデルが大きくなるとむしろオーバーフィッティングが減るわけです。なので最高の一般化を考えると、最高の一般化と言えるものは多くの場合アルゴリズムを学習することです。

ここで数字を与えて正答を与えました。数字と正答があるとき、この多くのパターンを全部暗記して学習することもできます。でも最善の一般化が可能な方法は、モデルがソートアルゴリズムを学習することです。

そうするとモデルがこの状況で一般化するには、モデルにソートアルゴリズムを学習できる能力が必要です。ソートアルゴリズムを学習できる能力がなければこのパターンを全部暗記してしまい、一般化は不可能になりますよね。

つまりソートアルゴリズムを学習できる規模になって初めて、モデルに一般化が起こり得るということです。これをもう少し拡張して考えてみます。

一つのレイヤーが実行できる演算は限定的です。通常、attentionのようなTransformerの1レイヤーが実行できる演算は限定的で、レイヤー数は有限ですよね。なので1トークンに対して実行できる演算量は限定的です。

でもあるトークンを予測するとき、そのトークン予測に必要な演算量がこれよりはるかに多いなら、それはモデルが解けない問題になるわけです。

これは簡単な2次方程式の問題を持ってきましたが、モデルがこの2次方程式を一気に解ける規模ではないと考えてみます。するとこの問題はモデルには解けません。

ではこの問題が与えられたときモデルができるのは、ただ覚えることです。この方程式が出たらこの結果を出せと。すると世の中に存在するすべての種類の2次方程式を学習しない限り一般化はできませんよね。

ではこの問題を解くのに必要な演算量を複数トークンに分散したらどうなるでしょうか？つまりこの2次方程式問題を段階的に解いて一段ずつアプローチするわけです。

するとこの2次方程式問題で正答へ一気に行く演算と比べて、各段階の演算はより少なくなるはずです。まず解の公式を持ってきて、解の公式に数値を代入し、代入した各数値を計算し、計算後に整理して正答を出す。

これらは各トークンに必要な演算量が、各段階に必要な演算量が、一気に解くより少ないですよね。するとモデルが解ける問題になるわけです。

モデルが解ける問題になるので、ここから一般化が可能になるんです。モデルが解けない問題では暗記し、暗記するので一般化が不可能だとすれば、モデルが解ける形に段階を分割すれば、その段階を通してアルゴリズムを学習でき、アルゴリズムを学習できれば一般化が起こり、一般化が可能になります。

29:55 ロ・ジョンソク これがどんなロジックで流れていくのか理解できてきました。合っている気がします。続けてください。面白いですね。

30:04 キム・ソンヒョン つまり一般化については、モデルが解ける問題を解かせること、これが非常に重要です。単に小さく単純なモデルを使って変数を減らすことを超えて、必要な場合はモデルを大きくし、必要な場合はシーケンス長を伸ばす、そういうことが起きるわけです。

インターネットデータの限界: 中間過程の不在 30:28

30:28 キム・ソンヒョン モデルが解ける問題を与えることで、そのとき一般化が可能です。ところが問題は、インターネットにはこういうデータがほとんどありません。

これはMath Stack ExchangeにいたCleoという非常に有名なユーザーの事例の一つですが、あるユーザーがこういう積分問題を投稿しました。

数時間後だったか、Cleoというユーザーが一発で答えをこう出したんです。でもその答えに対して、どんな過程も、どう導出したかという説明も全くありませんでした。

人々はかなり疑いました。だから問題を出したのも本人、解いて投稿したのも本人で同一人物だ、あるいは同一人物で逆に問題を作った、つまり積分から始めてこの微分問題を作ったのだ、など推測が多くありました。

多く疑われましたが、実際にはそうではなかったそうです。実際に積分問題を解いたと言っていた気がします。

ただいずれにせよ、その人に実際に積分問題を解く能力があったかどうかとは別に、インターネットにはこういうデータがあふれているわけです。この積分問題を一発で中間過程なしに解ける人は世の中にほとんどいないので非常に稀ですよね。

でもインターネットデータでは人々がこう解いて、問題を解いているように見えます。インターネット上のデータでは、人々がこの程度の積分問題は一発で中間過程なしに解くようになっているわけです。

でもインターネットデータを通じてモデルが学ばなければならないのに、モデルが学べるのは全部こういう形なんです。

31:50 ロ・ジョンソク モデルがプレトレーニングで学ぶデータは全部あのように質問と正答の形になっていて、途中にどんな演算が入るか、そのいわゆるtrajectory、それがデータにほとんどないという話ですよね。

32:04 キム・ソンヒョン 極めて稀です。極めて稀なので、これがLLMで慢性的に発生する問題です。だから質問について少し考えて答えればよいのに、まず答えから出すわけです。そういうパターンが発生します。

実際こういう簡単な例を持ってくると、ニュートンは偶数年生まれか、奇数年生まれか？こういう質問を与えると、まず即答したい衝動を抑えられないんです。

LLMはそれで何の過程もなくただ「偶数」と答えるわけです。でも面白いのは、即答する確率が最も高いんです、だいたい。

ただ確率は低いものの、考えて答える確率、その可能性もあります。つまりニュートンが生まれたのは1643年で、1643年だから奇数年だね、とこう考えてから答えるパターンが全くないわけではありません。存在はします。

そしてこの部分が非常に重要な手がかりになります。ほとんどの場合はすぐ答えようとする衝動に勝てないが、考えようとする能力、つまりパターンもモデルにはある、となるわけです。

なので推論を通じて応答できる能力はLLMに存在はしている。しかし埋もれているわけです。非常に低い確率で。

33:16 ロ・ジョンソク 同じ質問が入っても答えを出すその後の可能性は非常に多くの分岐があって、その中には衝動的に答えることもあれば、もう少し展開して説明しながら正答に至ることもある、いろいろな過程があるけれど、その過程をどうすればもっと考えさせられるか、こういう方向にRLが使われるようになった、そういうロジックで進んでいると理解すればいいですか？

プレトレーニングと探索空間の縮小 33:38

33:41 キム・ソンヒョン 結局こうしたLLMがこの能力を得るのはプレトレーニングなので、実はプレトレーニングと結びつけて、どのようにこうした能力を得るのかから先に始めます。

まずプレトレーニングはRLで非常に重要な役割を一つ果たします。なので、もしトークン100個に相当するテキストを生成する問題だと考えてみます。100個くらい生成しないと解けない問題だと考えてみましょう。

すると可能性の数は、そのLLMのトークンvocabulary数、持っているトークン語彙数の100乗になります。Kimi K2で見るとKimi K2 vocabularyは163,840個程度でした。163,840の100乗になるわけです。囲碁の探索空間、囲碁で可能な手の数が膨大だと言っても、それよりはるかに多いはずです。

これはKimi K2の学習lossを私がグラフで確認して見積もったのですが、1.32程度のようでした。では1.32が何を意味するかというと、perplexityの観点で見ると3.7程度になります。この3.7の意味は何かというと、トークンごとに選択肢が3.7個あると見ればよいです。

つまり本来、全トークンに同じ確率を与えると163,840個の選択肢があるわけです。でもプレトレーニングを通して選択肢の数が大きく減ります。だいたい3.7個から1つ選ぶ問題に変わるんです。

そしてこれは全シーケンスに対する平均なので、文脈が与えられる場合には選択肢の数は実用上さらに減り、特に自明なトークンについてはなおさら減ります。つまり少しバベルの図書館みたいなものです。

35:23 ロ・ジョンソク 選択肢が減ったというのは、結局学習の結果として膨大なランダム経路の中から、何か定義されorganizedされた経路をこのモデルが備え始めた、そう解釈していいんですよね。

35:31 キム・ソンヒョン はい、少しバベルの図書館のような感じで考えられると思います。つまり可能なあらゆる100トークンのシーケンスは、探索しうる場合の数として全組み合わせを考えると無限に多いですよね。

でもその中で実際に意味のあるシーケンスは、それに比べるとはるかに少ないはずです。つまり大半は意味をなさないシーケンスで、トークンをランダムに並べると大半は意味不明ですが、その中で意味をなすものはごく少数なんです。

プレトレーニングを通して、そのごく少数の可能性、場合の数を絞り込むと見られます。

36:10 ロ・ジョンソク 意味のある経路を学習していると考えるべきですね。ソンヒョンさん、ここでというのも、vocabulary size、cross-entropy lossの意味、実はそこから導かれるperplexityの概念、ここは視聴者のみなさんにとってギャップがかなり大きいと思うので、これを簡単にだけrecapするとしたらどう説明するのがよいでしょうか？

LLMの学習とPerplexityの意味 36:25

36:32 キム・ソンヒョン もう少し補足すると、LLMは普通次トークン予測で学習されるとよく表現されますよね。ただ次トークン予測の実質的な意味は何かというと、とても簡単な単語で考えるとよいです。つまり次単語予測と考えてみます。

するとある文の次に来る単語には、単語数がありますよね。辞書にある単語数になります。その辞書の全単語の中から一つを予測する問題になるわけです。

それが一種の分類問題になります。その中で正答単語を選ぶ問題。すると可能な単語数がvocabulary、普通vocabularyと呼ぶ語彙数になります。つまり選択肢の数です。

選択肢の数はKimi K2の場合163,840個です。その中から一つを選ばなければならないわけです。

37:18 ロ・ジョンソク 表現できる単語の数が163,840個。

37:25 キム・ソンヒョン そして163,840個を一回だけ予測して終わりではなく、何度も予測していかなければなりません。なので可能な場合の数はその累乗で増え続けます。とてつもない数字になるわけです。

ただモデルを次単語予測で学習させると、その学習loss、cross-entropyは結局その予測をどれだけ正確にするかのlossになります。この予測をより上手にできるよう学習させるわけです。

そして学習中のこのlossをexponentialにすると、その値をもう少し直感的に理解できるのですが、その直感的理解の一つは、このlossにexponentialを取ったこの数字、この数字個から一つを選ぶ確率だと見ればいいです。

163,840個を選択肢として持つ問題、同等確率で選ぶ問題が、3.7個程度の単語の中から一つを選ぶ問題に変わる、こう考えられると思います。可能な場合の数がものすごく減るわけです。

38:31 ロ・ジョンソク その通りです。なので私が視聴者に伝えたかったのは、この数字自体の意味というより、lossやperplexityなどをどうすれば分かりやすく説明できるかでしたが、

38:45 チェ・スンジュン はい、でも今はリスナーの方がスライドを一度止めてキャプチャしてからGPT-5に聞いてみるのがいいです。

38:51 ロ・ジョンソク はい、そうですね。なのでこれは非常に難しい基礎内容や長期間学習が必要な機械学習、このLLMのこうした部分を全部含む内容なので、直感的にはLLMそのものがこの広い可能性空間の中で何かを非常に整理された形で整理して枝数を減らしていく、その過程が学習だ、と非常に要約しておっしゃったものとして理解していただければと思います。

推論の分岐点: Entropyが高いトークン 39:17

39:17 キム・ソンヒョン プレトレーニングを通して、ありえないトークンをすべて落として選択肢を減らしていくわけです。

なので実際にモデルが推論するとき何が起きるかを見ると、ここで青はモデルのentropy、entropyと表現されますが不確実性と表現します。これは不確実性が低い状態です。

これらのトークンについてはモデルがほぼ確信しています。青が濃いほどより確信していて、赤に行くとentropyがやや高い、つまり不確実です。

ほとんどのトークンは全部青です。つまりプレトレーニングを通してこれらのトークンについてモデルがほぼ確信しているわけです。言い換えるとこの部分を予測するのは難しくありません。

なので少数のこの赤いトークン、この部分だけうまく予測すれば、残りはそれについてそのまま追随してくるわけです。

40:09 ロ・ジョンソク そのentropyが高い区間は、ひょっとするとこれが決定的な分岐点だと受け取ってもいいんでしょうか？

40:18 キム・ソンヒョン はい、そう見ています。最近この部分が推論の中で最も重要なトークンだと。

よく見ると、これは流れを少し変えるトークンです。つまりこういう基本的な計算のようなものは計算がそのままずっと続いて、四則演算のようなものがずっと続くんです。

その中で「考え方を変えてみようか？」「こう考えてみようか？」「だとしたらどうだろう？」のように、意外とこうした数値計算の部分はモデルの不確実性が低いんです。

不確実性が高くなる部分、予測価値のある部分は、こういう思考の流れを変えるトークンです。分岐を分ける。

40:53 チェ・スンジュン maybeみたいなものが見えたり、そういうのが見えたりしますね。

40:59 キム・ソンヒョン はい、結論を出すとか、こういう部分のトークンが意外と不確実性が高いです。

つまり人は数字の計算のようなものはすごく難しくて不確実だと思い、こういう平易なトークンは簡単だと思いがちですが、むしろ平易なトークンの方がそれが分かれ道になるので、不確実と表現するとネガティブに見えるかもしれませんが、そのトークンが分岐点の起点になるわけです。

41:25 チェ・スンジュン それは内部表現そのものではないので、ただトークンとして現れているだけで、内部表現を見るとまたかなり意味深かもしれないですよね。

41:32 キム・ソンヒョン はい、それはあり得ます。そしてこれらをある重要な分岐だと見なしている可能性もあります。モデル自身がこの状況で、たとえば思考を切り替えるべきときに、この状態で切り替えるか、それともこのまま進むか、そうした部分が決まる瞬間だとも見られるでしょう。

41:47 ロ・ジョンソク だからこの膨大なトークンについても

41:52 キム・ソンヒョン 大半は自動的に予測されるので、実際の探索空間は本当にわずかです。実際に探索すべきなのはこうしたいくつかの赤いトークンだと言えます。

41:59 ロ・ジョンソク 決定的な「ところがです」というようなトークンがあるわけですね。はい。

集団的推論の学習: インターネットフォーラム事例 42:04

42:08 キム・ソンヒョン そしてこれがプレトレーニング過程でどう学習されたのかというと、いろいろな可能性、いろいろな事例があるでしょうが、私が非常に面白く見たものの一つがフォーラムです。インターネットフォーラムで、あるsongokuというユーザーが自分の宿題を持ってきたのですが

普通インターネットフォーラムを見ると「宿題は解かない」みたいなルールがある場合が多いですよね。そして宿題に対してただ答えだけ出すのを避ける傾向があります。

そのためか、このBvUというユーザーは答えを直接は出しません。でもずっと考えさせるんです。

このケースについて考えてみるのはどうか、こう考えてみるのはどうか、という形でフィードバックを続けます。すると元のユーザーが考えて、ここで自分がミスした気がする、これで合ってるか、これで合ってるか、といった話をします。

典型的に私たちが推論モデルで見るパターンですよね。推論モデルは考えながら、このケースを考えるとどうだろうと考え、あ、じゃあ何かミスしたかなと振り返る、こういうパターンが推論モデルとして現れますよね。こういうデータはインターネットにほとんどないのに、フォーラムのような場所で時々こうして現れるんです。

さらに驚くのは、これを一人で書いているわけではないということですよね？一人が問題について中間過程を整理して要約したのではなく、複数人が参加して相互作用しながら、こうしたある種の集団的推論データが作られたわけです。

43:32 ロ・ジョンソク 少し前にAndrej Karpathyが自分がEureka Labを創業した理由についてDwarkeshポッドキャストで似た話をしていた気がします。自分のperplexityをすべて把握した完璧なTAがいれば学習効率はものすごく上がる。自分はそれを作るつもりだと話していましたが、これに既視感がありますね。自分のレベルにぴったり合うTA。

43:50 キム・ソンヒョン そして多様な人が相互作用して、その相互作用の結果が一種の推論記録になるわけです。文章を通して正答へ到達するので、とても馴染みのある推論トークンがこの事例に現れます。そしてこれらがこのように稀ではあっても存在する事例が、LLMが推論能力を学んだデータになるでしょう。

強化学習による推論能力の発現 44:14

44:20 キム・ソンヒョン ではこの能力をどう引き出すかが問題になります。多くの場合は埋もれていて、これがうまく表に出ません。表れる確率が0ではありませんが、推論しない確率の方がずっと高いです。この部分について最近面白い論文が出たので、その論文の直感的説明をします。

推論を生成する確率があり、推論したときに答えが正しい確率があります。推論を生成しない確率があります。そして推論せずに答えが正しい確率があります。

そのときLLMは基本的に推論しない確率の方がずっと高いです。でも推論したときの方が答えが正しい確率は高いです。推論しなかったときより。つまり、だいたい推論は生成しないけれど、推論を生成したとき答えが正しい確率は、推論を生成せずに答えが正しい確率より高いわけです。こういう非対称な状況なんです。

では強化学習の過程でこれがどう作用するかというと、推論を生成する確率は低いが、推論が生成されたときの正答確率は高い。強化学習は正答の場合に確率を上げますよね。すると推論を生成した事例が強化されるわけです。

45:22 ロ・ジョンソク どんどん長く話すようにインセンティブがかかる方向なんですね。

45:30 キム・ソンヒョン はい、その方向に作用します。つまり非対称なので、推論したケースの方により注目するわけです。そのとき正答確率が高いからです。

推論確率が非常に低くても、その低確率に比べて正答のケースが多いので、その正答がより強調されるわけです。

強化学習においては、強化学習は正答か否かしか見ないので。つまり正答で評価すること自体、確率が低くても正答ケースが多ければ、出現確率より強く報酬強化を受けるわけです。

45:59 ロ・ジョンソク はい、つまりさっきのperplexity観点で見ると、単純にトークンに入る、つまりcomputeが増えれば増えるほど結局うまくいく、みたいな話に要約できるんですね。極端に要約すれば。

46:12 キム・ソンヒョン 実際にはそれよりもう少し良い結果です。この論文の意図に従うなら、プレトレーニングでこういうパターンを学習するのに比べて、強化学習はこれが非常に速く起きると言っています。

つまり段階ごとに各段階で出現確率が上がるのですが、正答可能性は高いのに出現比率が低いある推論シーケンス、ある応答があれば、その応答の確率が上がるとき指数的に上がると表現します。

幾何級数的に増えるわけです。なので各段階で幾何級数的に増えるため、能力が非常に速く学習されます。

46:55 ロ・ジョンソク つまりtech paperを見ると、プレトレーニングモデルをプレトレーニングからポストトレーニングまでして外にリリースするcomputeを100とすると、ほぼ90以上がプレトレーニングに使われ

残り10%以下がポストトレーニングに使われるわけですが、実際プレトレーニングで見ていたものはさっきソンヒョンさんが言ったように膨大な可能性からその分岐をうまく見つける訓練がまだ不十分な状態で

RLでそれを発現させると、少ないcompute投入にもかかわらず得られる成果物の品質がものすごく速く上がる、こう見ればよいわけですね。

47:29 キム・ソンヒョン たとえばプレトレーニングでは、先ほど述べたように推論なしで正答だけ出すケースがほとんどなので、その確率がずっと高く、推論を通して正答を出す確率は非常に低いわけです。

でも推論を通して正答を出すケースは正答確率が高いので、強化学習の現場ではその部分が非対称的により大きな報酬を受けます。

大きな強化を受けます。

強化学習を経るたびに

47:55 チェ・スンジュン ここで強化されるというのは結局、CoTを吐き出すというアクションが強化されるということですよね。そこにある程度アドバンテージを与えるということですよね。

48:00 キム・ソンヒョン CoTをしない場合に比べて、CoTをする方がより強く強化されるんです。実際CoTをする確率に比べると、実際の確率は1%しかなくても、強化はたとえば2%程度のレベルで受けると見られます。すると1が2になり、2が4になり、4が8になり、こうして速く増えるわけです。

48:21 チェ・スンジュン 速く、幾何級数的に上がる。

48:23 キム・ソンヒョン だから本当に、プレトレーニングについてはプレトレーニングだけを経た状態ではCoTが生成される確率は非常に低く、それは低いまま維持されるでしょうが

強化学習によってそれが非常に速く、そして非常に主流なパターンになるわけです。

実際、比較的少ない演算、computeだけでもこうなるので、強化学習を通じて非常に低い確率しか持っていなかったプレトレーニング済みモデルの、非常に低確率だった推論パターンが急激に浮上するわけです。

48:52 チェ・スンジュン ではモデルが応答するその分布自体が移動したと見てよいんですか？

48:59 キム・ソンヒョン はい、移動します。非常に速く移動します。だんだん長くなるパターンへ移動するわけです。

強化学習は既存能力を引き出すことなのか? 49:01

49:04 ロ・ジョンソク つまりこれは本当に哲学的な問いをせざるを得ないのですが、では強化学習によって正答する能力が本当に涵養されるのではなく、もともと長く話すことで正答確率を上げるその傾向が継続的に報酬を受けてきた、と要約しても、そういうふうにも聞こえますね。

49:25 キム・ソンヒョン この部分について言うと、推論を生成して答えを当てることが一般化可能な能力なんです。推論を生成せずに答えを当てる確率は、もちろん全部がそうではないですが、だいたい暗記による可能性で、だから正答確率が低いんです。

するとモデルが一般化可能なパターンへ進むわけです。

一般化不可能だった、自分が暗記して知っていることで応答していたパターンから、一般化可能な能力の方向へ進むわけです。RLを通して。

49:54 ロ・ジョンソク そしてそういう方向性がインセンティブを受け、そういう傾向が強まるようにパラメータが更新され続けるのがポストトレーニングなんですね。

50:05 キム・ソンヒョン そう考えると、もともとあった能力を引き出しているだけではないか、という質問がすぐ出てきますよね。これも引き続き議論されているテーマですが。

つまり結局、そうした推論能力はプレトレーニング過程で学習されたもので、その推論能力を持ってくるだけではないか、という質問が出てくるわけです。ずっと議論されている部分ではありますが、それだけでは見られない点も一緒にあります。

プレトレーニングを通して、繰り返し出てくる話ですが、数学で推論する能力を教えたら詩を書くときにも推論するようになる、こうした他領域への拡張があり、それもプレトレーニングの一つの役割です。

プレトレーニングを通して多様な領域がつながっているので、そのつながった別領域に対して一般化が起きるわけです。これが一つの拡張だと見られるでしょうし、また最近出ている話の一つは、組み合わせる能力が生まれるという話もあります。

たとえば推論過程について、A問題を解く能力、B問題を解く能力があるとすると、A問題を解く能力とB問題を解く能力を結合して新しい問題を解く能力が推論過程で発生するわけです。そしてこの過程を学習すると、Aという方法とBという方法を足してCという方法を結合する能力が生まれる、という話もあります。

つまり既存の部分的能力を組み合わせて新しい組み合わせを作り、問題を解く能力が発生するという話も最近出ています。こういう一般化も可能だという話も出ています。

Kimi K2についても一つ出ていた話は、Kimi K2が1回の指示に対して2~300のツールを使う能力を学んだと言いますよね。でもある人たちの話では、そういう能力自体もこうした形で創発したという話もあります。つまりツールを使う能力がますます創発して、より多くのツールを組み合わせる能力が創発する可能性もあるという話も出ています。

51:57 チェ・スンジュン スライドに見える合成関数を見るとラムダ計算を思い出しますね。結局これが合成関数を使うということ自体が計算において非常に重要な意味を持っていますよね。

52:13 キム・ソンヒョン はい、ある基本能力がまた発生し得るか、この問題は別問題ですが、基本的に持っていた能力を新しく組み合わせ、より長く組み合わせる能力が強化学習によって生じるという話もあります。ただそれがどう生じるかは今後さらに研究が必要でしょう。興味深いテーマだと思います。

成功する強化学習の条件 52:26

52:26 キム・ソンヒョン 先ほど出た話を全部総合してみます。流れがいくつかに分かれていたと感じたかもしれませんが、これをもう一度整理すると、分散していたものを要約すると

先ほど出た話、モデルが一般化できるようにするには、モデルにモデルが解ける問題を与える必要がある、これが一つの重要なアイデアでした。

そしてそれは、一般化できる方法で問題を解けるようにする、と言っても同じです。モデルが解ける方法で。つまりモデルが解ける能力の範囲内で問題を提供すべきだということです。

そしてon-policyでなければなりません。

なぜon-policyかというと、off-policyの場合、ある専門家が問題を解いたとして、その専門家が持っている能力をモデルは持っていないかもしれませんよね。すると先ほど示したように、無条件にB経路だけを見るのと同じです。

本来モデルができる能力ではC経路に行くべきなのに、C経路へ行けず、B経路だけ学習するわけです。

でもモデルが自分の能力に従ってC経路へ行くと、そのモデルはそこで詰まるわけです。

だからモデルができる能力の範囲で問題を解かせるにはon-policyでなければなりません。モデルが直接問題を解いてみて、モデルが自分のやり方で問題を解いた後、それに対して報酬を得て学習しなければならないんです。

誰か別の人が「こう解け」とガイドを与え、それで学習するのではなく。

53:56 チェ・スンジュン 自分の経験で試行錯誤しないといけないということですね。

53:59 キム・ソンヒョン はい、そうしてこそ一般化が可能です。なぜならモデルが解ける能力の中で強化学習したからです。もしモデルが解けない方法で問題を解くのではなく。そして解けるか否かだけでなく、モデルが好む解法自体も別にあるでしょう。人間とは違う。だからon-policyでなければなりません。

そして推論過程に構造を与えること、例えばMCTSのような探索問題を考えると、そこでは各段階を分割し、その段階に構造を与えますよね。でもその特定構造を与えるのも人間のアイデアです。ある人という専門家が見て「この問題はこう解くべきだ」とするアイデアが入るわけです。

でもそれは、モデルが実際に問題へアプローチし解ける能力とはかけ離れている可能性があります。だから構造を与えることも不要、あるいはむしろ有害になり得るんです。

そして先ほど示したように、プレトレーニングで非常に低確率の推論でもその推論経路が正答である比率が高いため確率が急激に増えるという話をしましたよね。この過程で重要なのは、正答を正答だと正確に判定してあげる必要があるということです。

つまり推論せずに暗記で解くような部分で誤答が多く発生する部分については、正答でない場合に誤答だと判定し、推論を通じて一般化可能な方法で問題を正しく解いた場合、そしてそのとき正答した場合にだけ、正答を正答だとして報酬を与えなければならないんです。

誤答を正答だとフィードバックしてはいけません。そうしてこそ一般化不可能なパターンが誤って強化されるのを防げるからです。

55:39 チェ・スンジュン 前回セッションでfalse positiveの話をされたときの話がこれですよね。

55:46 キム・ソンヒョン 相対的に一般化可能なパターンが、正答を正確に判定することを通じて相対的により強化されるわけです。こういう条件がそろう必要があります。

推論について正答をやや厳しく判定する、完全に正答が一致したときだけ正答と判定する、そういうものがあるとした場合、そういうものがあったとしたら誤答を正答として与えるケースはひとまずないと考えましょう。するとそのとき相対的に多く報酬を受けるのは一般化可能なケースだけだと見ればよいと思います。

つまり一般化可能な形でCoTをした後に正答するケースと、CoTなしで正答するケースを比べると、一般化可能でないケースには誤答が多いでしょう。するとその誤答のためその部分の比率は下がり、正答をよく出す、一般化可能に多様な問題で正答を出すある行動パターンは相対的により大きく強化されます。正答を正答として正確に判定するからです。

一般化可能でないのにある答えを出したとき、その答えを誤って正答と見て強化する、一般化可能でないある行動様式に対する強化を与えない役割を、正確なフィードバックが果たすわけです。つまり当てずっぽうで正解することを抑制するわけです。正答を正確に見れば、当てずっぽうで当てるケースが相対的に抑制されるわけです。

でも正答を正確に判定できなければ、相対的に当てずっぽうで当てるケースが強化を受ける確率が高まりますよね。すると一般化可能なパターンが浮上するのを妨げると考えられます。

なのでこの正確なフィードバックを与えることが一般化可能なパターンの発見に役立つ、はい、そう見られます。

DeepSeek R1の推論学習方式 57:27

57:30 キム・ソンヒョン なのでDeepSeek R1に戻ると、DeepSeek R1の方式は非常にシンプルでした。プロンプトを見ると「推論過程を実行した後でユーザーに応答を提供せよ。推論過程はタグ内に入れ、応答はで囲め。」

そして報酬はから出た応答が正答と合うか、それだけを判定し、内ではというタグで囲め、これには報酬がかかっていましたが、内に何を入れるべきかについては一切触れていませんでした。手を加えなかったわけです。

そしてこれだけで推論が発生しました。

58:02 チェ・スンジュン これが面白いのは、Anthropicでたしか1年前くらいでしたか、そのときもというXMLタグがあったんですよ。なのでユーザーが後でそれを見つけて、それだけを露出させる作業みたいなことをしたりもしていましたよね。推論モデルを公式発表する前にも。

58:19 キム・ソンヒョン それはおそらく当時どうポストトレーニングされていたかは分かりませんが、そのときもCoTのようなものは学習していたからでしょう。ただ当時の方式は少し違っていた可能性があります。

なぜならCoTを学習する方法の一つは、ただ専門家、つまり人が「こう考えろ」と書いてあげる方式もあり得るからです。実際そういう学習も多くされていましたし。

なのでそのCoTが、というCoTが実際に強化学習で学習されて、その中身に触れていなかったのか、中身に触れていたならどれほど触れていたのかは分かりません。ただ当時もCoTのようなものは存在していました。

そして些細な影響ではありますが、AnthropicはXMLやHTMLタグを使うのを好みます。はい、だからDeepSeekでもこういうタグを使う方式を選んだようにも思えます。

いずれにせよ改めて要約すると、モデルが自ら、ある専門家の、自分にはない能力で問題を解くのではなく、自分が解ける方式で問題を解き、その問題を解いた後でその正答を通じてフィードバックを受けることが推論を登場させる経路だったと言えるでしょうし、その部分には多くの概念が入ってきました。

多くの概念を結びつけて考えられます。on-policyとoff-policyを考えられますし。

さらに一般化とオーバーフィッティングの問題、モデルが解ける問題を与えたときにのみ、解ける形で提供したときにのみ一般化が起こり得ること、こうした部分が入ってきました。こうした部分を通じて、なぜ推論が発生し得たのか、なぜ推論が強力な一般化を可能にするのか、そしてその過程でプレトレーニングの役割は何か、こう結びつけて考えられると思います。

以前と同じように最後のスライドで少し抽象的な話をします。Jason Weiが言った話なので抽象的だと評価してはいけないですが、完全に別テーマではあるんですが、on-policy、off-policyについてJason Wei、OpenAIにいて今はMetaへ行った研究者ですが、その人が言った話があります。

締めくくり: On-policy RLと人生: Jason Weiの話 1:00:05

1:00:12 キム・ソンヒョン 人間も見ると、最初は模倣で学習しますよね。先生に教わった通りに学習したり、自分に良さそうに見える事例を持ってきてそれを模倣しようと多く学習します。

でも人間も結局、持っている能力はみんな違いますよね。持っている能力が違い、与えられた条件もみんな違います。

その与えられた条件で成功する選択をするには、もはや模倣できない領域、地点があり、その模倣できない地点ではon-policyをするしかない。自分で試して、そこから経験を得て報酬を得るしかない。そういう話をします。

結局人間にも似たジレンマが常にあるわけです。誰にでもぴったり模倣できる対象があり、それを複製すればよいのですが、置かれた環境と能力はみな違うので、その環境と能力の間で本当に一般化可能なパターンのためには、自分で行動して経験を得るしかないようだ、という話をします。

そしてそれが模倣を超えなければならない理由でもあります。なのでいつもon-policy、off-policyの話をしているとこの話を思い出して、締めくくりとして持ってきました。

1:01:15 ロ・ジョンソク 本当に面白いですね。面白いです。

1:01:19 チェ・スンジュン これは教育について言いたいことがここにつながって本当にたくさんありますね。

1:01:22 ロ・ジョンソク そうですね。実際、私たちの人生そのものがon-policy RLですよね。報酬が落ちてくるのが、きれいな彼女と付き合うとか、お金をたくさん稼ぐとか、あるいはどこかで賞をもらうとか、お金と名誉という形で報酬関数が社会に組み込まれていて、そしてそうしたexplicitな報酬関数だけでなく、自分の内側のstructureで報酬関数をより上位価値として組み立てる人たちが偉大な方向へ進む気がします。

実はソンヒョンさん、今日これを、私がこの対話をしながらも頭の中でソンヒョンさんの次トークンを追っていくのに、いわゆる難易度がすごく高かったんです。次トークンが出るのにperplexityがすごく高かった。

私もそう思いますが、私たちはaudienceに役立つものをもう少し提供する必要がある気がします。

1:02:13 チェ・スンジュン その観点で私からいくつか質問してみます。

実際、LLMとRLをどうつなげて考えるかというところから、初心者は、私がそうでしたが。

なぜpolicyでありaction、actorがLLMなのか、そしてそうするにはLMが確率を吐き出す必要があり、取るべきaction、next token predictionがあり、

状態というcontextがあり、こういうnotion自体が実は最初かなり難しいんです。

つまりLLMも分かり、RLもある程度分かっていても、その橋渡しを作る作業自体を今は全部まとめて飛ばしたんです。

1:02:50 ロ・ジョンソク 今日その橋渡しに当たる部分をソンヒョンさんが、pre-train phaseでモデルは何を持っているかについて、実は比喩で本当にうまく話してくださって、RLがそこでどういう傾向、何と言うべきか、propensityと言うべきですが、そうした傾向を高めることにおいてRLの根本的な、これがやる仕事は何か、というのを本当にぴったり示してくださったんですよ。

1:03:12 チェ・スンジュン でもちゃんとやるならSARSAから始めて、そういう数式を全部拾い集めないといけないんですが、それが難しすぎますよね。

1:03:23 ロ・ジョンソク そうですね。でもRLももう、そういうのはやらなくてもよくないですか？ Q-learning、SARSA、TDでその数式を全部学んで、その後policy gradientを勉強させる、こうやるけれど、その前を全部削って、もうpolicy gradient理論はこれだ、これをmaximizeするんだ、とそこから始めればいい気がします。

1:03:39 チェ・スンジュン そこから始めるのが良さそうですね、実際。

1:03:41 キム・ソンヒョン その中でも実はpolicy gradientもREINFORCEくらい見れば、LLMにはほぼ十分ですからね。

1:03:52 ロ・ジョンソク そうですね。はい、その部分だけ後で少し切り出して、ソンヒョンさんにそこをもう少しcoverしてもらうのもすごく役に立つと思います。

1:04:03 チェ・スンジュン そうですね。私もそれが楽しみです。またミッションができましたね。それでも面白い部分をたくさん押さえてくださって、前半は難しいんですが、実は後半に行くとすっと入ってきました。前半はあまり追えていなかったんですが。

1:04:15 ロ・ジョンソク その通りです。はい、ソンヒョンさんの話を聞きながら、さっきのcross-entropy、perplexityとこれが頭の中でずっとつながって、私にも多くの指向点ができたので、終わったらLLMに聞いてみるべきですね。

モデルと一緒に学習しなければならないと思います。

それでは今日は難しい内容でしたが、ソンヒョンさん、この部分を最大限簡潔で一つの完結したストーリーテリングにしてくださったこのものすごい努力に本当に感謝します。ありがとうございました。