EP 83: 物語で読むTransformer: 輪廻するトークンの巡礼

オープニング: 2026年1月24日、Transformer基礎の続き 00:00

00:00 ロ・ジョンソク 収録している今日は2026年1月24日、土曜日の朝です。

00:06 チェ・スンジュン もう1月も後半ですね。

00:09 ロ・ジョンソク そうですね。はい、1月が始まったのがついこの前みたいなのにもう後半になって、前回に続いて今日はTransformerの基礎、いったいなぜこれがこう動くのかという部分を、あまり深くアルゴリズムや数学を使わずにできるだけ噛み砕いて説明してみる試みになると思います。チェ・スンジュンさんがおっしゃっていたように、時間はたぶん今しかないはずです。実際、12月末から1月を過ごす間にまたモデルが発表されたわけではないですが、いろんなharnessが噴き出してくるのを見ると、また次へ進む感じがあるじゃないですか。時間がどんどん圧縮されている感覚で、もうすぐまた一度、無限ランニングのタイミングが来るので、その前に、その時でなければ今でなければできないことをやってみようということで、少し面白いセッションを作っているところです。今日は前回に続いて、引き続きチェ・スンジュンさんと一緒に、Transformerでいったいこのトークンがどう飛び出してくるのか、この話をもう少ししてみます。

「輪廻するトークンの巡礼」と10xニューノーマル問題意識 01:11

01:11 チェ・スンジュン はい、なので前回は原理を考えるpromptingで少しビルドアップしたあと、今日はその原理を少し見ていく時間にしようと思います。僕が少し物語を作ってみました。輪廻するトークンの巡礼といって、一回ごとにauto-regressiveにトークンがサンプリングされること、トークンからhidden stateを取ってサンプリングされる過程を一度の人生として、次のターンがそれの輪廻だというイメージで物語を作ったんです。そしてここで表現したものは、たぶん2011年に出たJourneyというちょっと芸術性のあるゲームの影響を僕が受けていた気がします。だからそういう雰囲気が少しあります。

それで、今日準備した内容に入ってみると、まずこの探究の背景が、最近ロ・ジョンソクさんも冒頭でおっしゃったように、harnessやこういうものがあまりにたくさん出てくるじゃないですか。だから発展が、ClaudeだけでなくあらゆるところからさまざまなバージョンのCLIやプラグイン、スキルが出てきていて、僕は少し好奇心が減ったんです。そしてその中で、少し考えるようになったんです。だからこの探究の背景となる考えとして、10xがニューノーマルになって1xになるとどうなるのか、これは答えがあるわけではなく、ただ質問を思い浮かべてみたんです。

それで最近見るとAIスクワッド、当然マルチエージェントを回す小規模チーム同士が相互作用しながら教学相長できる連合の場を組む、協力と競争をてこにする試みが多い状況で、変奏された形の契約の登場、そういうものもロ・ジョンソクさんが紹介されて議論されている最中だと思います。

タイムラインを僕が観察したとき、みんなが速く製品を作り、それを今は一人でもすぐPoC以上のものが作れるから市場で実験して改善しようとするじゃないですか。つまりPMFを探そうとすると、当然ソフトウェアのカンブリア大爆発になると思うんですが、それを市場が全部吸収できるのか、疲労感があるのではないかと漠然と考えてみたんです。

それで僕も今年の年初にAnimal Wellという2024年のゲームをすごく面白くプレイしたんです。でも1年にGOTYゲームを1本やるのも難しいじゃないですか。年を取ってからは結局、財布を開く前のゲーム選定でも、口コミで話題の中から1、2本を選ぶようになるほどものすごく多くのゲームがあるので、ソフトウェアもカンブリア大爆発になるなら全部が関心を受けるのは難しい気がして、まあ最近もすでにそうではありますが。

だからコードと製品を10xで出すチームエンジニアが10xの利益につながらなければならない問題がある気がする。けれどみんながそうなれるのか。今はいろんなAI harnessやAIマルチエージェントを活用して生産性を10xに上げると言っているけれど、それが10xの偽の生産性ではないのか、そういう話が出てくるのではないか、そんな想像もしてみました。

だから10xがニューノーマルになって誰もが10xをするようになったら1xになるまでどれだけ時間があるのか、100xの場合も同じです。既存体制の中でやるなら、ただ一日をさらに高密度で複数の文脈を扱う忙しい状態でAIに仕事をさせながら生きるだけのニューノーマルなのか、それともそれに合わせられなければみんなが0.1xで生きることになるのか。答えを持っているわけではないですが、こういうことを考えながら年初を過ごしていました。どうぞ。

04:47 ロ・ジョンソク はい、今まさに時宜にかなった議題ですが、みんながここに目を向けていますよね。去年が少し先に行っていた人たちが何か早く進んだことの果実を取れる時期だったなら、今は、少なくともこの場に入ってきそうな人たちは続々と到着している状況なので、彼らの生産性もみんな上がっているからチェ・スンジュンさんがおっしゃった10xがニューノーマルになるということ自体が、もう10倍上がった生産性が1xのスタンダードになってしまう、そういうことを言っているわけですよね。今すでにそうなってきています。

05:27 チェ・スンジュン だからそれは、いまドッグフーディングのブートストラッピングをしているので、あまりに多くのツールが飛び出してくるのが証拠だと僕は思うんです。生産性が上がってそれを作り、すでにCLI類のカンブリア大爆発を今経験しているのかもしれない。

05:40 ロ・ジョンソク そうなると、僕らがどうしても慣れていたのがソフトウェア業界なので、ソフトウェア業界は過去にはとにかく何かを作らなければならない時間と努力という基本的な生産コスト

生産コスト0の時代: ソフトウェア供給爆発とAI slop 05:43

05:55 ロ・ジョンソク 誰がより上手く作れるか、誰がより良いエンジニアプールを持っているか、こういうことで分かれていた市場だったのにその生産に入る価格が0になったわけです。だから誰でもその品質を出せるようになって、いわゆる供給が爆発的に増えているわけです。そうすると、僕らが子どものころに学んだ経済学原論の最初に出てくる需給の論理に従って市場価格や需要が動くのだから、実際には価格は下がり続けるでしょう。

06:25 チェ・スンジュン そうですね。だから僕がGOTYというゲームに例えたのは、多くのものがもちろん市場に出して改善するとはいえ、最近言われるAI slopに該当するソフトウェアである可能性があって、そうなると結局人々は芸術品に注目するのではないか、そんなことも少し考えるようになりました。

06:45 ロ・ジョンソク はい、経済学は当然希少性の学問で、実際経済自体がいつも「希少なものは価格が高い」、あまりにabundantなら価格は下がるという、とても単純な原則で動くので、僕らがその中にいるからこの現象を過大評価しているのかもしれません。実際、町のパン屋、軽食店、美容室、チキン店、それから僕らがクーパンや11番街みたいなところでよく見る、いわゆるcommodityだと思うそういう部分。

でもそういうものも、過去30〜40年前を見ると、製造業の爆発的成長が起きる前までは一つひとつが希少な物品で、それを作っていた人はみんな金持ちになれた時期だったのに、今は世界中で誰もがそういうものを作れるので、これをcommoditizationと言うじゃないですか。commodity化されるんです。

ところがソフトウェアが今その時期に入ったんです。だからそれは僕らが直接影響を受けるので、その部分に対して一種のラッダイト運動的な反発をしているだけで、僕らが層を移して別の観点からもっと広く見れば、数多くのindustryで起きたことが僕らに起きているだけじゃないですか。簡単に要約すると、だからチェ・スンジュンさんが言ったように10xが新しい1xになり、その次に100xが新しい1xになる、そのタイミングがものすごく早く来ている感じがします。

今はソフトウェアが、Chrome Claudeプラグインなどを見ても、みんながもうパーソナライズされたソフトウェアへ向かっているじゃないですか。なら果たしてB2B SaaSとか大規模ソフトウェアとか、そういうものが必要なのか、ブラウザとOSさえあればいいのではないかという議論はすでにされたのではないでしょうか。でも企画がそれだけずっと重要になったんです。企画なしでただ作ってトークンを投入するだけなら、チェ・スンジュンさんがおっしゃるようにAI slopが出ます。それではない、きちんとしたソフトウェアには依然として別の層の企画的努力や感性的努力などが入るので、実は競争の観点がよりabstract level、つまり上位レベルに移動しただけで、本質は変わっていないと見ます。どうせ以前もソフトウェアを作る人は本当に多かったし、slopソフトウェアも依然として多かったです。

でも今それがはるかに大量に押し寄せてきて、そうしたslopソフトウェアの影響を受けずにそれなりの生態系を維持していた、いわゆる良い学校を出て良い職場を持っていたエリート層にこれが直接打撃になるので少し過大解釈されるだけで、自然な過程だと思います。タイムフレームが非常に圧縮的に起きていること、それが少し息苦しくて大変なだけで。一歩離れて第三者の視点で見れば「当然起きることが起きてるね、消費者の立場では拍手することじゃないですか？」

09:52 チェ・スンジュン 消費者の立場では選択の幅は確かに広がって、あまりに多く出ても結局自分の認知に入ってくるのは1、2個なので、結局ほとんどは無視されるけれど、常に扱える範囲の中でしか見えない気もします。とにかくいろいろ考えが流れているんですが。ところでいくら10xになっても、10xになるからこそ結局出てくる話が「人間がボトルネックだ」という共感を少し得ている気がします。

CLIループツールと「人間がボトルネックだ」の変奏 10:09

10:22 ロ・ジョンソク はい、あり得ますね。でもそれを越える事例もたくさん出てくるじゃないですか。例えばベアメタルのClaude CodeやCodexを使うと人間のボトルネックがはっきり出るんです。なぜならその区間を越えるたびに意思決定をして方向づけを続けないといけないからです。でもそのフレームワーク自体を借りて完全に内蔵した、例えばRalph loopとかOh-My-Opencodeとか、僕もOh-My-Opencodeを本当にうまく使っているんです。で、必要な分だけの絞り込みフレームワークをうまく作ってあって、夜寝る前にOh-My-Opencodeが一晩回せる仕事を選ぶ楽しみに最近ハマっているんです。

11:05 チェ・スンジュン 結局一種のwhile loopですよね。そして少しアンサンブルして

11:12 ロ・ジョンソク そうです。でもトークンを投入すれば品質はどうにか収束して上がるようになっているから、出てくる品質を見るとすごくいいです。「人間がボトルネックだ」なんだけど、そういうふうに人間がボトルネックになる部分までencapsulationされて下位レイヤーにどんどん入ってしまうので、この部分も超えつつあるのではないかという気もするんですよね。はい、僕も最近は業務のほぼ6時間くらいをCodex、Oh-My-Opencode、Antigravityを挟んで、すべての業務をこれ経由で進めているんです。でも過去には単にメールとパワポを直接触っていた仕事を、これを挟んでこれを一つの層として置いてやると、僕のためだけに常時待機するスタッフ7、8人と一緒に働いている気分になるので。

12:00 チェ・スンジュン とにかくコンテキスト管理はしないといけないじゃないですか。マネジメントするなら。違います？それも超えました？

12:07 ロ・ジョンソク とても良い質問ですが、コンテキストに集中する努力は以前よりはるかに減りました。つまり目標点、年末目標・一日目標として朝にToDoリストに書くじゃないですか。そのToDoリストが持つエネルギーレベルにもっと集中するようになるんです。これがmeasurableで、今日一日で終えられて、周囲のリソースと組み合わせて作れる仕事なのか。そのコンテキストを頭の中で圧縮して目標を作る、そのコンテキストです。つまり僕が決めるToDoリストのたった1、2行の文が持つエネルギーレベルが何かによって、実はエージェントがする仕事のクオリティがガラッと変わる経験を少しするんです。チェ・スンジュンさんの話は合ってもいるし違ってもいるんです。合っている部分は、依然としてコンテキストに入る努力はすごく増えたけれど、それもまたツールを通じて絶えず少しself-reinforcementされるので、それもただ良くなっていく。

もしうまくいかないことがあるなら、曖昧なものをこうeval promptingするじゃないですか。チェ・スンジュンさんが僕に教えてくれた方法でもあるし、それでさらにエネルギーレベルの高いプロンプトにして、それをtaskの出発にするとまたうまく進むんです。だからこれは見る観点によって、どれか一つの層、一つの観点では整理できない、かなりグラフ的な形で事が進んでいて、僕も答えにくいですね。話していたら流れてしまいました。

脳とTransformerの比喩: 機械の思考で人間を見る 13:45

13:45 チェ・スンジュン はい、でも関連する話にまた戻る気はします。なのでとにかく僕は人間について少し考えてみるんですが、少し突飛ですが発想を変えて機械の思考を比喩として覗いてみたらどうか、と考えてみました。だから脳と機械のTransformerが同一体ではないけれど似た仕事をするとしたら、少し推し量れる部分があるのではないか、というのが突飛な仮説です。それでまず最初の前提は、どちらも空白の板ではないということです。まずTransformerもパラメータは全部埋まっているじゃないですか。最初はランダムにせよ、でも再配線されるじゃないですか。回路が作られ、重みが調整されているニューロンを再配線するだけじゃないですか。だから最初から埋まっていて空ではない存在で

でも人間も最初は空だったとしても、ある程度生まれたあとはすでに埋まった状態で、幼年期を過ぎると実はニューロン自体はあまり増えないと言うじゃないですか。僕も正確には分かりませんが、でも再配線のようなことは依然として脳の可塑性のために起きるし、ミエリンがより強化されるとか、ある方向へよりよく流れるとか、なのでそこに少しイメージを持っていてそうだとすれば僕も今かなり年を重ねていく時点で、自分の脳を再配線すること、何かを学ぶというのは結局それに相応する物理現象があるわけじゃないですか。何かが変わっていないと学びは生まれないわけじゃないですか。それをどうすればうまく起こせるか、そういう悩みもしていたんです。

ロ・ジョンソク 人間の脳とTransformerは同じ原理の機械だと僕は思う人なので、はい、簡単で面白い実験があるんですが。

チェ・スンジュンさん、speech jammerってご存じですか？すごく話す人がいたら話せなくする面白い道具があるんですが、何をするかというと、自分が話す声をヘッドホンで聞くときに、微妙に数百ミリ秒ほど時差をつけてずらして聞かせるんです。すると人は言葉が詰まります。これが証明するのは何かというと、人間の脳もただのautoregressiveなマシンだということなんです。僕らは話すとただ話しているように見えるけど、実は話すのと同時にそのoutputがinputとして再び脳に入って合わさる構造になっているんです。だからそれがずれるとembeddingが絡まって、話している途中で思考が止まります。これ以上思考が進まず「なんでだろう」という状態にすぐ達するんです。つまり僕らの脳もただのautoregressiveマシンだ、ということです。

オレンジ色の夕焼けを背景にしたファンタジーイラスト。マントをまとった人物が輝くランタンの間の黄金色の道を歩き、右側には鍵（♀）の紋様が刻まれたアーチ状の柱を持つ壮大な建物が広がっている。左上に「輪廻するトークンの巡礼」というタイトルが記されている。

16:18 チェ・スンジュン なるほど。今日の話にぴったり合う話ですね。ではこのリンクは後で紹介するとして、僕が輪廻するトークンの巡礼という話を少しスライドにしてみました。これを僕のタイムラインで既に共有してはいたんですが。ちょっと見てみましょう。

トークン一人称で見る生成: prefill・KV cache「記憶の宮殿」 16:23

16:34 ロ・ジョンソク 面白そうです。これもチェ・スンジュンさんがpromptingして画像生成やテキストなども全部AIに仕事させたんですよね。

16:42 チェ・スンジュン そうです、これがこのスライド形式で出てきたのは僕らの収録1分前です。それが可能だったのは僕がClaudeを信じていたからです。10分回せば出てくるだろう

16:55 ロ・ジョンソク できるってことをすでに知っていたんですね。はい

チェ・スンジュン

まず、話はトークンを主人公として考えました。次に僕が今回考えているのは、プロンプトを入力するとprefillされるじゃないですか。だから一度ザーッと並列で回ってKV cacheがすでに積み上がっている状態、基本的に僕らが使うときはシステムプロンプトもprefillされていて、最初にユーザープロンプトでザーッと何か構造物がある状態で生成されると考えて、そのとき次のトークン1つが生成される一人称観点で見てみよう、ということでした。それで僕はここで構造物が積み上がっているのをkeyと、ここで鍵の形のkey valueの構造物が建物のようにある状態としてまず考えてみました。そして今日、宮殿の端に新しい塔が1つ建てられる、それが自分だと考えました。例えばここで比喩では32層のレイヤーが出てきますが、最初から始めて32層を全部通過すると次のことが起き、輪廻が起こる、そういうイメージです。行ってみましょう。

レイヤー内部の旅(1): embedding→norm→QKV分化・RoPE 18:03

18:03 ロ・ジョンソク なので最初はトークンがhidden spaceにembeddingされます。だからそのイメージです。この時は正確なvocabularyがどの数字に対応するかによって数値化され、それがまだ文脈のないhidden spaceにembeddingされて流れていくのをresidual streamと見られるんです。だからこのhidden space xがずっと自分自身を継ぎ足す作業が起きます。でもそれをうまくやるには、これ何でしたっけ？RMSでしたっけ？少し自分自身をnormalizeするところから始めるじゃないですか。だから最近は、はいそうです、多くのTransformerがpre-norm post-normをするとき、バニラがpost-normだったなら最近は先にこう少し絞ってから行く、それをします。だからこれを少し標準の呼吸を得る感じだ。次に息を整えて分化の準備をする。

分化が起きます。QKV部位に分化が起きたあと、それをまたmulti-headに分割する、そういうことです。複数の頭、あるいは複数の目、それから複数のkey、複数のvalueを持っていて、それを通じて自分自身をまた継ぎ足すんです。ところが最近はGQAといってKV cacheを効率的に使うために共有する部分があるそうです。僕もこれはよく知らなかったんですが

19:29 ロ・ジョンソク Group Query Attention

だからそういうものがアテンションを通じて自分を分けて分けるのではなく、複製したあとに異なる観点を作って、複数の観点で見てそれを再び統合する作業をして、それをQは私が投げる質問、Kは私が残す標識、Vは私が残す水、と詩的に表現されました。次にこれがRoPE、つまりposition encodingでしたよね。昔と違って最近は回転する感じでそれを巻いて、トークンの位置がシーケンスのどこかを標識にする、それをイメージで表現してみました。そして次に始めるときはそのhidden stateがKVを残して次へ進むんですよね。だから進むたびに構造物を積載する方式になる気がするんです。

だから最初、この主人公のhidden stateあるいはxがずっと進んでいくんですが、そのたびに1層を通るごとにmulti-headで見て、そこで得たものからKとVを作ったあと、それを飲んで自分を変える、その標識を記録しながら進む、そんな感じです。

でもこのとき通常attention scoreと呼ぶものは、どのシーケンスに注目するかの採点ですが、それをもとに自分から出たV、ある値、そこに何か知識が入っているかもしれないそれを加重和する部分があって、それを自分を変化させる何かを飲む感じで表現してみました。

レイヤー内部の旅(2): attention=soft lookup (Andrej Karpathy) 21:18

21:18 ロ・ジョンソク でもこれをAndrej Karpathyもそうだし他の人もそうですが、「soft lookup」という表現をするんですよね。普通、何かを照会するときはキーでクエリを投げてバリューを得る方式で動くじゃないですか。

でもsoft lookupというのは、それを正確に1つだけ得るのではなくいくつか得て少し点数をつけて、これは0.1、これは0.4、そうして加重和を得るのを通常soft lookupとAndrej Karpathyが言っていましたが、アテンションも結局soft lookupで、以降に出るdense layerを2つ合わせたFFN(feed-forward network)も soft lookupで、MoEもsoft lookupが繰り返される感じがあります。だから1つを選ぶ仕事ではなく比率で混ぜる仕事だ。

Vたちの加重和で混合物を作り、residual stream、自分自身を継ぎ足す、それをイメージで表現してみました。だからこれが置き換えられず、ずっとxにデルタを足す感じで進み、これがずっと自分により多くの意味と文脈を入れる感じで描いてみました。

MoEルーティングのイメージ: 384 experts・top-k選択とスケーリング 22:31

22:31 ロ・ジョンソク 次に、これ384個はDeepSeekが384個で、Kimi K2が384個でしたよね。sparse auto Mixture-of-Expertsで、でもDeepSeekは256個だった気がします。

だから最近そういうトレンドがあるのを比喩的に解いたのが、ある層に行ったら384の扉があって、その中でゲートまたはルーターが今の主人公xとつながりそうなものを8個だけtop-kで選ぶ、そんな感じで、それが入ってやるのは、これがルーターの表現なんですが。そのxが複製されて同時に8方向に入り、そこで知識を取るんです。そしてまた自分に合流するんです。まったく同じ加重和なんです。さっきのattentionと少し似た感じなんです。だから実はこれは読むだけではなく自分を変形させることなんですが、書いてみたらこういう読み取りのような表現のほうが情報を集約する感じがしたのでイメージを少し変えてみました。そしてまた残差、つまりresidualを重ねて接続する、というのを表現してみました。なのでルーターの仕事が重要です。

そしてこの方式でパラメータを大きく増やせるわけです。普通、ものすごく大きいパラメータをFFN一つで作ると計算にずっと多くのFLOPsが投じられますが、適度な大きさのものを複数expertに分けると、はるかにパラメータを増やす方式で今スケーリングしているわけなので、その話でもあります。それが並列的に起きる。で、こういうことが32層、つまり例えばさっき384のexpertがあるとしたら、それが全Transformerで384あるわけではないんですよね。つまり一度にTransformerブロックに384のMoEがある形だったので、そういうものが例えば32レイヤーだとすると、そのときsparseに8個ずつ選ばれるわけじゃないですか。だから全Transformerブロックが32個あるなら、384個ずつ32層あるけれど、その中で実際にactivationされるのは各8だから、8掛ける32だけずっと少ないんです。でもそれをやるとき記録は残らない。KV cacheはない。

つまりMoE演算をするときは。建築物のように塔が生成され続けるのは32層のKとVの指標ですが、痕跡が残るのはMoE側にはなくattention側で生じるということです。だからTransformerは結局、コミュニケーションして考えてコミュニケーションして、を層を広げて深めながらやっているということです。

でもこれが面白いのは、少なくとも2層ないとinduction circuitのようなものが生じないそうです。Transformer初期研究ですが、2つの層があってこそinduction headが一つの情報を別のところにコピーして扱うことができるということです。記録を作って次にそれを活用しなければならないので、1つのレイヤーではだめで2つ以上のレイヤーで扱ってこそ回路が生じるという部分は、ある意味とても当然な気がします。何かを書いておいてこそ活用できるわけですから。

25:56 ロ・ジョンソク 僕らが2年前によく扱った論文の中にPhysics of LLMという論文があって、Transformerブロックの幅を広げて、その次にdepthを減らしembedding spaceを狭くしたり広くしたりするのをsmall modelで実験して、おおよそ一種のconjectureを作ったんです。推定を作ったんです。「これがこういう役割をしていそうだ。」低層は低レベルのembedding spaceを掴み、高層に行くほどより抽象的な情報を処理するようにlayerが掴まれる。でもそれは誰かがそう決めたのではなく、学習過程でemergeするんです。

26:33 チェ・スンジュン そうですね、それが 자리を取るんです。そういう役割が。だから今主人公は同じシルエットで表現されていますが、厳密に言えばこいつは少し違う形になっている状態なんです。

26:41 ロ・ジョンソク 元の自分の姿に何か別の情報がべたべた付いた形に変わり続けているんです。

26:49 チェ・スンジュン 経験値が上がって成長していて、いろんな文脈を含有している、そういう状態になっていて。そういうものがずっと繰り返されて、次に渡す準備ができます。でもその前に少し境界線ができて、そのまま渡せず、また変換しないといけない。数字に、あるいは文字に。それがsamplingなんです。

なので、これがvocabが3万2千くらいのvocabだと仮定したとき、その中でこういう分布の良い分布に当たるものを、上位確率的に取り出して次のトークンに渡す。だからこいつは消えるけど後任者がそれを受け取ってauto-regressiveします。つまり自己回帰するわけです。

でもその自己回帰という存在は、以前に前任者が残したKVを全部見るんです。一度こうautoでsamplingされる過程が1層から始まって32層まで行って、ここで渡す、そういうものですが、そういう痕跡が生成のたび、トークン1つ生成するたびに塔として積み上がっているんです。

KVが。そしてそれをまたmulti-attentionで見て、何をどうするかを層ごと層ごとに考える。だから少し巡礼というタイトルを僕がつけたのは、こいつが輪廻しながらすごく壮大な旅をしていく、という話をしたかったからだと思います。そしてその中で、記録のような建築物が立っていくんです。そうだとしたら、僕らがpromptingするというのは、ここに突然大きな建築物を一気に建てることです。その建築物も美しくあるべきじゃないですか？

28:39 ロ・ジョンソク はい、そうですね。はいはい、ここでスライド終わりですか？

月明かりが降り注ぐ夜空の下のファンタジーイラスト。マントをまとった人物がランタンの並ぶ道を歩き、右側には鍵（♀）の紋様が輝くアーチ型の建物が立ち、遠くには雪に覆われた山々が見える。右下に「テクニカルバージョン（2/2）」の表記がある。

28:44 チェ・スンジュン いやいや、これが、ここが最後です。

28:48 ロ・ジョンソク 実はあの一人として表現したのが実はトークン一つの話なんですよね。そうでしょう。

28:53 チェ・スンジュン だからトークンから始まってhidden stateになった状態です。

28:55 ロ・ジョンソク そうです。こいつが次のnext inputトークンとして扱うその一つのトークンをここでは人として表現したので、それが旅を経てこのoutputとして出て、それが次のトークンとしてまた入る、その過程一つだけをおっしゃったんですね。はい

29:13 チェ・スンジュン 1ラウンドですが、これがトークン一つが生成される旅なんです。だから少しKV cacheは成長する記憶の宮殿で、パラメータは固定じゃないですか。動かない地形で、KV cacheはそこで育つ記憶の宮殿で、トークンはその二つの間を行き来する巡礼者だ。だからそういうものがずっと繰り返されて、その連鎖の軌跡が僕らが意味と呼ぶ風景を作る、と物語を作ってみました。これが役に立つか分かりませんが。

29:43 ロ・ジョンソク はい、僕もこれを聞きながらそのことを考えていました。

なぜならこれがこのアーキテクチャと、いわゆるテンソルの旅をPyTorchなどで一度でも少し追ってみた人には、このストーリーテリングはすぐ何を言っているか分かるはずですが、そこへのknowledgeがない方がこれを聞くと、何を言っているか分かるけど何を言っているか分からない、になる確率はあると思います。はい

30:16 チェ・スンジュン それは少し背景知識があるともっと面白いんですが、だからこれは知識を伝える、つまり何かを学ぶのに役立つというより、味わうのに少し役立ってほしいという願いです。

30:24 ロ・ジョンソク そうなんです。でも実は僕らがneural netを最初に学んだのは、2015年、10年前を思い返すとMNISTをfully FFNで、当時perceptronと言っていたFFN形態だけで作ってFCN fully connected networkだけで作ってみるのを第1番にやって、その次にconvolutionをつけてみるのを作って、その次convolutionでVGGからResNetなどを学んで、その次RNNに進んでRNNでとても簡単な色々を学び、その後少し上級になるとLSTMとかGRUとか、でもそこからはコンセプトだけで実装はしません。ライブラリを貼り付ける形になって、そこから次に行くと、その上級がattentionを実装してみることだったと僕は思うんです。そこも超えるのが難しかったです。

RNNでattentionすること、でもattentionを理解するとtransformerがなぜああ回るのかはまた直感的になるんです。

だからtransformerも、チェ・スンジュンさんもたぶんかなり時間を投入されたと思いますし、最初にvocabularyを作ってtokenizerを理解しないといけないし、その次にそこから出たものがembeddingに入り、そして以前はその時position embeddingを足していたじゃないですか。その次にattention blockへ行き、attention blockでも実は理解できないことがすごく多く起きます。これがなぜこうなっているのか哲学的には分からないけれど、アーキテクチャを理解するために理解して 넘어갔던ことが多いじゃないですか。僕がその時すごく理解できなかったのが、multi-headで分割しながらattention内embeddingが例えば256ならmulti-headにしてその256を前からただ切るんです。8個ずつ

32:11 チェ・スンジュン 細かく切りますね。

32:15 ロ・ジョンソク はい、細かく切るとそれが全部まとまって一つのembeddingなのに、これを分けてattention演算して後ろでまた合わせる。これが哲学的にどんな意味があるのか今も実は分からないんです。ただ単に「embeddingを複数空間に分けてより多様な可能性を探索する」程度で理解して 넘어갔ましたが。

32:33 チェ・スンジュン そうですね、僕もその程度で理解していて、さまざまな観点で扱うんです。

32:37 ロ・ジョンソク そうです。だからattention blockができて、それがまた一つにconcatenationされて上に渡り、layer normを一度通って、そのあとFFNに入ってもう一度さっきチェ・スンジュンさんが言ったsoft lookupが生じて、するとまた同じdimensionで結果が飛び出すと

32:56 チェ・スンジュン つまりこの主人公が同じdimensionです。同じ人物のままずっと進むんです。

ロ・ジョンソク はい、その次のtransformer blockに入るわけで、これが層に従って繰り返されるわけではい、そしてその間にあるresidual、自分自身を足していくものがありましたが、これが生まれた理由は非常に深いblockでもgradientが死なずに前まで生きろという目的で作られたのに、今考えるとまたすごく哲学的意味があるんですよね。チェ・スンジュンさん。

33:27 チェ・スンジュン はい、それはただresidual connectionがgradient減少を防ぐだけじゃなく、元々始まった意味から重力を少し持って、そこに関連したものがさらにくっつく、そんな感じなんです。

33:50 ロ・ジョンソク そうです。そしてその部分で革新をもたらしたのがこれですよね。最近発表されたDeepSeekのMHC

33:56 チェ・スンジュン MHC、高速道路を複数作って、爆発しないように少し、SyncOn인가そのアルゴリズムで

34:01 ロ・ジョンソク Manifold Constrained Hyper Connectionだった気がしますが

34:05 チェ・スンジュン それはまあ、キム・ソンヒョンさんがうまく扱ってくださらないとですね。

34:09 ロ・ジョンソク そうです。そういう形でその区間をもう一度効率化したし、最近またDeepSeekが出した論文がN-gramでしたが

34:15 チェ・スンジュン N-gram、それは 이제

34:18 ロ・ジョンソク あれはまたそれですよね。attention blockが

34:20 チェ・スンジュン そうですよね？それを効率化するんですよ。

34:21 ロ・ジョンソク はい、あまりにword by wordでやっているから、それを意味ごとに束ねて投げればずっと意味があるんじゃないか

34:30 チェ・スンジュン つまりそうすると、むしろ推論の演算能力をもっと使うという

34:36 ロ・ジョンソク その通りです。だから僕らはキム・ソンヒョンさんに、DeepSeekが去年と今年に出したそのMHCとN-gram関連を、もうすぐ授業で聞く予定ですが、そういうものが加わりつつそしてここで面白いのが、チェ・スンジュンさん、この前僕が言ったNemotron、あれはMamba blockとtransformer blockが混ざっているんです。そしてMamba block自体がただsequenceというものを持っているので、そこにはpositional embeddingを足す区間が全くないんです。うん、ただMamba blockを何回か通るとその中でsequence情報が生じたと仮定して、そのあとattention blockとMoEに渡すんです。でもまた動くんです。

35:13 チェ・スンジュン まあ、とにかく興味深いこと、興味深い派生がいろいろあって面白いですね。

どこまで勉強すべきか: 線形代数+トイ実装、Andrej Karpathyカリキュラム 35:17

ロ・ジョンソク なので僕がこれを長々と話した理由は、この部分でチェ・スンジュンさんにこの質問をするためでこの世界をこれから理解し続けるうえで、どの程度の深さまで知るべきだと思いますか？例えば僕はこのtransformerの、journey of tensorと言いましょうか、一つのトークンが経験する旅の程度は一度は知っておかないと、今起きているニュースを解釈する力は生まれないと思っているんですが、それでなければ、ただ群れて回るだけになるんです。「これできるって、これできるって」と言いながら群れて、思考が少し浮遊する傾向がある気がして。この領域をきちんと理解したいという熱望があって、これが本当に自分の人生で重要なら、これは一度はやるべきではないかと思うんですがチェ・スンジュンさんに質問すると、少なくともチェ・スンジュンさんが今話した内容を理解するには、どのレベルまでは知っているべきだと思うか、少し厳しめにコメントすると何と言われますか？

36:30 チェ・スンジュン でも僕もよく知っているわけではないですが、うーん、でも実は今質問してくださったのが、まさに話したかった部分でした。つまりこういうのをなぜどこまで探究するのか、なのでまず後半で話す予定だったんですが、この部分が

36:44 ロ・ジョンソク 一度持ってきて一緒に話してみましょう。

チェ・スンジュン

「知らないが正しい方向でうまく扱えるべき問題」があると思います。例えば今Transformerの話を今日したとすると難しいかもしれませんが、何か自分が新しく学びたいことや解決したい問題が、自分がもともと知っていなかったドメインのものなら、学びは当然もともと知らないものを学ぶことだから、AIをてこにして知らないが正しい方向でうまく扱えるべき問題、それをどうやって成し遂げるかが最近の僕の関心なんです。そして今「原理を理解するprompting」というタイトルをつけたのは、promptingを原理に基づいてうまくやれば役立つのではないかという仮説があって、そういう仮説がもしかすると直交的なMVK、それがMVKは去年僕らが認識した用語じゃないですか。

Minimum Viable Knowledgeは存在するか、直交的なものとして。だからそういう最小限の直交的knowledgeがあれば、それを線形結合して、あるいは合成関数のように使って他のことを成し遂げられる最小限の何かがあるなら、それを自分の脳にアップデートすべきではないか、ということです。

だから質問への答えとして、それを知るための方法は何があるか、ドッグフーディングをやってみるべきだ。完全に知らないものを一気にやるのは難しくて、ある程度知っていて同時に知らないものについて、このMVKのようなものを形成できるか少し実験してみるべきだ、ということです。僕個人としてはこれを物語にしてみたり、物語を作ったあとMoEに対する像がすごくよく掴めるし、KV cacheに対する像もすごくよく掴めるんです

38:44 ロ・ジョンソク そうです。はい

38:45 チェ・スンジュン だとしたら、それを達成させたのはどんなknowledgeですか？物語を作る能力ですか？だから僕も答えはないけれど、一度CoTをやってみるんです。自分自身を引き上げるんです。すごく基礎的な能力は何だったか、数学に対する基礎的能力がそれでも少しはあった気がして、物語の形にそれを変えることが自分には役立ったんです。でもこれが誰にでも共通する軸、そのbasisではないかもしれません。とにかく多様にあり得るけれど、そういうものを少し気づける過程が必要だ。それがどんな文脈であれ。

39:23 ロ・ジョンソク その2つのポイントについて話したいのですが、最初のポイント、だからチェ・スンジュンさんこのTransformerのイメージを理解するために、Transformerのアーキテクチャやアルゴリズムや内部で実際に起きることをどのレベルまで知っていれば、少なくともこういう哲学的思考や、あるいは世界に対する解釈誰かがDeepSeekが新論文を出したとしても「お、DeepSeekの新論文、拍手！」ではなく、それがどんな意味でなぜ必要かくらいの解釈ができるようになるには、勉強はどこまで必要ですか、が僕の非常に単刀直入な質問だったんですが、それを今ずっとチェ・スンジュンさんが…

40:06 チェ・スンジュン 遠回しに言ったんですが、答えはすでにここに書いてあります。

40:07 ロ・ジョンソク どの程度までやれば

math.mit.edu math.mit.edu

40:09 チェ・スンジュン 学部1、2年レベルの線形代数は知っていないといけません。

40:11 ロ・ジョンソク オーケー。それで？

40:21 チェ・スンジュン そして一度くらいはトイでも実装してみるべきですね。Transformerについて、はい、学習まででなくてもinferenceくらいは一度トイでも作ってみるのは確実に役立ちます。まあ学習までさせてみたらもっといいですが

40:33 ロ・ジョンソク トークンがどんな旅をするかくらいの感覚は一度は見返す必要がある。実はチェ・スンジュンさんが今言ったまさにその程度のカリキュラムがAndrej KarpathyがEureka Labsで作っているカリキュラムなんですよね。そうでしょう

40:48 チェ・スンジュン でもそれをただ実装までやっても味わえることはついてこないことがあると僕は思います。実装して、こう使える程度にはなるけど、その意味まで気づこうとする試みはしない場合も多いと思います。でもそれが必須ではないですが。

ロ・ジョンソク なので僕は、誰かが僕に尋ねるとき、どんなマイルストーン、これができたらとりあえず十分なknowledgeができたからそこからは深く論文を掘らずに閉じてビジネス世界に戻ってもいいよ、という分岐点が僕らがTransformerブロックにこれをザーッと投げるとき投げるそのテンソルブロックのdimensionが、そのembedding、その次にsequence length、その次にbatchの数、こう3つが束になって行くじゃないですか。その3つが入ってどう分かれてまた集まるか、そのdimensionがまた解かれて再び出会うところまで計算できれば、君は全部理解したんだ、とそう言うんです。

Gilbert Strang 著『Introduction to Linear Algebra, Sixth Edition』の教科書表紙。灰色の背景に、ベクトルと部分空間を表す色付きの四角形と矢印の図が描かれており、下部に著者名「GILBERT STRANG」と表記されている。

41:48 チェ・スンジュン そうですね。でも僕が今回またこれを本を買って、韓国語版が12月にGilbert Strang線形代数6版が出たので、僕は韓国語版も買って見ているんですが、これが3Blue1BrownがTransformerの話をしたとき、行列とベクトルの積を内積の観点ではなく線形結合の観点で見るのが重要だという話をしていました。2年前に

42:13 ロ・ジョンソク すごくよく作られたコンテンツですよね。それ

42:22 チェ・スンジュン それを、そうなんだなと思ってその時少しアハ体験はあったんですが、実はそれがStrangによって2000年代初頭に線形代数は完全にカリキュラムがこれが主流になったのを僕は知らなかったんです。僕は90年代に学んだので。だからこの線形代数を完全に、とても芸術的に基礎を築いてあるのを見て驚いて見直しているんです。

42:44 ロ・ジョンソク でもこの図を見ると、これこそまさにただのtransformですね。

42:52 チェ・スンジュン そうです。でもこれは部分空間を直交的に表現したものですが、とにかく非常に卓越してそれを説明しきっていました。だから僕も見直しながら基礎が面白くて見ていますが、知らないことも多く見つかって見ています。で、さっきのdense layer FFNに戻ると、この列の意味があって質問がその、何というか、プロンプトは結局embeddingと何かのweightが掛けられるじゃないですか。大きなweightに。で、そのembeddingの状態が一種の重みや質問だとすれば、結局列ベクトルに入っている知識が組み合わさる、そういうイメージが可能なんです。でもそれに気づいて、これ全部soft lookupとして見られるんだな、がその時やっと理解できたんです。

そのときは、僕らがずっと話していた今日の主人公hidden stateのその中に入っているものが何らかのscoreや重みだとしたら、そこにない0のものは列にある情報を引き出せないんです。組み合わせできないんです。でもこれはどこから始まりましたか？トークンから始まりましたよね。だからプロンプトにそれが結局この情報を引き出せる

44:03 ロ・ジョンソク キーが全部入っているんですよね。

44:09 チェ・スンジュン 入っていないとだめだということです。promptingするときに組み合わせが起こるように。でもすべてのブロックでそのsoft lookupが繰り返されるイメージなんです。だからこれはかなり飛躍して言っているんですが、という感じでした。年初に

44:19 ロ・ジョンソク 僕らがさっき言おうとしていた最初のポイントがTransformerの勉強をどこまでやるべきかという話で、大体話が一度できた気がしますし linear algebra程度の知識と、その次にTransformerブロックについてある程度一度回るロジックや、その中のベクトルスペースが少しは理解できるべき、というところまでが答えでしたし

Minimum Viable Knowledge: 質への転換と「トークン投入」でドメイン拡張 44:41

44:41 ロ・ジョンソク その次に2つ目が実はこのminimum viable knowledgeポイントなんですが、僕はこれについて僕なりの雑哲学が一つあります。

transformer-circuits.pub transformer-circuits.pub

44:50 チェ・スンジュン 何ですか？

ロ・ジョンソク

これ、僕はこれへの答えが実は量質転換なんです。例えば、ある財閥会長が一人いるとしましょう。この会長は、ほぼ僕ら基準では無限の資源を持っています。するとこの人はbiologyや新薬開発を全く知らないけれど新薬関連の新規事業を作りたい。ではどうするでしょう？

ただ金の力で、そこに専門家だと思われる人たちをどっとhireして連れてきて、McKinseyもhireしてBainもhireしてお金を撒きます。そして彼らにreport generationをさせるはずです。Generateされたreportの中でcommon keywordがあれば「これがエネルギーレベルが高いんだな」として、common keywordだけ抜いて再び圧縮的レポートを作ることを秘書室長にさせるでしょう。

そうして最後に残ったreport5本ほどを読みながらイメージを構成し、最もエネルギーレベルの高いright questionが何かを知るようになれば、そこから出発して、それが今チェ・スンジュンさんが言ったこととぴったり関連するんです。引き出せる最もエネルギーレベルの高いそのkeyやqueryを手に握って、また世界を相手に、すべてを知っている専門家層を相手に、さまざまな質問をしながらそこで来るフィードバックを受け、ものすごく速い速度でその知らないドメインの空白や何が本質で何がsubで何がmainかを備えていくんです。そうすると「これは新規事業をやるべきだ、やるべきでない、やるならどのレベルまで金を使うべきだ」まで出るんです。それがそのminimum viable knowledgeを取得する財閥会長のmethodologyなんです。では逆に僕らの現実に戻ると、僕らは今それを誰でもできる世界になったわけです。

例えば僕が化粧品を作るとして、ある新物質について何かしなければならないけれど、僕は化学知識が深くないのでその物質に関する知識がない。

すると僕はOh-My-Opencodeと、そして最近たくさんあるClaude Code skill、scientist skillも来てmarketing skillも来て、いろいろすごく整理されたものが多いじゃないですか。それらを持ってきて僕の目的に合わせてどのskillを選べばいいかを1ラウンドして、skillをほぼ50個選びます。チェ・スンジュンさん。そしてそのskillを搭載して、ただOh-My-Opencodeに回して僕は寝るんです。

するとさっき会長たちがやっていたmethodologyを、僕がそのまま、もしかするとMcKinseyコンサルタントよりずっと賢いフロンティアモデルを全部回してくるんです。朝には何か落ちています、reportが。すると僕はそれだけ見ながら、また最もエネルギーレベルが高いのはこれだな、こういうふうにグルーピングされたんだな、を知りながらこのMVKができるんです。でもそれができていない状態でモデルに行ってGeminiにDeep Researchをするにせよ何にせよ回しても何も出ないんですよ。だからこれがチェ・スンジュンさんが前回話したことと、僕はそこで少しまたランプがパッと点いたんです。そうだ。正確に、僕がこの2週間の間にチェ・スンジュンさんが僕に「そのドメインに関するtermや複雑なものを大量に押し込むとモデルのcapabilityがずっと増える」と言っていたことで実験したんですが、うまくやるんですよ。

そうしながら、会長イメージと僕が以前Googleで検索関連の仕事をしながら感じたその量質転換の経験がすごく多くあったんです。ゴミが山ほどあるけど、そのゴミも量が多ければどう絞るかだけ少し悩めばいつもqualityは取り出せる。あとでそういう作業を繰り返していると、qualityはいつもquantityの付属変数だったんだなという気がして、このminimum viable knowledgeがそういう形で作られ

そういう形で今、僕らが意思さえあればドメイン拡張を絶えず成し遂げられる時期に生きているので、今重要なのは、僕が僕らのどこか逃亡者連合のグループチャットでもそうだし、最近また一度チェ・スンジュンさんと僕が感じるのは、世界が新年になってもう一度少しカチッと切り替わった感じ、という話をするじゃないですか。「みんな狂ってる」みたいな話をしながら、みんながこの方法論を採用しながら。

49:30 チェ・スンジュン それがさっき序盤で話したこれですよね。

49:36 ロ・ジョンソク はい、トークン投入をしているんです。でも僕はそれが答えだと思っています。トークン投入はものすごく意味のあることだ。

49:45 チェ・スンジュン そうですね、それをたくさんやってみるべきで、結局自分の脳にそれをやる回路が立ち上がるんですよね。

49:53 ロ・ジョンソク つまりそのharnessというものもすでに意味があって、そのharnessをうまく扱って使うこと、そしてharnessをうまく扱うためにモデルをどう組み合わせるべきかについてイメージを持てる人を見ると

50:09 チェ・スンジュン まあ、たくさんやってきたはずです。それが結局頭の中に入ってこないといけないし、その方法論やそれが少し体化される経験にならないといけないんですが、とにかくまずそれは重要なことをおっしゃったと思います。僕もすごく共感します。練習をたくさんしないといけないのはあまりに当然だし、僕がさっきゲームの話を少ししたじゃないですか。これ山のほうへ行くかもしれないけど手短に言うと、そのゲームがあまりに芸術品みたいで面白くやりました。でもある空間がすごく難しくて、150回から200回ほど挑戦して結局クリアしたんですがそれをやるには筋肉記憶が作られないといけなくて、それが一週間休むとまたできなくなるけど、もちろん回復はできるとしてそれができるという考えと、すでにできた人がいること、そしてそれを繰り返して自分のものに完全にする作業がないと通過できない区間がゲームにあったんです。だから似た考えをしていました。ああ、これは最低100回はやってみること

51:03 ロ・ジョンソク はい、RLVRの区間ですね。

白い皿の上で磁性流体（ferrofluid）が鋭い棘のように盛り上がる様子を捉えた白黒の静物写真。下部に「プロンプティング態度」というタイトルが記されている。

51:08 チェ・スンジュン そうですね、重要だと思います。そして僕が今日伝えたかった核心イメージは、何度かご紹介したpromptingの態度で「千回目の生成も一回目の生成を見たように感嘆すること」についてもう一度話したかったんです。実は今はabundant、豊かさで、誰でもやることではあるけれど、トークン一つ生成すること自体が実は驚異的なことかもしれない。そしてそこに多くの意味がある気がする。そして少し前にロ・ジョンソクさんが話したことの主人公をトークンにしてもいくつかは通じるんです。いくつも見て考えて立てて選ぶ、こういうものがあるので一度話してみました。

2/6~2/7文来洞イベント紹介とプロンプト共有、締めくくり 51:53

51:53 チェ・スンジュン もう時間がだいぶ過ぎたので締めないといけない気がしますが、2月6日と2月7日に、僕の最近磨いてきたプロンプトを紹介する、でも僕だけがやるのではなく、このAIについて少し話したい人たちが未来はでこぼこしている、それは均一ではない未来で、これは選ばなかった未来かもしれない。なのでここではメディアアーティストたちが一緒に少し話してみる、そういうものを準備しているんです。なので少し宣伝もしてみました。文来洞で2026年2月6日、7日ですが、まだ申込フォームが作られていないので。ひとまずこの程度ご紹介しておきます。

それでそこで、最近作っているプロンプト、そういうものを少し紹介したんですが。関心のある方はここをご覧いただくと、僕が最近悩んでいたことを圧縮して入れておいたものですが、でも少しだけ触れると、こういうものは1、2文入れると4ページ程度の読み物に膨らませてくれます。

なので僕は少し自論かもしれませんが、要約より長く読むことを好むんです。きゅっと縮めて話すより、縮まっているものを膨張させるアプローチでこういうプロンプトを作って、自分が勉強したいものを全文書を入れるのではなく一段落程度をこのプロンプトに入れると興味深い話がどんどん生成されるので見てみてください。なので資料を共有しておくので、見ていただけると良いと思います。ここまで準備してみました。今日はこのくらいで締めくくります。

53:25 ロ・ジョンソク 僕らがいつか3Blue1BrownのTransformer動画を見ながら一緒に追ってみるのも、このシリーズにぴったりつながる良い試みではないかという気がしますね。

53:39 チェ・スンジュン 今見ても通じる話だから

53:45 ロ・ジョンソク とにかく先週に続いて今週もチェ・スンジュンさんのトークンの話、第2セッションくらいで締めくくります。今日も楽しい時間でした。ありがとうございます、チェ・スンジュンさん。