EP 95: DeepSeek-V4論文を読む

GPT-5.5とDeepSeek-V4から始まる今週のAIニュース 0:00

0:00 ロ・ジョンソク 収録している今日は2026年4月26日、日曜日の朝です。今週は大きなニュースがたくさんありました。Google Cloud Nextが開催されていますし、噂で持ちきりだったGPT-5.5がついに登場しました。性能はまさに圧倒的です。ただ、何よりも重要なニュースは、DeepSeek-V4の登場だと思います。本当に安くなった。コストパフォーマンスが本当にいい、そんな話が多いのですが、中国のフロンティアラボは侮れません。私たちが把握しているだけでも、ほぼ5つほどあるようです。DeepSeek、そしてKimi、そしてGLMで有名なZ.ai、あの有名なYao Shunyuが最近Tencentに移り、Hy3を作りましたし、またDeepSeekで目覚ましい功績を上げたある方もXiaomiに移り、MiMoというフロンティアモデルを出しましたよね。その頂点にいるのがDeepSeekだと言えますが、DeepSeekがついにR1以降、約1年4か月ぶりにこのV4を引っさげて登場しました。今日はDeepSeek-V4を詳しく見ていくのがよさそうなので、イギリスにいらっしゃるソンヒョンさんと一緒に、久しぶりにこの場を設けました。ソンヒョンさん、ようこそ。今週はとても面白かったです。

中国フロンティアラボの勢力図におけるDeepSeekの位置づけ 1:06

1:17 キム・ソンヒョン GPT-5.5も出ましたし、いろいろなニュースがありましたが、DeepSeek-V4は久しぶりに研究面でも、技術面でも、非常に面白い題材をくれたと思います。ちょうどGPT-5.5もそうですし、噂のClaude Mythosもそうですが、どれもpre-training済みのbase modelをアップデートしている状況で、DeepSeekもpre-training済みのbase modelをアップデートしました。そして他社とは違い、DeepSeekは自社のアップデートされたモデルについて、とても率直に語りますよね。DeepSeekからXiaomiに移り、今LLMを率いている有名なLuo Fuliが、中国はおそらくpre-trainingの面でアメリカに追いついたか、あるいは技術的により優れた部分もあるだろう、と話していましたが、その頂点を示す事例が、DeepSeek-V4ではないかと思います。同時に、依然として中国はpost-trainingでアメリカに後れを取っている面があるとも言われています。その手がかりにもなっているのが、DeepSeek-V4ではないかと思います。

DeepSeek-V3からV4へ移る中で、モデルサイズが非常に大きくなりました。アーキテクチャ面でも非常に大きな変化がありました。そして、その変化はどれも興味深いものでした。さらに、このレポートが示しているのは、DeepSeekチームがこの1年、ものすごく苦労してきたのだな、非常に苦しいプロセスを経てきたのだな、ということがよく表れています。そういう意味で非常に興味深いレポートです。同時にDeepSeek-V3は、中国内の多くのフロンティアモデルのbaseになったんですよね。Kimiのようなモデルの場合は、DeepSeek-V3よりさらにアーキテクチャを改善するのは非常に難しい。そこに時間を使うくらいなら、そのアーキテクチャをそのまま採用するほうがはるかに良いと判断し、実際にそのように採用したりもしました。そういう面から見ると、おそらく今後出てくる中国モデルの新しいbase modelになるのではないかという気もします。同時にDeepSeekチームがこのアーキテクチャについて、非常に苦しいプロセスを経てきたため、それを再現するにあたって、中国のチームたちはかなり苦労するのではないかという気も同時にします。

1.6Tへ拡大したDeepSeek-V4のモデルスケールとアーキテクチャ変化 3:34

3:34 キム・ソンヒョン DeepSeek-V4は、まずモデルサイズが大きくなりました。DeepSeek-V3には小さなモデルがありませんでしたよね。600B程度のモデルでしたが、1.6Tモデルへと大きくなりました。activated parameterも少し増えました。私の記憶では、V3は37B程度だったはずです。そして小さなモデルも一緒に出ました。小さなモデルも必ず一緒に出すんですよね。ただ、前後関係があるわけではなく、同時に学習させた可能性もあります。小さなモデルも出ましたし、次にアーキテクチャ面での変化が非常に大きくありました。大きな軸の一つはSparse Attentionです。そしてもう一つの大きな軸は、mHCと呼ばれるアーキテクチャ改善で、Muon Optimizerは最近の中国モデルがみな使っているOptimizerです。そしてその面で、モデルの結果という面、性能面での結果の変化は、この二つ、この三つのグラフが最もよく示していると思います。base modelの性能、そしてpost-trainingされたモデルの性能が大きく上がり、同時にlong-contextの面でのコストが非常に大きく下がり、減少しました。計算量そのものが減少し、メモリ負担に関わるKV cacheのサイズ自体も非常に大きく減少しました。ここに最も大きく関係しているのは、やはりSparse Attentionです。そしてこのSparse Attentionのために、おそらくDeepSeekチームは相当苦労したはずです。

計算量とKV cacheを削減するSparse Attention 4:03

4:55 ロ・ジョンソク Sparse Attentionについて、私もその数式をすべて見たわけではありませんが、ほとんど錬金術のレベルで、こうすればいけるのでは、と思うようなものを全部作り出しているんですよね。それで、この右側のグラフを解釈してみると、contextが長くなればなるほど、本来は計算量が非常に増えるはずですが、その部分が非常に低い水準で維持されているということを違いとして捉えればよいのでしょうか？

5:24 キム・ソンヒョン はい、attentionは基本的に一つのトークンからそれ以前のすべてのトークンを参照する必要があります。そのため、sequenceの長さが、入力の長さが長くなれば長くなるほど、計算要求量がどんどん大きく増加します。この増加の速度を大きく抑えたわけです。そして全体的な規模自体も大きく抑えました。long-contextの面で非常に重要な変化です。そして同時に、long-contextの状況ではattentionは以前のトークンすべてを参照する必要があるため、以前のトークンすべてをメモリに保存しなければなりません。つまり、メモリ消費量がcontext長の増加に伴って非常に大きく増加するということです。ところが、それ自体も同時に大きく減らしました。

非常に大きく減らしました。そしてこれがlong-contextの面で重要なことで、long-contextが重要だという話は、実は去年、一昨年のことですよね。DeepSeek-V3でもlong-contextが非常に重要そうなので、この部分を引き続き改善したいと言及していました。long-contextの重要性は、その時よりもはるかに大きくなった状況です。その時のlong-contextの重要性というと、文書をもう少したくさん入れたい、そういう感じだったとすれば、今のlong-contextの重要性は、agentの文脈で重要になっている状況があります。扱えるcontextの長さが長くなればなるほど、agentの面では、扱える問題の複雑さと規模が大きくなるわけです。以前なら入力の長さと容量が増える程度だったとすれば、今はこのモデルにできること、作業の規模と複雑さが増えることと関連するようになりました。そういう意味でlong-contextは以前よりもはるかに重要な意味を持つようになったと言えると思います。その文脈と結びつけて考えると、

その点でDeepSeek-V4は非常に大きな改善を遂げ、その改善がまさにアーキテクチャ上の革新によって実現されたという点が非常に興味深いところだと思います。その通りです。それで結果的に、下の文にも書いてありますが、

7:30 ロ・ジョンソク Pro基準で見ると、実はProは前世代のV3よりほぼ2.5倍から3倍ほど容量が大きいモデルなのに、このPro基準でも、トークン演算にかかる演算量が27%程度まで減った。ほぼ3分の1になったわけです。そしてメモリ消費量は10分の1になっていますね。10%まで減った。この二つのグラフが示しているのがDeepSeek-V4が今回また見せた本当に大きな一手ではないかと思います。

ソンヒョンさん、ではこの内容をもう少し深く見ていきましょうか？最も重要な部分は

8:09 キム・ソンヒョン まさにこのSparse Attentionだと思います。この部分をもう少し掘り下げる必要がありそうですね。ここから始めるべきだと思いますが、Sparse Attentionとは何かというところから少し紹介する必要がありそうです。先ほど申し上げたように、attentionは基本的に以前のすべてのトークンを参照します。一つのトークンが以前のすべてのトークンを参照することになります。つまり結果的にcontextの長さが長くなればなるほど、演算量とメモリ要求量が増える構造です。そこで、その部分を改善したいと多くの人が考えていました。DeepSeek自身もR1が出た後、少ししてからNative Sparse Attentionというものを打ち出していました。以前のトークンすべてを参照する必要があるのか、という考えになりますよね。特にcontextが長くなれば長くなるほど、一つのトークンに対して以前のすべてのトークンが重要な情報や、意味を持っているわけではないじゃないですか。だから、少数のトークンだけを見ることはできないかと考えるようになります。重要な少数のトークンだけを見ることはできないかと考えるようになり、それがSparse Attentionにつながります。Sparse Attentionというのは全体を参照するのではなく、その中のごく一部だけを疎に参照するという仕組みであり、それがsparseであるということにつながります。疎であるということですね。全体をすべて見るのではなく、見るトークンはその中でも疎な一部だという意味になります。

from-scratch学習から見るSparse Attentionの意味 8:16

9:36 キム・ソンヒョン それを実はDeepSeekが昨年初めにすでに打ち出していました。それで非常に成功している。うまくいっているようだという話をしていました。しかし、それがうまくいかなかったと教訓として見るのが正しいと思います。なぜならDeepSeek自身もその後、DeepSeek-V3.2のようなモデルになってその構造を放棄していたからです。実はそのSparse Attentionで非常に重要な点の一つは、最初からSparse Attentionを学習して、from scratchでpre-trainingされたモデルを作るという点にあったんです。この構造をやや放棄するような動きを見せました。いわゆるdense attentionという以前のすべてのトークンを参照するattentionでpre-trainingを行った後に、その後post-trainingの概念としてSparse Attentionを載せよう、つまりDeepSeek Sparse Attentionという載せる構造を打ち出したんです。それがなぜかというと、

おそらくfrom scratchでSparse Attentionを学習が非常に難しかったからだと思います。DeepSeek自身はそうした言及を直接してはいないのですが、Sparse Attentionの構造については、中国のほかの多くの企業が実験し、分析していました。しかし、そちらの結論は「難しい」でした。学習が難しい。特にfrom scratchで学習するのがあまりにも難しいということでした。Sparse Attentionをそのままfrom scratchで学習するのは難しく、逆説的ですが、Dense AttentionがあってこそSparse Attentionを学習できる。そういう結論に向かっていきました。そうなると、妥協や折衷になるわけです。Sparse Attentionを最初から押し切ることはできず、Dense Attentionを行ったあとに、その後のコスト削減のために採用できる折衷案として、Sparse Attentionが登場する形になりました。XiaomiやTencentの結論はそのようなものでした。しかしDeepSeekは、それをやりたかったようです。Sparse Attentionをほぼfrom scratchで学習することです。ここでも、V4でも完全なfrom scratchではありません。序盤の約1T、つまり約1 trillionのトークンはDense Attentionで学習します。しかし残りの30T以上のトークンについては、Sparse Attentionで学習するんです。つまり、Sparse Attentionによるほぼfrom scratchのpre-trainingを押し進めたかったということで、おそらく、ほぼ成功しているようです。ただ、そのために経なければならなかった過程は、非常に大変だったようです。

そしてアーキテクチャ面でも非常に精巧で複雑です。それでSparse Attentionの部分に多くの紙幅を割いています。Sparse Attentionはここで3つのcomponentとして登場します。1つは基本的なslidingwindow attentionというものです。sliding window attentionというのは、既存のDense Attentionと非常によく似ていますが、トークンが参照する過去のトークン、つまり参照するトークン数を制限するものです。既存のDense Attentionはすべてのトークンを見ますが、sliding window attentionは、context lengthがどれほど長くなっても、1つのトークンが過去の、たとえば500トークンだけを見るように制限するものです。そのattentionが基本的に入ります。これは実際、今では多くのところで非常によく採用されている構造です。

Sparse Attentionを構成する3つの中核コンポーネント 12:10

12:49 キム・ソンヒョン sliding window attentionとfull dense attentionを組み合わせた構造が、今ではdefaultとして、基本設定としてよく使われている構造だと考えればよいと思います。なので、この部分は大きく違うものではありません。もう1つ別のものが入るのですが、もう1つのattentionは、たとえば1万トークンがあるとすると、その1万トークンを100分の1に減らすattentionが1つ入ります。つまり、1万トークンを100分の1に要約したあと、たとえば各100トークンを1つのトークンに圧縮すると考えればよいと思います。圧縮したトークン、1万トークンは100分の1に圧縮するので、100トークンが出てくるわけです。その100トークンに対してfull attentionを行うattention構造が1つ入ります。

最も複雑な構造が、Compressed Attention、Compressed Sparse Attentionだと思います。Compressed Sparse Attentionは、このcontextを少し圧縮します。DeepSeekでは4分の1に圧縮するんです。4分の1に圧縮したあと、その4分の1の中から上位の一部だけ、上位top-kだけにattentionを行うSparse Attentionが入ります。この3つのattentionの組み合わせによってDeepSeekのlong-context対応のためのattentionが構成されると考えればよいと思います。それぞれの構造と、その構造がもたらす構造的な変化や、これをまたこのように作ったとしても、これを効率的に推論するためには必要なinfrastructureもまた必要になるんです。その構造自体も非常に複雑です。

14:24 ロ・ジョンソク ただ、この図にはintuitionがありますね。一種の、下から上がってくるKVを持ってきて、この右側の両端にはこうしてそのままsignalをconcatenationするラインは生きているのですが、この真ん中にあるトークンレベルのcompressorで2つに分かれて、片方はqueryと結合して、もう一度MQAをして何かを渡し、あちらはcompressingしたものがそのまま上がっていく。こういうものが偶然見つかったわけではないでしょう。数多くの実験を通じて、こういうものならうまくいきそうだというそのintuitionを見つけ出したのでしょう。ほぼ1年かかったんです。これらの研究の基盤になった

15:07 キム・ソンヒョン Native Sparse Attentionが、昨年初めのR1以降、それほど間を置かずに出ていたんです。そしてその後に、中間段階として折衷案のようなDeepSeek Sparse Attentionが出ました。そしてそれと最後まで格闘しながら出てきた構造がこの構造なのだと思います。

15:25 ロ・ジョンソク そうですね。ここは昨年DeepSeek-V3を出したときも、そのMoE関連でもかなり面白いことをやっていましたが、本当にDeepSeekは、アルゴリズム面ではほぼ先頭走者ですね。はい、最高水準だと思います。そして米国側のビッグテックは、

15:43 キム・ソンヒョン 自分たちのアーキテクチャがどうなっているのかを公開していないため、そちらでどれほど進んでいるかは分かりませんが、私の考えでは、このレベルならそこでかなり進んだものと比べても同等か、もしかすると、より優れた部分もあり得るモデルであることは事実だと思います。結果的に図を見ていますが、

16:03 ロ・ジョンソク ソンヒョンさんはDeepSeek-V4を大いに称賛している、彼らは本当にすごいというお話をされたものとひとまず受け止めて、続けて進めてみます。技術的にも驚異的です。

16:16 キム・ソンヒョン こうした構造を作り出し、同時に実装までやり遂げたこと自体がそして学習に成功したこと自体が驚きでもあります。同時に、その過程がどれほど大変だったのかも論文にすでに非常によく表れています。

16:33 ロ・ジョンソク DeepSeekは本当に、このフロンティアラボたちのフロンティアラボとしてのポジションを追求しているようですね。

16:38 キム・ソンヒョン 特にアーキテクチャ面ではそうです。

16:42 ロ・ジョンソク そうですね。新しいアルゴリズムは私たちが牽引する。芸能人の中の芸能人というポジションを狙っているというそんな感じがしますし、そう見ても差し支えないほど

本当によくできていると思います。なので、Sparse Attentionについて説明するとよさそうですね。実際、おっしゃるようにこの図だけを見ると理解できるわけではなく、理解するのは難しいですが、この図自体にそのSparse Attentionの中核構造がかなり表れています。KV cacheはこう考えるとよいと思います。以前のcontextのトークンがあるはずですが、そのとき各トークンごとに小さなサイズのベクトルが付与されていて、このベクトルがすべて保存されます。つまり、すべてのトークンに対応するベクトルがメモリに保存される構造なのです。なぜなら、そのトークンをすべて保存しておかないとattentionを使うときにこれらのトークンと以前のトークンを使って計算できるからです。ただ、それぞれのベクトルはそれほど大きくないのですが、たとえば100万トークンのようなものを考えるとこれらのトークンの規模が非常に大きくなります。そして、これらのトークンはモデル全体に対して一度だけ保存すればよいわけではなく、各レイヤーごとに保存する必要があるんです。そのため、レイヤーが60個あるとするとこの60個分のKV cacheが保存されなければならないため、全体のメモリ容量がかなり無視できないほど大きくなります。そのため、この部分を圧縮したくなりますし、同時に、この部分を圧縮しながら実際に使うKV cacheの数を、演算に使うKV cacheの数を減らしたくなるわけです。

KV cacheを扱うLightning Indexerとtop-k選択 17:10

18:20 キム・ソンヒョン 第1段階としてKV cacheを圧縮します。4分の1に圧縮します。大きく4分の1に減らすんです。この4分の1に圧縮したあと、その中から一部だけを取り出します。一部だけを取り出す役割を担うのがLightning Indexerという部分です。

18:36 ロ・ジョンソク 重要なものですね。

18:37 キム・ソンヒョン Lightning Indexerが非常に比較的軽量な演算によってこのKV cacheの中から取り出すべきベクトル、トークンを見つけ出します。top-k、上位k個を取り出します。そして、そのk個に対してだけattention演算を行うのです。このcontext全体に対して行うのではありません。それが中核的なアイデアです。こう考えると、それほど複雑な流れではありません。まず圧縮する。数を減らす。

数を減らしたあと、その中からk個だけを取り出します。そして、取り出したそのk個に対してだけattention演算をする、こういう構造です。残りの2つのcomponentも同じく難しくなく、単純です。

もう一つは、k個を取り出すこの演算を省いて、圧縮はするものの、その圧縮率を大きく高める。100分の1、あるいはそれ以上に圧縮する。そういう構造です。さらに残りの1つのcomponentはこの圧縮とk個を取り出す処理を省き、代わりにattentionの範囲を制限する。例えば500個程度に制限する。この構造が入っているわけで、そして、この3種類のattentionの組み合わせがDeepSeek-V4のlong-contextのためのattentionの中核になります。

ただ、詳細に入ると、この構造はかなり複雑です。まずattentionを圧縮する方法自体がかなり独特です。私の感覚では、圧縮するときに2組を作って、その2組を結合するんです。なぜこうしたのかは分かりません。

20:14 ロ・ジョンソク うまくいくからやったんでしょうね。説明はありません。その2組を作ったあとに、2組を合わせて計算したあと、

20:21 キム・ソンヒョン 再び2組を分けて合わせることである種の圧縮をします。なぜそうしたのかは分かりません。このあたりは、私たちがディープラーニングの話をしながら

20:32 ロ・ジョンソク 本当に錬金術のようだという話をよくしますが、やってみると全部、足し算と掛け算なのに、ああやったらうまくいったんです、と言われるとそこに道ができるわけですよね。はい、おそらく直感はあったはずです。

20:44 キム・ソンヒョン 直感はあったし、何らかの研究の流れはあったのでしょうが、なぜこういう選択をしたのかは明確ではありません。おそらくこの部分について実際に実験してみて、特性のようなものを見ていけば、何か見えてくる可能性はあると思います。ただ、こうした部分はおそらく多くの試行錯誤を通じて得られた結論なのだと思います。Lightning Indexerという概念はDeepSeek Sparse Attentionという名前で昨年もおそらく登場していました。その部分とほぼ同じです。top-k系を見つける必要がありますが、それも簡単なことではないんです。ともかくtop-kを見つけるというのはつまり全体から上位k個を見つけるというのは結局、全体を見なければならないということですよね。全体を見て初めてその中で最も顕著なk個が何なのかを見つけられるわけですから。そのk個を見つける役割を担うのがLightning Indexerです。

Top-k選択の微分不可能性と学習の不安定性 21:36

21:36 キム・ソンヒョン そのため、全体を見る必要があるのでこの部分はかなり軽量でなければなりません。このk個を見つける過程がある意味ではsparse attentionを非常に難しくしている部分です。sparseであるということはディープラーニングでは常に非常に魅力的ですが、sparseであるというのは計算量を減らせるという意味なので大部分については計算せず一部だけ計算すればよいということなのでディープラーニングでは常に魅力的な構造です。しかし同時に、ディープラーニングでsparseだと言うと常に問題も生じます。なぜなら、例えばMoEのような構造もまさにその意味でsparseな構造だからです。なぜなら、sparseだと言うときに非常によく使われる演算がtop-k演算です。全体からk個だけを選び出す演算です。ただ問題は、top-kは基本的に微分不可能だということです。もちろん選択されたあと、厳密に言えば、選択されたものについてはgradientが発生しますが、この選択する過程そのものについては微分できません。選択がいちばん重要な部分なのに、その選択自体を学習できないわけです。基本的には。だからこの部分で不安定になり、学習しにくい部分が生じます。

22:51 ロ・ジョンソク DeepSeekはそういう部分をどう乗り越えたのですか？

22:56 キム・ソンヒョン その部分は、この全体構造がすべて結びついておそらく学習可能にしているのではないかと思います。つまり以前、中国で昨年出ていたsparse attentionと同じような中国の論文では、これは学習が非常に難しいという話をずっとしているんです。sparse attentionを学習するのは非常に難しい。実際、MoEもsparseであるという側面によって学習が難しくなる部分が多く生じますが、attentionの側面ではそれがはるかに強く作用します。

例えば選択肢そのものもはるかに多くなるんです。100万個だとすると、100万個の中からk個を選ばなければならない問題になるわけです。問題そのものの規模が大きくなり、難しくなる面があるのでsparse attentionを学習するのは難しいというのが共通した結論でした。そのため、sparse attentionだけでは対応できず、dense attentionやfull attentionと組み合わせて初めてsparse attentionを使えるようだという話を繰り返ししていました。

ところがこの問題をDeepSeekは正面突破したわけです。ただ、正面突破はしたのですが、モデル選択、モデリング上の選択という面で見ると非常に微妙です。つまりNative Sparse Attentionという非常に初期のバージョンから流れは大きく変わっていません。Native Sparse AttentionでもそのKV cacheを圧縮し、そこからtop-kを選ぶというこの構造そのものはそこでも同じように登場するんです。ただし具体的なディテールの面では違いがあります。そして、何らかの組み合わせの違いもあるでしょう。他のattentionとの組み合わせの違いもあるでしょう。そういう面で見ると、非常に微妙です。だから、なぜNative Sparse Attentionはだめなのにこれはうまくいくのかと聞かれると、答えるのが非常に難しいです。すぐには腑に落ちません。

24:37 ロ・ジョンソク でも実際、expertは100いくつかの中から選べばいいわけですが、これは100万個の中から選ばなければならないわけですから実際、次元からしてまったく違いますね。はい、それにMoEの場合は

24:48 キム・ソンヒョン load balancingというものがあってそれが学習にかなり役立つのですがこのattentionでは、そういうものを使うのも少し難しいです。

24:55 ロ・ジョンソク それで、ソンヒョンさんがずっと話してくださっていることに途中で少しコメントすると本当に難しくて不思議なテーマだったけれどこれをどうやって実現したのか本当に驚きだというニュアンスをずっと伝えてくださっているように思います。はい、中国ではたぶん無理そうだという

25:14 キム・ソンヒョン 少し諦めに近い気持ちもあったようなんです。ところが、なんとか実現させたわけです。ただ、実現はさせたのですがこれがなぜこうするとなぜうまくいったのかは、まだよく分かりません。これはおそらく今後、DeepSeekがこうすればうまくいったということを示したのでなぜうまくいったのかについては、もう少し多くの試行錯誤が起きると思います。そして多くの人たちが試してみるはずです。

25:40 ロ・ジョンソク また、ここにはtraining過程でのノウハウも確実にあるでしょうね。複雑な

25:45 キム・ソンヒョン はい、推測ですが、おそらくこれは学習の不安定性にかなり大きく関係していたのではないかと思います。その学習とpre-trainingに関連して多くの部分について、自分たちが経験した不安定性の話をしているんです。おそらく、ここでのモデリング上の選択が学習の不安定性に大きな影響を及ぼしたのではないかと思います。とにかく、細部を通じてどう作ったのかははっきり示されています。そしてすべての部分を公開しているのでそれは確実に分かります。ただし、なぜこうすればうまくいくのかについてはおそらく今後も研究がたくさん出てくると思います。たくさん出てくる必要もあると思います。

26:21 ロ・ジョンソク また、DeepSeekがそういうものを隠している部分もかなりあるでしょう。こうしたものを外には誇示する一方で内側に隠している彼らだけの、いわゆる暗黙知が間違いなく存在するはずです。おそらく学習過程のノウハウの部分に多く隠れているような気がします。

26:41 キム・ソンヒョン それに、おそらく論文ではすべて整理しきれない数多くの実験的な証拠や経験のようなものがあるのでしょう。

26:50 ロ・ジョンソク ペーパーはだいたい40ページほどありますが段落一つ一つがどれも大きな内容なんです。感覚的には、これは本を一冊書くべき内容のように思えるのですが40ページほどに収めるために、かなり苦労したようです。それから参考までに、次に進む前に申し上げるとソンヒョンさんが見せているこの数式は、私が見てもだいたい何を意味するのかだけは分かりますが理解はできません。ですから、これが理解できないからといって悲しむ必要はまったくありません。ただ、こういう感じなんだなと見て進めば大丈夫です。ソンヒョンさん、次へ続けて進めてください。

MLAの削除とMuon Optimizerの導入 27:24

27:24 キム・ソンヒョン これはHeavily Compressed Attentionについてのものです。そしてついでに戻ると、細かい話ですがDeepSeekの象徴的なものだったMLAというattentionが抜けました。

27:34 ロ・ジョンソク そうなんですか？抜けてもよさそうですね。はい、抜けるべきでしょうね。はい、抜ける形になりましたし、MLAについては

27:42 キム・ソンヒョン Luo Fuliの場合、MLAは使わないのが正しいだろうそんな話をしていました。実際に。そしておそらくそうなると中国のモデルもMLAを捨てる方向にかなり流れていくと思います。Multi-Query Attentionという、より単純な構造に移ります。次にMuon Optimizerが入りました。

Muon OptimizerはAdam optimizer以降、今かなり多く採用されているoptimizerです。中国系のモデルはほとんどこれを使っています。学習速度を上げる効果があります。学習速度の加速というのは演算を効率化する側面もあります。つまり演算コストが下がるわけです。ただ、学習速度の加速はデータが限られている状況ではデータ効率の向上にもなります。そういう面でMuon Optimizerは非常に大きな注目を集めていて、今ではほぼ標準として広く使われているoptimizerでもあります。そしてこの部分についても私が少し興味深いと思ったのは、

DeepSeekは他が使っている標準をそのまま追うのを嫌うようなんです。一般によく使われるMuon Optimizerの設定がありますが、そこを少し拡張してもう少し正確にしました。より正確に1になるようにする修正を少し加えました。そしてこの部分については、実は中国ではMoonshot AIのKimiが先駆者ではあります。Kimiが先導した選択をかなり取り入れてはいます。

29:08 ロ・ジョンソク それから、その話はもうしましたっけ？Manifold-Constrained Hyper-Connections。

29:14 キム・ソンヒョン residual connectionという構造はディープラーニングでは非常に重要な構造ですよね。深いモデルを学習可能にしてくれる重要なコンポーネントです。mHCを簡単に要約すると、通路の幅を広げようということです。通路の幅が限られているので、それを共有し、限られた通路の中で後の段階まで気を配る必要があるため、制約が大きくなりすぎるわけです。ならば通路の幅を広げておけば、そこにずっと余裕が生まれるはずだ。その制約が実質的には解ける。そういう構造だと考えればいいです。ただ、通路の幅をむやみに広げようとするとコストが非常に大きくなるので、

それを安く実現する方法はないのか。それがHyper-Connectionsでした。HCを安定化させたものがmHCです。

30:01 ロ・ジョンソク Hyper-Connectionsがそれを解決するものだったわけですが、Hyper-ConnectionsをManifold-Constrained、manifoldに閉じ込めた。そういう意味だと考えればよさそうですね。

30:11 キム・ソンヒョン それを安定化させたと見ればいいです。

30:14 ロ・ジョンソク それでDeepSeekのペーパーのアルゴリズム的革新、3つとして打ち出しているもののうち、1つ目がこのmHCで、2つ目がこのSparse Attentionの部分なんです。CSAとHCAで説明されたこの部分が、まさに今回のDeepSeek-V4最大の貢献点であるSparse Attentionの部分だと思いますし、そのうえでMuon Optimizerを使った。こういう部分がありました。では、このアルゴリズム的な3つを少し要約しましたし、次に進んでみましょうか。ほかのポイントにはどんなものがあるでしょうか。

30:51 キム・ソンヒョン アルゴリズム的な側面で1つ抜けていますね。その部分がこれから面白いテーマになりそうです。N-gramが抜けています。ああ、はいはい。

N-gramなしで整理したDeepSeek-V4アルゴリズム 30:57

30:59 キム・ソンヒョン N-gramが出てきて、DeepSeek-V4に入るだろうと多くの人が予想していましたが、ここでは抜けたんです。なので今後N-gramがどう再登場するのかが、さらに面白いポイントになりそうです。いずれにせよ、DeepSeek-V4にはまだありません。そうですね。そしてインフラの話になります。

学習インフラを引き上げたMoE pipeline最適化 31:18

31:18 キム・ソンヒョン インフラも、これまた侮れない部分なんですが。一つはMoE部分での最適化です。これもどこまで説明すればいいのか、よく分かりませんね。

分散学習というと、通信と演算があります。つまり分散学習をするわけなので、情報を分けたり合わせたりする過程で、他のworkerたちと通信する必要があります。通信があり、その次に実際の計算をします。演算があります。簡単に考えると、通信と演算を同時に行えます。そうですね。厳密に言えば、完全にそうできるわけではありませんが、基本的には重ねられます。重ねなければなりません。ところが普通は、単に重ねようとしても重ねにくい形になっている場合が多いんです。アルゴリズム自体は重ねられません。通信して演算して、通信して演算して、こういう構造になります。でも、これを重ねたいわけです。

32:12 ロ・ジョンソク 同時に進めたいということですね。同時にやる必要があるんです。そうすると演算効率が

32:18 キム・ソンヒョン 大幅に上がりますから。そのためのトリックの一つがpipelineというものです。分割するんです。タスクの一部を通信して演算すると同時に、次の一部を通信し、その次に演算して通信して、演算していくわけです。その作業をしたのです。

MoEについては、実は以前Cometという研究が似たようなことをMoEに対して行った研究がByteDanceから出ていて、それを改善しました。基本的な流れはこうで、Cometが改善し、それをさらに分割して、もう一度改善したわけです。実際、DeepSeek-V3でもこのように通信と演算を最適化する

32:54 ロ・ジョンソク そういう部分について多く説明していましたし、それが彼らの持っていた演算資源の限界、NVIDIAが高性能チップを中国に輸出しなかったので、それを乗り越える手段として使われた。それで非常に低コストで演算を完了したとして、実は1年前、1年半前ですね。その時にかなり大きな衝撃を与えたのですが、これは今度はexpertに関するものですよね。その間に変わったことがあるとすれば、全般的にすべてのモデルの構造がみなexpertを増やす構造になり、そのexpertを学習し運用する過程で生じるいわゆるbubbleをどう減らせるかをCometと比べて、さらに改善したということですね。

33:34 キム・ソンヒョン はい、DeepSeek-V3の場合はexpertにかかるコストをpipeline parallelismというものと重ねて解決していたのですが、ここではそのMoE自体を改善しました。ただ、実は表現は簡単ですが、Cometはものすごく複雑なんです。これをさらに複雑にしているので、実は私はこれをあまり見る気になれないところがあります。こんなにきれいなダイアグラムで表現されていますが、この内部のディテールがどんな形なのか、少し怖いです。

インフラ効率を高めるMega-kernelとFP4 Quantization 34:08

34:08 ロ・ジョンソク はい。そしてkernel自体も大きく改善しました。どの程度改善したのかというと、この段落がそれをとてもよく説明していると思います。

そのkernelとは何ですか？

34:19 キム・ソンヒョン kernelというのは、CUDA上で動く、

34:22 ロ・ジョンソク CUDAで演算を実行するそのkernelのことですよね？はい、そのkernelの規模を

34:28 キム・ソンヒョン Mega-kernelという形で非常に大きくしました。演算と通信を最大限に詰め込んで、演算の密度を大幅に高めたわけです。演算の密度が高くなるということは、実際にアクセラレータプロセッサにはるかに大きな負荷をかけるということです。そして、それがどの程度だったかというと、kernelの密度が高くなりすぎて、演算の密度が高くなりすぎて、電力throttlingがかかり始めた。電力需要をさばききれない水準まで達した、という話をしています。つまり、今度は電力が制約になるわけです。hardware、だから今後は電力インフラをさらに拡充する必要がありそうだというそういう言及をしているのですが、非常にロマンのある話なんです。

TileLangという、これは実はTileLangというものはDeepSeekとは別のオープンソースなんです。kernelを開発しながらTileLangと協力して、TileLangというkernel開発のためのDSL言語に多く貢献した。そういう話をしています。TileLang自体を非常に大きく改善した。

35:30 ロ・ジョンソク 一つ一つのブロックに、本当に内容が多いですね。

35:33 キム・ソンヒョン integer最適化をして、integer最適化によってTileLangを改善したと言っていますが、それがどういうものなのか、ここではあまり想像したくありません。これを、それぞれが意味するコードとして考えると、そのコードがどんな形なのか、あまり想像したくはありません。これら一つ一つがoverheadをすべて減らし、演算の密度を高めるための作業だと見ていただければいいです。そして、非常に興味深い部分の一つがbatch invarianceです。これもものすごく大きな貢献ですが、実はこれも理解するのは簡単ではなさそうです。ただ、これも非常に大きな貢献で、Thinking Machinesというところがbatch invarianceに関する研究をして、blogを出して非常に話題になっていたんです。そのbatch invariance kernelをきちんと全部公開したのかは分かりませんが、このbatch invariance kernelをDeepSeekが改めて公開し、今回公開されたkernelは非常に極限まで最適化されていて、私の知る限りでは、これはbatch invarianceによって発生するoverheadを非常に大きく減らしたという話です。そしてquantizationが入ります。

DeepSeek-V3では8-bit quantizationがメインで入っていましたが、ここでさらに一段押し進めて、expert weightについてはMXFP4、4-bit圧縮を行います。4-bit圧縮ですが、実はGPT-OSSでも登場していたものではあります。それをここでも試したと見ればよさそうです。

37:06 ロ・ジョンソク NVIDIAの最新hardwareがFP4をメインに推しているので、これを先に使おうとするなら、こういうものもすべて考慮しなければならないわけですね。はい、基本的にFP4圧縮をすると

37:18 キム・ソンヒョン モデルweightのサイズが小さくなるので利点があります。そしてBlackwellからはアクセラレーションが入りますね。4-bitに対するもの、そして4-bit圧縮までうまく機能しているようです。expertに対する4-bit圧縮は、今ではほぼ標準になりつつあるようです。

37:34 ロ・ジョンソク オーケー。そして次にMuonに関する最適化が入り、mHCに関する最適化、そしてDeepSeek-V4についても出てきますが、これも非常に重要なディテールとして出てきますが、pre-trainingの段階からlong-contextで学習するんです。long-contextに対する最適化、分散long-context学習に対する最適化が入り、

37:54 キム・ソンヒョン そして特にここではcontextを圧縮するので、その圧縮に対応するために、さらに問題が複雑になりました。そこに対する最適化が入り、activation checkpointingというものに対する最適化を超えて、ここではその部分をもう少し簡単に、柔軟にするための作業に入ります。

38:16 ロ・ジョンソク pre-trainingをlong-contextで学習するというのは、pre-trainingの最初からいきなり1Mを入れるという話ですよね？すごいですね。

38:24 キム・ソンヒョン 1Mも含まれると見ていいです。他のモデルは、

38:29 ロ・ジョンソク ほとんど最初の学習、pre-trainingのときは4K、8K contextではないですか？そうですよね？ 4K、8K？長くても8Kです。

38:37 キム・ソンヒョン それに中国系では4Kもかなり多く使われていました。はい。

そしてinference最適化のための作業が入ります。ここではattentionが3種類入るじゃないですか。その3種類のattentionをinferenceで使うには、inferenceインフラもそれに合わせて必要になるわけです。はい、そうですね。

その作業が行われました。そしてKV cacheをディスクに保存すること、これもある意味DeepSeekの得意技ですね。そしていよいよpre-trainingが出てきます。ついにpre-trainingデータの部分が出てきます。データについては多くを語っていません。32Tトークンを用意したそうです。何をどう用意したのかはよく分かりません。

32Tトークンとlong-context学習へ拡張されたpre-training 39:02

39:12 ロ・ジョンソク とにかく高品質な32Tトークン、そうですよね。そしてlong-context。この部分はたぶん後で話す必要がありそうです。

39:23 キム・ソンヒョン それにDeepSeekはOCR論文をたくさん出していましたよね。電子書籍をOCRしたPDF文書と、電子書籍がかなり多く入っていたはずです。synthetic dataが最近かなり流行していますが、synthetic dataについては言及していません。合成データを多く使ったのに言及していないのか、使っていないのかはよく分かりません。使っていない可能性もあるとは思います。

39:45 ロ・ジョンソク それでも確率的には、使った可能性のほうがずっと高そうです。実際、私たちがほんの6か月前くらいまで見ていたこういうpaperでも、pre-training datasetのサイズはほとんどが15から20T程度だったのに、これは今ほぼ2倍になっていますからね。はい。興味深いことに、まったく言及していません。なぜなのか分かりません。

40:07 キム・ソンヒョン ここで似たように言及している論文があるのですが、この論文はsynthetic dataを使ってはいけないという論文なんです。なので何があったのかよく分かりません。

40:16 ロ・ジョンソク 実際、naturalとsyntheticの違いを区別するのがもう難しい世の中だと見るべきだと思います。ますますそうですよね。次に進みましょう。pre-training setup details。そしてこれは詳細です。

40:30 キム・ソンヒョン training setupが少し重要で、この部分がlong-context pre-trainingです。4Kから始めて16Kに上げたあと、そこで約1Tほど学習します。すると残りの30Tは64K以上で学習します。非常に興味深い部分です。これまで中国モデルでもこのようにした事例はありませんでした。64Kで学習するということは、この規模での学習が非常に効率的だということです。一つ目は、attentionは基本的によく言われるように二乗で増加するため、64Kに増えるとここでのコストが大きくなるはずですが、Sparse Attentionとさまざまな最適化によって、この規模でも学習が非常に効率的だということを意味しています。

もう一つは、この規模のデータが十分に意味のある形で大量に存在することを意味します。つまり64Kで学習をするとき、64Kに意味があるためには、少なくとも32K以上の長さの文書が十分に多く存在するという意味なんです。そういうデータをたくさん用意したということですね。先ほどもデータセットについて

41:41 ロ・ジョンソク 長いデータセットだと特に言及していましたよね。同時にもう一つあるとすれば、

41:47 キム・ソンヒョン long-contextで長く学習することには大きな意味がある。long-context能力に大きな意味があるだろう、ということを意味していて、そうだとすると、中国のモデルもすべてこの構造に追随することになるはずです。そして今後、long-contextの長い長さでpre-trainingする構造がそうですね。他のモデルはほとんど4K、8Kで

42:10 ロ・ジョンソク pre-trainingのフェーズをほぼ終えたあとに、最後の過程でcontextを伸ばす作業を少しだけやるじゃないですか。でも彼らはそうしなかったんですね。もう最初から

42:20 キム・ソンヒョン はい、pre-training段階に統合されるんです。long-contextを、pre-training後のpost-training段階で扱うということはなくなり、それがpre-trainingと統合されるはずです。そしてそれはおそらくlong-context能力に実際に大きく役立つはずです。そしてこれが、いわば苦痛の証拠です。

学習の不安定性に対処するAnticipatory Routing 42:37

42:41 キム・ソンヒョン 学習の不安定性。どうやってtrainingの不安定性を減らすか。ただ一つ面白い点は、学習の不安定性というもの自体が、

最近はあまり出てこない話なんですよ。最近LLMを作る側では、私たちの学習はものすごく安定している、そういう話をよくします。でもここでは学習の不安定性をかなり経験しています。ただ、正確になぜそうだったのかはよく分かりません。attentionのせいのようにも見えるし、ここではMoE側で不安定性の原因が多く発生したと言っていますが、MoEでも細かな違いをかなり入れているんです。なぜそうしたのか分かりませんが、gatingの部分を少し変えて、こういう部分に多く修正を加えているんです。なぜそういう選択をしたのかは分かりませんが、そうした修正を行いました。そしておそらく、そうした修正のせいで学習が不安定になったのだと思います。データの問題だった可能性もあります。その部分に対する修正を多く行っていて、

clampingは比較的直感的です。最大値や最小値、何らかの値が値の範囲を制限してしまえば、不安定性は値が大きすぎるとき、あるいは小さすぎるときに多く発生するんです。ならばそれを制約してしまえば、制限してしまえば、多少よくなる場合があります。それは単純な構造ですが、みんなが不思議に思っているのは、Anticipatory Routingというこの概念は、みんな少し変だと思っています。MoEでroutingするとき、

このトークンをどのexpertに送るべきかをroutingするんです。このroutingを行うのを、数step前の学習weightを使って行うんです。過去の学習weight、過去のモデルを使ってこのroutingを行う、そういう構造を作りました。ものすごく複雑な構造で、これを効率的に学習に使うために作らなければならないインフラもものすごく複雑だったはずなんです。でも、これを実装してやったんです。なぜそうしなければならなかったのかが謎です。ここまでしてこれを実装しなければならなかった理由、この過程が少し謎です。これはしばらく何度も考えてみる必要がありますね。

44:39 ロ・ジョンソク 誰かが説明してくれるまでは理解できなさそうですね。はい。みんな理解できていません。

44:46 キム・ソンヒョン なぜこれでうまくいくのか、なぜこれをやったのか、さらに言えば、なぜこれをしなければならないほど学習が不安定だったのか、みんな不思議に思っています。

44:56 ロ・ジョンソク これは一種のregularizationではないかという気がします。

45:00 キム・ソンヒョン はい、そうかもしれませんね。一種の、こう何かが過度に自己ループが強化されるのを防ぐために、

45:08 ロ・ジョンソク noiseをいったん混ぜておいた可能性もある。generalizationのために。

45:14 キム・ソンヒョン 結合していた部分を意図的に切った。その切断作業をするために、非常に複雑な作業を経たはずですが、とにかくまずはそれをやる必要があった。はい、そういう状況です。はい、そうですよね。これは実は、前のアルゴリズムの三つのパートだけうまく押さえれば、

45:31 ロ・ジョンソク DeepSeek-V4が見えてくるのではと思っていたんですが、実はソンヒョンさんがいつも強調されるのがそれじゃないですか。本当に重要なのはデータなのに、データの話はあまりされていません。だからデータの部分は、実はparagraph一つで飛ばされていて、その後のtraining、もしかするとデータとtrainingこそが実は本当の核心ではないでしょうか。その部分にも、私たちには理解できない段落がたくさん入っています。

46:00 キム・ソンヒョン だからインフラが非常に複雑です。

46:02 ロ・ジョンソク はい、彼らは本当にフロンティアのさらに先端です。私の感覚では。そしてここでまた評価が出てきますが、そこで自分たちのモデル比較をしていますね。

46:13 キム・ソンヒョン モデルサイズが大きくなり、データが増えたことで、私の考えでは、特に知識面で、特にこれはpre-trainingなので、知識を評価することがずっと容易だという点はあります。知識面で非常に大きく進歩しました。post-trainingベンチマークでも同様です。long-context能力も大きく向上しました。そしてpost-trainingが登場します。post-trainingにも非常に多くのディテールがあります。post-trainingは一つのモデルを作って、重要な論点はこの部分なんです。たとえばコーディング専門家、コーディング専門モデル、コーディング専門推論モデル、数学専門推論モデル、あるいは一般的な推論モデルなど、いろいろありますが、これらをどう結合するのか、ここが少し興味深い部分です。DeepSeekはここでOn-Policy Distillationという方法を使っています。それで、それぞれの専門家を学習させたあとにその専門家をdistillationする方法を使いました。なので最終モデルを作るときにはRLはしていないようです。そしてrubricベースのreward modelを使っています。rubricベースのreward modelは、R1が出たあとに一度論文を出したことがあります。それを採用しています。その次にはtool callの形式がどうだとか、そういう話をしています。そしてreasoningのようなものが途中でtool callし、reasoningに使ってcontextをどう構成するか、この話は実はDeepSeekV3.2でも話していました。On-Policy Distillationが出てきました。そしてOn-Policy Distillationを効率的に行うためのインフラの話も出てきて、その次にdistillationするときにディテールをどうすべきかという細かい点について話していますが、これらのディテール一つ一つが、インフラ面の負担を非常に大きく増やす内容です。そしてそれをカバーするためのインフラが加わっています。

post-trainingを精緻化するOn-Policy DistillationとRubric Reward 46:35

47:59 ロ・ジョンソク RLをするためのインフラの話がありますね。

48:03 キム・ソンヒョン はい、出てきます。ここで使った方法は、On-Policy Distillationの中でもインフラ面の負担が大きい方法なんです。なのでそれを支えるためのインフラ構造が入っていて、FP4を使ってRLをし、FP4を使ってRLをするというのは言うのは簡単ですが、非常に難しい問題でもあります。その次にもう一度、またRLインフラストラクチャの話が出てきます。1Mトークンでpre-trainingをしたのだから、RLも1Mトークンでやる必要がありますよね。1MトークンでRLをするというのは、1Mトークン分を生成するという意味になります。その1Mトークンを生成しなければならないので、生成速度が速くないといけませんよね。はい、100万トークンを生成する必要があるので、100万トークンを生成する速度が速くなければならず、100万トークンを生成しながら、同時にagenticなpost-trainingを行う必要があるため、agenticなpost-trainingを行うということは、post-trainingの過程でトークンを生成しながら、実際にsandboxとやり取りする必要があるんです。sandboxとやり取りするには、

これは実はpost-training全般において、必要なインフラ全体に関わる話ではありますが、各環境を素早く立ち上げる必要があります。たとえばDockerコンテナのようなものを素早く立ち上げる必要があるわけです。Dockerコンテナを素早く立ち上げるには、そのイメージを素早く読み込む必要があり、イメージを素早く読み込むには、そのstorageサービスが

また支えなければなりません。昨日その話をしました。そうですね。

49:18 ロ・ジョンソク 昨日このペーパーを、実はアルゴリズム部分だけ精読して、後ろの部分は段落ごとに軽く流しながら読んだのですが、見ているうちに、これはアメリカに行くのではなく、ここに行くべきだなと。杭州に行くべきだなと思ったんです。杭州のカフェに行って座って、ここに関わっているエンジニアたちをつかまえて何か聞かないと、フロンティアはここにあるなという感じを私は非常に強く受けました。いまagentの状況で相互作用すると、

49:48 キム・ソンヒョン 当然errorが出て、失敗もたくさん起きるじゃないですか。その状況に対応しなければならないインフラ、そしてそうしたインフラや、そうしたscale-upの過程のようなものがすべて問題になっていて、その部分について多く語っています。ここでもデータの話はしませんよね？

50:05 ロ・ジョンソク そうですね。ベンチマークは、ただ図だけ見て流しますよね。一通り見て、結局どれだけ良くなったのか。Claude Opus 4.6とGPT-5.4、Gemini 3.1と比較していますね。中国モデルはKimi K2.6と少し物足りなく思ってはいます。

Claude、GPT、Geminiと比較したDeepSeek-V4ベンチマーク 50:08

50:22 キム・ソンヒョン post-trainingを、DeepSeekのpost-trainingを少し物足りなく思ってはいます。もう少し押し切れる余地がかなりあるのではないかと。モデルの規模が大きくなり、はるかに良いpre-trainingをしたのだから、そこで現れるはずの能力がpost-trainingを通じてもっと引き出せるのではないか、という話をしています。もうほとんど新しい種を作ったと言っても差し支えないほど

50:41 ロ・ジョンソク アーキテクチャの変化が大きいので、これから4.1、4.2が出る中で、ソンヒョンさんが今感じた物足りなさも少し解決してくるのではないでしょうか？彼らの基本が少し変わったわけですから。実際には学習の不確実性や不安定性を多少差し置いても、彼らにももう少しgainを得る時間が必要なわけですよね。4.1、4.2もすぐ出るでしょう。はい。

51:05 キム・ソンヒョン 今は完全にpreview段階だったように思います。最初から、そしておそらくpost-trainingに集中するのだと思います。pre-training済みのモデルを手に入れたわけですから。そして改めて、重要な戦いはpost-training段階にあると思います。先ほどの話をもう一度引用するなら、pre-trainingについてはすでに同等の水準に到達した。残るのは、これからpost-trainingで同等の水準に到達することになるわけで、同時にpost-trainingについても、pre-trainingと同じくらいの計算力を使うことになるわけです。

51:41 ロ・ジョンソク そういうことですね。

51:42 キム・ソンヒョン まだ私の考えでは、post-trainingに使われた計算量はpre-trainingの一部程度だと思います。DeepSeek-V4の場合、ただ、このpost-trainingについてさらに多くの計算を投入し、今後はpre-training並みに計算を投入するようになるでしょう。それによって、さらに改善された姿が見えてくるのではないかと思います。その過程でどれだけ改善できるかが、DeepSeekにとっては非常に重要な課題ではないかと思います。そして、とはいえ

ここでもpost-trainingの過程について非常に多く語っています。PutnamBenchのような数学ベンチマークの話もしていますし、これは少し違いますが、long-contextに関する改善、DeepSeek-V3がどの程度だったのか分かりませんが、どの程度だったかは分かりませんが、非常に大きな改善、かなり良い数値を示しています。そういう話をしています。MRCRのようなところで

HLEやTerminal Bench 2.0についても話していますし、さらには中国語の文章作成のようなものについてもかなり多く語っています。中国語の文章作成を改善するためにどれほど多くの努力をしたのか、Geminiと比べてより良い文章作成モデルを作るために多くの努力をした、そういう話をしています。white-collar taskについても

そのタスク遂行のpost-trainingのために実験してOpusと比較してみた、そういう話をしています。

52:54 ロ・ジョンソク そうです。はい。

52:57 キム・ソンヒョン Anthropicでは、DeepSeekがOpusにqueryしたのはdistillationのためだった、というふうによく話していましたが、私は実際、こういうことをするためにもかなり使ったのではないかと思っています。私はベンチマークdistillationよりも、はい。比較してベンチマークするために使っていたのではないかとよく思います。はい、私たちが

coding agentとして韓国では特に、実は中国への関心がそれほど高くなく、

53:24 ロ・ジョンソク 私たちのニュースの多くは、太平洋の向こうにあるシリコンバレーにつながっているので、それが本当に不思議な点ではあるのですが、日本と韓国はアメリカにはるかに近く、中国で起きていることには私たちがあまり関心を持たない国の一つなのですが、そうであってはいけない気がします。とてつもない発展が起きていますね。分かりました。Conclusion、この膨大な内容を

50ページほど、後ろにもう一度だけ下がってみましょうか。ここにcontributor、貢献者たちのnamingが出てくるところが後ろにずっとありましたが、何人くらいいるのかちょっと読んでみましょうか。私たち数えてみればよかったですね。私も気になっていたんです。

54:02 キム・ソンヒョン このDeepSeek組織内でresearchしているengineering contributorの数がどれくらいなのか。そうですね。

はい。でも、それほど多くないですね。実際、人数だけ見ても。最近のフロンティアラボの中では、

それでもかなり規模がある方ではないかとも思います。みんなチームを小さくすることにかなり関心がありますからね。そうですね。はい。このAIフロンティアは中国本土の中国人たちと

54:28 ロ・ジョンソク アメリカにいる中国人たちが牽引していると言うではないですか。それから論文に重要な内容が一つあるのですが、NVIDIAチップとHuaweiチップを一緒に使ったという話をしているんですよ。比率については言及していませんが、もうかなり多く使っているからこそ、Huaweiチップにも言及されたのでしょうし、彼らのインフラストラクチャに半導体の代替案も生まれているわけです。中国で。それから、もう一つ思い浮かぶ興味深いポイントが、

コントリビューターとHuaweiチップ、そしてMeta Muse Sparkの裏話 54:31

54:56 チェ・スンジュン 私たちがマイナーだからか扱いませんでしたが、Muse Sparkも出てはいたじゃないですか。今月、そこもやはりものすごいコンピューター資源と人材を投入したのですが、実際に出してみると、ある意味ではDeepSeek-V4の方が良く見えるそんな感じなんですよね。Museはどこのものですか。

55:13 ロ・ジョンソク Metaです。Metaは存在感がなくて、私の頭に入っていませんでした。すみません。はい、そちらはそちらはモデル公開がかなり渋くて、ただ、よく分かりません。

55:28 キム・ソンヒョン その部分は考えてみる必要がありそうですね。

55:32 チェ・スンジュン でも、そこもものすごいコンピューター資源と人材を、DeepSeekも今、DeepSeek-V3からDeepSeek-V4に移る時にかなり時間がかかりましたし、同じくらいの時間を使ったわけじゃないですか。でも結局、こうして公開されたものを見ると、DeepSeek-V4の方が少しインパクトがあるように感じられるということです。

55:46 キム・ソンヒョン おそらくそれは、実は情報を多く公開したことによる目立ち方の違いも少しあるとは思います。繰り返しになりますが、重要なのは、もうpost-trainingに移ってきたようで、post-trainingの品質差は、実際これは、直接使ってみるユーザーたちの話を聞いて初めて分かるのだと思います。ただ、Muse Sparkはアーキテクチャやpre-trainingについて詳細が公開されてはいませんが、以前申し上げたように、この程度の水準ではないかもしれないという気はします。つまり、そのpre-trainingに注目して見るなら、pre-trainingがアーキテクチャや技術的な側面での改善や革新のようなものが、この程度の水準ではないかもしれないのではないかと思います。推測ですが。ただ、実際にはどのような形なのか公開していないので、分かりませんね。はい。では、もうかなり時間も経ったので

Cloud NextとGPT-5.5ニュースのクイック整理 56:39

56:39 ロ・ジョンソク DeepSeek-V4のレビューはこのあたりで終えることにしてまた今週はDeepSeek-V4以外にもGoogle Cloud、それからGPT-5.5、いろいろなニュースがあり、スンジュンさんが少し整理してくださった内容があるのでその内容を一度ざっと見てみましょうか。

56:55 チェ・スンジュン 本当に手短にやる必要がありそうです。まず、GPT Image 2.0が実は大きな話題になりました。それで今、Eloスコアがかなり高く出たのが火曜日ごろのことでした。その次にCloud Nextがあったのですが、注目されたのは第8世代のtrainingモードとinferenceモードのTPUが新しく出たこと、そういったものがありました。それからAnthropicでは、これまで性能が落ちていた理由についての弁明のようなものが、木曜日ごろにありました。そして金曜日に、予告されていた通りGPT-5.5がSpudというものだという噂でしたが、それが出て、確かに速くなりました。使ってみると速くなっていて、それから性能もかなり満足できるものでしたが、面白いポイントは、これがSébastien Bubeckが何度も話していたユニコーンベンチマークですよね。ところがユニコーンベンチマークが急によくなったのは、これは少し裏技を使ったもので、何かというと、Image 2.0で先に画像を生成して、それを描けと言ってやったものなんです。なので少し裏技を使ったわけですが、それを話しているのは、結局はこういう方向に進むだろうということです。つまりこれがinferenceの中で画像生成のようなものが入り、それをモデルが活用する方向に進むだろうというニュアンスが少しありました。それを反映するかのように、最近見るとImage 2.0で生成して、GPT-5.5で作るパターンが急激に増えました。これは単にfrontendを作るということではなく、画像モデルの力を借りる、そうした試みがありました。

それでも私が時間を割いて紹介したいのは、先週に続いてリズムを見たじゃないですか。先週、私たちはOpus、つまりClaude側のリズムを見たとするなら、今これがリリースの順序です。それからこれは期間ごとにこう印を付けたものですが、フラッグシップモデルだけを見ても、今このあたりではかなり時間がかかっていますが、2025年ごろで見ると、o3から、これが4.5で去年の2月、o3が4月16日、このころでした。ただ、そこから夏の8月まで飛ぶのには時間がかかりましたが、その後は0.1ずつ上がる間隔がかなり短くなっているようだという点が、改めて確認できるように思います。ここにCodexまで入れると、さらに密になります。つまり今、ものすごいpipelineが回っているように思いますし、結局、私たちが以前グループチャットでも話したように、Chromeブラウザのアップデートのように、モデルのアップデートも気にしなくなるそんな時期が来るかもしれません。

それからこれは3Dのほうでも、かなり目を見張るような性能向上がGPT-5.5にはありました。そして面白いポイントとして、NVIDIAがGPT-5.5をかなり推しているような動きがあり、Googleは再びAnthropicに投資しています。なので今週も非常にニュースが多いのですが、最後に一つだけ挙げるとするなら、このAnthropicのプロダクトチームのClaude、Cat Wuのインタビューがかなり面白かったです。それで、ここに要約された内容を私が前のほうに少し抜き出しておいたのですが、開発速度の劇的な加速。それでインタビュアーが指摘したのは、リソースが多少役に立ったのではないかという点でしたが、Cat Wuはそれを全面的には認めず、少しだけ認めました。すでにある種のflywheelが回っている。それからPMの役割など、そうした話を続けていて、私は最後の部分が面白かったのですが、それを本文そのまま持ってきた部分がこれなんです。竜巻の真ん中で正気を保つ方法。こうした変化の中で、人間としてどう踏ん張るのか。それで今、そのAnthropicの共同創業者の一人ですよね。Ben Mannが話したことが、今が、これから世界が持ちうる最も正常な姿だというもので、非常に高いfrequencyでレジリエンスを持つ人材像について少し話していました。つまり、世界のすべてがおかしくなっていっている、という話ではなく、この状況の中でも正気を保てる、burnoutしない人についての話をしていた、という点を今週のニュースとして挙げてみました。あの能力を身につけるのは本当に難しいですよね。はい。なので今週も非常に、DeepSeekの密度の高い内容もありましたが、全体的に広がっているものが、みんな自分たちは何かをやっているんだという、ある種ものすごい周波数を見せているわけですよね。ただ、burnoutしやすいですよね。実際、私たちがカチカチやることも新しい日常になってしまって、そういうことももうあまり驚かなくなり、それに誰かが何億トークンを使ったとか、何十億トークンを使ったとか言って、そのtoken maxxingみたいなことからも、少し抜け出す人たちが出てきているのを、私はけっこう見かけています。あれは答えではない。それなりの均衡点が生まれてきているように思いますし、また今は、私たちがこれまでAIが全部やってくれるのに、と言っていた、そのAI自体の目新しさ、機能、こういったものに少し没入していましたし、これのせいで全部なくなる、SaaSは全部なくなると言われていましたが実際にSaaSの株価が下がっているだけでなく新規受注も急減しているんですよ。つまり、企業の内部でもAI-nativeなやり方で自分たちのツールを簡単に作って使うそういう流れが定着しつつあるように見えるシグナルも、各所にあります。なので市場は、先ほどスンジュンさんもおっしゃいましたがもうこのモデルの性能がどれだけ上がったとか何がどうらしいとかいう話が、Chromeのアップデートくらい日常的なものになってしまうかもしれませんしどうせAGIだよ、というそういう世界になるかもしれません。ですが、これを使ってでは私たちはどう事業をするのか、どんな価値を生み出すのか、そういう方向へ急速に移っていく気がします。そういうシグナルを感じます。それに、先を行っている方々はもうHarnessをどう構築すべきかとか、Claude Codeがどうだ、Codexをどう使うとか、そういう話ではなくこれを使って、ではどうやって稼ぐのか、顧客は何を求めているのか、そのギャップをどう埋められるのか、そういう話へ淡々と進んでいる様子を最近かなり目にしています。なので、先ほどソンヒョンさんも指摘されましたがそのbase modelが今、一度大きく変わっているわけですよね。Anthropicも4.7ではないかもしれませんがMythosは確実にbaseが変わりましたしSpudはbase modelが変わりましたしDeepSeekもbase modelが変わったのでこの後はincrementalにずっとこの頻度でモデルが更新され続けてGPT-5.5も人々の話ではearly checkpointのようだという話がありますよね。ということは、これからも出続けるということでしょう。Spudのpre-trainingが終わったと言ってからあまり経たないうちにGPT-5.5が出てきましたよね。そうなんですよ。出続けるという話ですね。いいことですよね。私たちは、こういう良いモデルをこの安い価格で使えるようにしてもらえて、本当にありがたい限りです。ただ、最近は価格が上がっているんですよね。そうですね。DeepSeekがでもまた10日間、自社で75%割引イベントをやっていましたよね。そういう世界になりました。では今日はDeepSeek、それからGPT-5.5、そしてGoogle CloudのイベントもありましたがクラウドのほうでGoogle側には大きく注目すべき点が見当たらないようなので埋もれてしまったようです。こういう世界になりましたね。では今日はまた少し長く、ある意味ではかなり難しいセッションだったかもしれませんがDeepSeek-V4、そしてGPT-5.5の話をしてみました。スンジュンさん、ソンヒョンさん、ありがとうございます。お疲れさまでした。面白かったです。

DeepSeek-V4論文を読む