AI Frontier

EP 92

EP 92. ループを閉じろ

· ロ・ジョンソク, チェ・スンジュン · 1:06:30
ページ全体

ロ・ジョンソク 0:00 収録している今日は2026年3月28日、土曜日の朝です。先週、私たちは強化学習RLを使って計算資源を投入し、さらに何らかの報酬シグナルを確実に作り出すことさえできれば、そのドメインは簡単に攻略される。これからは計算を使ったsearch problemとしてすべての問題が解決されるだろう、そんな話とあわせてビジネスに関する話も少ししていたのですが。

0:28 その間に、あの有名なAndrej KarpathyがSarah Guoと一緒にまた1本ポッドキャストを撮ったのですが、そこに出てきた内容も、私たちが話していた内容ととてもよく似ているものが多いです。それでも、あの有名なAndrej Karpathyの話を私たちが一度はまた取り上げてみることには意味があるかもしれないので、今日はKarpathyの話、そして付け加えてTerence Tao、またスンジュンさんがとても好きな数学者ですよね。

0:52 Terence TaoがDwarkesh Patelとインタビューした内容、そしてその行間にある内容も一度見ていこうと思います。

チェ・スンジュン 0:58 それで、ひとまず今日進める内容を少し前に持ってきて、ちょっと結論先行型にしてみたのですが。最近またMarkdownが国家人工知能戦略委員会でもMarkdownを重要なフォーマットとして推していて、それも嬉しい知らせなんですが、私もただ面白半分で3DのMarkdownレンダラーを作ってみたんです。

1:19 ひとまず、딸깍でできることは簡単なことのようです。何でも簡単にできるようになっているので。でも、そういうふうに딸깍で作ったものが自分には価値があるかもしれないけれど、他人にとっても価値があるのかは分からないことなんじゃないかと最近ちょっと思うようになったんですよ。ただ簡単に作れてしまうので。

1:37 それでAndrejもephemeral softwareというそういう用語を使っていました。複利を回すのも簡単ではなく、ただ面白く作れはするけれど、少しはかないかもしれない。だからこそ、딸깍ではできないことに挑戦すべきなのですが、딸깍ではできないことがこれからも딸깍でできないという保証はないので、中には時間が経てば딸깍でできるようになる딸깍候補の仕事でもあるのではないかと考えてみました。延長してこうつなげて考えてみると、딸깍候補というのは、ただ待てばいいだけの、やはり

2:07 相対的に価値の低い簡単な仕事候補なのではないか、とも考えてみました。もちろん、その時間を意味のある形で待てば、ただ時間が十分に長いとすれば、意味が生まれることはあるでしょう。では消去法で残る、これからも딸깍にはならない仕事とは何か、

2:23 딸깍にならない仕事とは何か。そしてそれはできない仕事であり、できない仕事ではあるけれど、それでも価値を生み出す仕事がもしかしてあるのか、そんなことを少し考えてみました。それで今日の話がこれと少し関係がありそうなんですが。

ロ・ジョンソク 2:37 これは私たちがいつも、どこへ逃げるのかというそういう問いとつながっていることですよね。今すぐできる仕事ではあるけれど、誰にでもできる仕事なら、その相対的価値は大きく下がるので、自分にしかできない仕事、そしてそれが、ある種の時間的な相対優位を長く守れる仕事、そういう仕事についての問いが最近はとても多いですよね。みんなこういう悩みをしています。

チェ・スンジュン 3:03 そうですね。ジョンギュさんも、あの何だっけ、できる仕事ならやるな、という話をずっと数週間、もう1か月以上も前になりますね、していましたし。だからそういうことへの悩みをちょっと前に置いたうえで、一度話を追ってみます。

3:18 それで、今ここにあるのが「コードエージェント、オートリサーチ、そしてループの時代について」というSarah GuoがAndrejを再び、先生を招く、先生を招くとして投稿を上げたのですが、そこにまたNoam Brownがコメントを付けたのが面白くて、あとで一度紹介してみようと思います。

3:35 manifestの時代だとして、manifestという用語を最初からこう少し紹介してくれるんです。manifestという用語はどうご覧になりましたか。

ロ・ジョンソク 3:45 これはSarah Guoがexpress my will、AIに自分の意志を表現する行為をしているようだ。最近は、では残りはAIが勝手にやってくれるから、と言うわけですが、でもそのexpress my willという表現をAndrejがmanifestという言葉に少し言い換えるんですよね。manifest、これは韓国語にぴったり訳すにはちょうど合う単語はない気がしますが、発現と訳してありましたか。顕現、発現。つまり意志を持って

チェ・スンジュン 4:13 何かを実際にこのように現れさせるそういう方向だと思います。なので普通はmanifest.json、

4:21 JSONファイルがあって、そういうのがまず思い浮かぶのですが、ここでは少し違うニュアンスで使われている気もします。それで、ここを見るとまた面白い表現が

4:31 序盤にAI psychosisという表現も出てきます。これはひとまず精神病と訳してはあるのですが、AIとの強迫的な関係、執着的な関係、ずっと指示し続けなければならず、そういうこと、クォータが残っているとすごく不安が生じるそういうことを話しているんですよ。最近たくさん使っている人は

ロ・ジョンソク 4:54 こういうAI、Claude CodeやCodexみたいなものを8個も立ち上げて仕事をさせているそうです。

チェ・スンジュン 5:01 それでAndrejは10月にはかなりトーンが違っていたんです。そのときはDwarkesh Patelのインタビューだったのですが、Dwarkesh Patelとのインタビューではまだ依然として一歩一歩ゆっくり進んでいる部分があってTab中心でやると言っていたのに、すぐ変わりましたよね。それで今は、12月以降はコードを一度もタイピングしていない。

5:26 昔は10月ごろには80対20だと話していたのが今は20対80に変わった、そんなふうに話しながら最近の変わった姿を告白していました。面白いのは、Peterに憧れるようになったんです。

5:42 OpenClawを作ったPeter Steinberger、僕もPeterみたいになりたい。ここに出ていますね。

ロ・ジョンソク 5:47 Peter Steinbergerがものすごくたくさんのターミナルを立ち上げてやるんですよね。

チェ・スンジュン 5:53 それでAndrejがちょっと、ある人たちはAndrejが昔の慎重な姿よりはちょっとhype寄りに行きすぎた気がする、そうおっしゃる方もいます。でももう少し下を見るとまたそれなりの観点を語っている部分があります。それで今この部分ではAndrejがskill、人間のskillについて少し話していました。それでこれはSarah Guoが質問したことがそこからつながって、熟達するというのはどんな姿なのか、そんなふうに少し話を展開していたんです。でもこの流れは、実は全部押さえるには

6:31 長くなりすぎるので少し飛ばして僕が少しポイントとして見ていたところを取り上げてみます。ごく簡単にご紹介するとPeterがやり遂げたことのうち重要な部分はエージェントの性格を作ることなど5つほどの重要な部分がある。それでPeterをかなり称賛する部分がありました。

6:53 その次にAndrej Karpathyの経験の部分ではこれがカチッと来たのが自分のホームオートメーションしたものをOpenClawでリバースエンジニアリングするように簡単にできた部分を紹介する箇所があるんです。それがプロンプト3つでできた、そんなふうに紹介していた部分がありました。その次にソフトウェアの未来、人々が望むもの、こういう部分は

7:19 実はこれまで僕たちがやってきたセッションでしてきた話と流れが合っています。なのでそれを今詳しくは立ち入らずに僕が重要だと見た部分はここでオートリサーチの限界のようなものを重要だと見ていたんです。これが自己改善するループを成功させることをAndrej Karpathyがオートリサーチというふうに包装してうまく今イシューになっているんですが、そういうことができない領域があるというのを僕は重要だと見ました。オートリサーチを少し復習してみましょうか。目標が明確になってその目標に対する何らかの成果物、その成果物に対する

ロ・ジョンソク 7:57 evaluationを確実にできさえすればその途中にあるものが文書であれ研究であれ、あるいはGitHubレポであれモデルであれ、どんな形であれこのLLMを投入してトークンを投入していわゆる最適化、optimizeできるということですよね。ソリューションを見つけ出せるということですよね。

チェ・スンジュン 8:16 でもAndrej Karpathyがうまいのはそういうのをすごくミニマルに実装するんですよ。それで今回のオートリサーチもすごくミニマルにMDファイル3つだったかな、それからコードMDファイル、program.mdが1つ、その次にPythonファイルが1つ。そしてそれがずっと自分自身を更新しながらレポがこう積み上がっていくものだったじゃないですか。でもその部分について

ロ・ジョンソク 8:39 僕たちが簡単に背景を説明するとこうやって作ったわけですよね。モデルの性能を高めること、Andrej Karpathyが作ったすごく簡単なモデルの性能を高めることをするんですがprogram.mdは実はこれのmanifestなんですよね。こうしろ、私はこういう目的を持っているということを明確に書いておいたもので、その次にその対象になるプログラムとしてtrain.pyとprepare.py、こういうものを与えたんですよ。これは準備する程度で

チェ・スンジュン 9:07 核心はtrainファイルをずっと改善することなんですよね。つまりこれは目標が

ロ・ジョンソク 9:13 loss値を下げるという明確な目標があるからやはり測定可能な、このverifiableなそういうevaluationがあればその次はモデルに任せればいいんですよ。勝手に論文を探してきて勝手に自分が知っていることをこう直してみてああ直してみて、正のフィードバック負のフィードバックをみんな取り込みながら、うまくいくものは強化してそうでないものは捨てながら絶えずoptimalな解を探して進んでいくのがオートリサーチの核心なんですよね。

チェ・スンジュン 9:44 でもAndrej Karpathy自身が作っておいて驚いたのが自分が20年間こういうことをやってきたのに自分が見落としていたものをこいつが拾い上げた。それで実際にvalidationlossが下がったコードに学ぶべきものがあったというのが驚くべき部分でした。

ロ・ジョンソク 10:00 Andrej Karpathyより上なんだからたいていの人たちよりはるかに上なんですよ、モデルが。それでSarah Guoがちょっと挑戦的な質問をしたのが

チェ・スンジュン 10:10 program.mdをAndrej Karpathyよりもっと上手く書かせるのもこの方法でできるんじゃないか、そういう話も少ししていました。しかしそれでも限界はある。それでその限界についての部分を僕は関心を持って見ていたんですが、

10:24 これは検証可能な領域ではあまりにもうまく動くけれど検証しにくいものでは全部driftする、漂流するという表現を使っていました。ここを見るとAndrej Karpathyが仮説を語ったものがあるんですが、この部分は、ただ漂流しているという表現だったんです。その次に、そういうことに

10:44 典型的なのが、冗談みたいなものをやらせると3〜4年前のモデル、最新のモデルでも3〜4年前のモデルがやる程度の冗談を超えられない。だからAndrej Karpathyが考えているのはこれがRL、現在のRLがカバーしていない領域のようだ、そういう領域がかなりあってだから能力にむらがあるようだ、そんな話をしていました。

ロ・ジョンソク 11:08 jaggedという表現をものすごくよく使いますよね。あるものは本当に超天才なのにあるものはひどいバカ。

チェ・スンジュン 11:16 それでそういうことについて少し話していてちょっと僕が後半で関心を持ったこと、この部分はオートリサーチみたいなものをSETI@homeやFolding@homeみたいなプロジェクトのようにやりたいと思えばできそうだ、という話です。SETI@homeは地球外文明を探すものでFolding@homeはAlphaFoldが出る前にタンパク質の折りたたみをクラウドソーシングでやっていたじゃないですか。だからエージェントをこうやって送り出して人々が自分のエージェントを送り出して

11:43 複雑な問題を解くことに対する野心みたいなものを少し話していたんです。これがmicrogptの部分なんですが、microgptもこの前僕たちが一度紹介しましたが200行に圧縮していたじゃないですか。GPTを。でもこれはさっきみたいなやり方ではだめなんだそうです。

11:59 microgptみたいなコードを作るのはAndrej Karpathyがエージェントを回してもそこまでは到達できず、これは自分にしかできなかったある20年の経験を持っていた圧縮の経験であり、その結果なんだけど興味深い話はAndrej KarpathyがEureka Labsを創業したじゃないですか。でもやったことがあまりないんですよ。それからmicrogptを出したあとはもう以前だったらこれをYouTubeに撮ってどう教えるか、ということをしていたはずだけど、もうそれをやる必要を感じないと言うんです。

ロ・ジョンソク 12:32 どうしてなんでしょう?

12:32 どうしてなんでしょう?

チェ・スンジュン 12:55 というニュアンスの話をしているんです。だから教育の未来が人に教えることからエージェントに教えることへ、エージェントを教えてできるようにすればエージェントが人々を教えることはその都度作れるからインタラクティブなコンテンツのようなものがそういう話が僕にはちょっと記憶に残ったセッションでした。ロさん でもまた印象的だったのが

13:17 また別のものもあったかもしれないと思うんですがどうご覧になりましたか?僕は二つの話をしているように思うんですよ。一つ目は、今話していた通り

ロ・ジョンソク 13:26 何であれ僕たちがverifiableなある測定装置を付けられさえすればそれがモデルの学習だけでなく一般的な問題もみんなこうして解けると言っている部分について話してくれるものが一つあって二つ目としては、これがレイヤーが何かモデルをトレーニングして

13:47 モデルをさらに分析するとか、そういうことを超えてモデル自体は何か昔風に言えばCPUみたいなもの、CPUみたいな一つのエンジンのようなものにしてレイヤーもAndrej Karpathyが話していることにそういうのがあるじゃないですか。去年の12月までは自分で直接コードを触りながらコーディングしていたけれど今は完全にそういうことはしないと言いながらマニフェスト、これとつながる話なんですが今は一つ上の階層に上がった感じなんです。その階層の上にあるものの価値について話しているんですよ。これがモデルの性能が何がいい、

14:23 ベンチマークがどういい、という話ではなくて、これを持ってどんな問題をさらに解けるようになるのかこれが僕たちの仕事をどう変えるのか教育をどう変えるのかというあるアプリケーション領域、もっと高い、一段高い領域へとアジェンダがすべてスイッチした。これが僕が得た確かな感触でした。

チェ・スンジュン 14:45 それでAndrej Karpathyが今回のセッションで一番最後に言ったのはこれです。エージェントができないことが、これからはあなたの仕事だ。エージェントができることはたぶんあなたよりもうまくやるか、すぐそうなるでしょう。だから実際に時間をどこに使うか、戦略的でなければならない。こういう話でインタビューを締めくくっていました。

ロ・ジョンソク 15:02 でもこれってすごくオープンエンドな質問なんですよ。さっき僕たちが序盤でも話したようにこれが1週2週間でできそうなことなら딸깍するな。なぜならあちこちで딸깍してそのままリアルタイムで作っていただろうから。そうすると6か月後にできること、こういうものをやるべきだという話なんですがそういうある種のテーマを設定する能力、今現在の文脈を読んでテーマを明確に設定できる能力が重要だ。これが時間をどこに使うか戦略的でなければならない、という言葉の解釈なんじゃないかと思います。

チェ・スンジュン 15:35 とにかくちょっと考えさせられる点もありつつまた面白く話を展開していてAndrej Karpathyはまた本当に話すのが速いんですよ。0.8倍速で聞くと通常速度だと言っているでも、Andrej Karpathyのような

ロ・ジョンソク 15:50 ああいう有名人がしてくれる話は、もしかするとスンジュンさん、僕がしている話に対するある種のevaluationでもあるんですよ。だから、僕たちがしていたKarpathyの話とそれほど文脈が違わなかったという点で僕は良い評価をもらったんだ、というそういうフィードバックを得ました。肌合いが合っている部分があって、ちょっと安心しました。

チェ・スンジュン 16:12 とにかくAndrej Karpathyもインタビューで自分はもうフロンティアラボにはいないけれどこうして自律性を持っていくらでも気軽に言いたいことを言える長所がある。でも、また最新の情報を知ろうと思うと入ったり出たり、そういうのを繰り返さないといけない、そんな話もしていました。まあ、全部聞くでしょうね。そうですね。友達もいたりするのでそれで、その科学のほうに

16:34 Periodic Labsを作ったLiam Fedus、その方がまたAndrej Karpathyの親しい友人なのでそこにもまた行ってきたという話もしていましたが詳しくは話していませんでしたけど科学のほうでどんなことが可能になっているのかみたいなことも把握しているのではないかと推測されます。

ロ・ジョンソク 16:47 Andrej Karpathyが以前からものすごく関心を持っている分野がバイオテクノロジーなんです。それで本人がmolecularbiologyの分厚い本だとかバイオテクノロジーの本も持ってきて、裏でそのフィールドをかなりたくさん勉強していると聞いているんですよ。それから、僕たちがどこへ逃げるべきかという話をよくしますけど

17:08 ただカチッカチッとやって終わる仕事の単価がずっと下がっているんですよ。市場への参入者もものすごく増えているしただ2か月先に行ったという程度で2か月先に仕事を始めたという程度であって後ろから追ってくる人たちがそれをキャッチアップするのがあまりにも簡単なんです。正直後から行くほど有利になりますよね。

チェ・スンジュン 17:30 モデルやハーネスの性能がもっと高くなるので

ロ・ジョンソク 17:32 そうです。より良い道具を持って戦いに飛び込むわけですからだから先にいた人たちがこの6か月の間売ってきたものが何の意味もない、そういうスタートラインが絶えずリセットされるようなことを僕たちは目撃しているので僕たちが今年AIサイエンスをやろうとしてTerence Taoやこういう方々の話もたくさんしていましたけどその賢い人たちが今逃げている領域を見ると

17:56 Periodic Labsがやっているような材料工学、新しい素材を見つけるとかあるいは最近、僕たちがAlphaGenomicsやAlphaFoldみたいなもののせいでバイオテクノロジーそのものが完全にソフトウェア化されつついるんですよ。もはやビーカーに水を入れたり実験をしたりしなくていい、いわゆるwet labと呼ばれる濡れたラボ、wet labと呼ばれたりしますけどそういうものが必要ないソフトウェア環境へと急速に移っていてみんなそっちへ逃げているようです。

18:26 でも、そういう方面はとても深いドメインknowledgeを少し必要とするんですよ。少なくとも博士課程に準ずる程度のドメインknowledgeが必要なのでそういう方面へ行って人々がみんな何かしら事業を一つずつ立ち上げている感じでそれを早く見抜いてそこに事業を立ち上げるかあるいはその人たちを早く見つけて投資するかこれが今のトレンドのようです。確かにそれは筋が通っているとしても

チェ・スンジュン 18:53 一度再訪すべきポイントのようにも思えますね。ひとまず、僕がまた面白く見た、いつも面白く見ているDwarkesh Patelが今回はまた著名な数学者のTerence TaoにインタビューしたんですがDwarkesh Patelはいつも意図を持ってインタビューをしている気がします。当然ではありますけど、自分が言いたいことにアジェンダ設定をする、そういう傾向があってAndrej Karpathyが話したことをもう一度強調するとRLの範囲内にいれば超光速で走り、範囲外ならすべてがただ漂流する、という話をしていました。それから、そういうことについて冗談の例みたいなものを話していましたしDwarkesh Patelはこれを数学に関する話としてTerence Taoと話しながらこの認識論的な地獄で生き延びる理由は僕たちが明確に言語化することもできず強化学習ループにコード化することもできないほどきちんと理解できていない判断力とヒューリスティックの混合です。もう一度インタビューの内容に要約して申し上げると最初にKeplerの話からするんです。

19:54 Keplerが天動説と地動説のその頃の話じゃないですか。そして軌道が何に比例する、そういうのをやって、僕が中学生の時だったか高校生の時に習いましたけどaの2乗、bの3乗みたいな感じの公式があったじゃないですか。でも、そういうのを見つけ出すことがその過程の歴史をひもときながら当時はそういうある種の革新的なアイデアやこういうものが、むしろかなり不正確だった。以前のやり方、天動説のやり方でやったときに出てきたもののほうがむしろ初期にはより正確で地動説のやり方でやったときのほうが少し不正確だったけれど実際に正しかったのは地動説だった。それから、それがきちんと正常科学の軌道に編入されてちゃんと作動するようになるまでにはかなりの時間がかかった。だからこそ、初期にlocally incentiveがあるものは長い軌道ではむしろ正しくない可能性があるというニュアンスで外れていくものを話しているんですよ。

20:56 Terence Taoを召喚する理由は去年末から今年初めにかけてAI数学でPaul Erdős問題のようなものがたくさん解かれました。でも今はplateauにある現象を語らせるんです。Dwarkesh Patelが、つまりしばらくは解け続けていたけれど易しい問題、いわゆるlow-hanging fruitは全部取り尽くして今も進展は続いてはいるもののしばらく幅優先の探索が一気に進んでAIを活用してこれを全部search spaceを探索できるものに該当するものが一気に刈り取られたあとは現在は再びplateauに入った。では実際に数学者がやるべきことは何かこういうふうにずっと君はそれをどう考えるのか、つまり君のその研究のやり方は何なのか、そういうことをずっと掘り下げながらインタビューするんです。Dwarkesh Patelの意図はそこなんです。ここには、今のレジームではできない何かがまだある。それを圧縮して表現したのがさっきの認識論的なある巨大なヒューリスティックがあって、暗黙知があってそういうものを語らせるようにする部分がそういう内容でした。でもこれが本当に面白いのはさっきスンジュンさんがおっしゃっていましたが

ロ・ジョンソク 22:02 Paul Erdősの問題のようなものもこれがもし3年前にGPT-3.0が解いていたらこれは本当に天地がひっくり返るような出来事でこれはAGIだと言っていたはずなんですよ。でも去年それを解いたのだって

チェ・スンジュン 22:15 天地がひっくり返るようなことではありましたよ。去年の末に

ロ・ジョンソク 22:18 でも私たちの期待値がずっと上がっているんですよね。相対的に。だから今のモデルの性能は実はジェンスン・フアンもこの前のGTCでそう言っていたしイーロン・マスクも話していてもうAGIの性能なんじゃないかと問いかけているわけですがそれにもかかわらず人々はひたすらできないことを探しながら、できないじゃないかできないじゃないかと話しているわけで私はこうした点が私たち一人ひとりが持つべきバランス感覚と大いに関係していると思うんです。なぜなら、Andrej Karpathyもすでに

22:52 march of nines、9の行進という話をしながらそう、90までは問題があるけれど99からは使い物になる、しかしそれが絶えず99.9、99.99、99.999になっていくような形で進んでいくという話をしていたんですがこれはセクターによって違うとはいえ、非常に多くの部分で実際には99の領域に来ているものがたくさんあるじゃないですか。でもこのあと9がいくつかまだ付いていないからといってこれはできていないと言うのは少し酷ではないかという気がするんです。

チェ・スンジュン 23:27 でもTerence Taoはできないとだけ言っているわけではないです。Terence TaoはAIを積極的に活用して突破口を探し続けようとする姿勢を持っていてDwarkesh Patelもできないと線を引くのではなくセッションごとに、インタビューをするたびにジャグリングしているんです。この人にはhype寄りに近づいたかと思えばこの人には少し中立的に近づいたりしてジャグリングしているので、意図を持ってこの回をやったとは思うんです。なので実際に見ると

23:57 論理をかなり面白く展開している部分があります。それでhigh temperature LLMという比喩を使って当時としては思いつけないようなtemperatureの高い意外な発想をするものがLLMがまた得意にできる領域でもあり私たちはそれを通じてleverageを得られる、そういう含意を引き出す話をしているのですがTerence Taoを通して語らせようとしているのは後半で、これにはそれぞれの長所があるということを話させること、つまり人間の数学者も依然としてAIと一緒にむしろもっと上手くできる部分がある、

24:36 だからそういう部分を少し指摘しているんです。でも私がこのセッションで最も興味深く見たのはいちばん後半に出てくるこれなんです。semi-formalな言語が必要だ。つまりこれは何かというと、前のほうでAndrej Karpathyがやったのと似たように、Gwern Branwenを通じて今、数学でのある種のAI革新が起きているわけじゃないですか。検証可能な証明機械を使ってLLMがその証明機械を動かしてそのフィードバックを受け取れるから、できるできないを見分けて、できる方向へ押し進めることで問題が解かれたりしてきたのですが、今のTerence Taoの話は実際に数学者たちが悩み、協業していくそうした暗黙知的なものをLeanのような完全なformal言語ではなくsemi-formalな言語でどう作れるだろうか、こういうフロンティアの悩みをしていたと私は感じたんです。それは会社で言えば

25:28 組織の文化に似たものかもしれないしでも数学者たちが協業するやり方だとか考えるやり方をどうsemi-formalにできるか、そういうことを考えるのがとても重要だと感じました。LLMのおかげでみんなこの階層が

ロ・ジョンソク 25:42 レイヤーが全部上がっています。みんなもっとabstractなレイヤーへと絶えず押し上げられています。悪く言えば押しやられていて良く言えば絶えず進歩しているんです。

チェ・スンジュン 25:55 でもそういうものは時間の試練にさらされなければならないという話もしていてこの時間の試練というのも、私はかなり納得のいく話でした。後ろの話は少し思弁的ではありますが、Terence Taoの結論は、Dwarkesh Patelが引き出したTerence Taoの結論は人間とAIのハイブリッドが数学をより長く支配するだろう。それぞれの役割があって協業する体系がもしかするとTerence Taoが描いている姿なのかもしれません。でも未来は不確実だ。私が話したことが必ずしも正しくないかもしれない。そうしたdisclaimerはAndrej Karpathyも入れるし、Terence Taoもまったく同じように入れます。ソンヒョンさんが fog of progress の話をしたようにこういう人たちもまた、まったく予測できない。これからどんなことが起こるかは

26:42 面白かったのは、むしろある種の非効率性を称揚するような、そして serendipity を重要に考える Terence Tao の話をしながらこれはただの思弁ではありますが、興味深いエピソードがありました。これは面白半分に一度ご紹介するんですが、ここがプリンストン高等研究所というニュージャージーにある研究所だそうです。ここは著名な科学者しか行けない場所なんです。でも Terence Tao が、気が散ることのない素晴らしい場所だ、そこでひたすら研究だけすればいい。最初の数週間は素晴らしいけれど時間が経つとインスピレーションが枯渇するという話をしていました。ところがこれについて Dwarkesh Patel のツイートに誰かがコメントしたのがRichard Feynman もまったく同じことを言っていた。研究だけできる状況は科学者を駄目にする近道だ、というニュアンスで語ったこともまた指摘してくれるんです。だから実際に人に会って、学生たちに教えようとして基本的なことを改めて考え直してみることが実はただ気楽に研究だけを瞑想するようにできる場所では起こらない、意味のある経験なんだという話をしていました。それから Richard Hamming という、またコンピューター科学のほうで有名な方もまったく同じことを言っていた。高等研究所が多くの偉大な科学者たちを駄目にしてきた。そういう話が出たのがちょっと面白いポイントでした。だから私がこれを持ち出したのは何か意外なもの、ノイズのように見える一連のことも実は人間にとってはかなり役に立つ経験になりうる、というそういうある種の個人的な、何というか面白いポイントがあったからです。なのでそれはさっと流して、

28:25 むしろ本当にまた興味深い文章が出てきたのはAnthropic からかなり実用的な文章がたくさん出ました。今は AI 科学が重要なんですが、Anthropic が23日ごろにAI 科学ブログを立ち上げて最初の記事として「vibe 物理学」と「科学計算のための長時間実行 Claude」という二つの記事を上げたんです。それで、これはかなり長いんですが、最近どんなふうに科学者たちが AI を使っているのかをプロンプトまで含めて非常に詳しく紹介していました。プロンプトの例も入っているし、コードも入っていてそれをとても丁寧に紹介していて驚きました。

29:05 それで vibe physics の結論、大まかな内容と結論を申し上げるとこの Matthew Schwartz という人が物理学者で、かなり知名度の高い物理学者らしいのですがその方が実際に最近、量子場理論に関する論文を AI と一緒に出してかなりの反響を、物理学者たちの間で呼んだそうです。意味のある論文で、それをどう書いたのか。それでその過程をとても詳しく語っていたんですが、ここで vibe 大学院生とは何かというとまだ同僚の科学者ではなく大学院生なんです。だからその大学院生を自分がどうマネジメントして実際に論文を一緒に共同執筆し、出版したのかについてのものすごく詳しくて興味深い話です。でもここを見ると、何ができて何ができないのかを今日時点で、つまり2026年初頭の現在の状況としてかなり丁寧に押さえてくれていて内容が充実していて面白かったです。だからある部分には誇張された期待もあるしでもそれにもかかわらず、これがチャットベースではなくエージェントを使うべき理由、そしてそれでどうやって大学院生を指導するようにClaude を指導しながら立派な論文が出るようになったのかという旅路をたどっていてかなり面白いです。

ロ・ジョンソク 30:21 この問題へのアプローチの仕方がみんなこういう方式みたいですね。

チェ・スンジュン 30:26 それで実際に Claude Code の画面だとか草稿、でもここを見ると Claude がミスすること、それから Claude が話を合わせてくるのを好むこと、その次に、やり遂げたと嘘をつくこと、そういうことをどう指導したのかその過程を語っているんです。この人はドメインの専門家だからぎこちないところを矯正してハーネスとまではいかなくてもそれを全部こう細かく押さえ込みながらちゃんと仕事をするようにさせる。それで成果物は、自分一人でやっていたら3〜4か月かかった仕事を、だいたい10日から2週間くらいの間で論文を出版できたという話なんですが、それがただの 딸깍 でできるわけではなくかなりの指導が必要だった、という結論でした。

ロ・ジョンソク 31:11 そうですね。ここでは結局、自分自身を evaluator として使ったわけですね。しかしこれも上位で動く方法論はやはり auto research だったわけですよね。介入は途中で入るんですが、

チェ・スンジュン 31:24 auto research に似たターンがあるわけです。だからここでも最初に Claude が得意なのが疲れない反復、不平を言わないこと。

ロ・ジョンソク 31:32 不平を言わない。重要ですね。

チェ・スンジュン 31:34 基礎は全部知っている、図を描くのがうまい、文献の統合がうまい。つまり LaTeX とかそういうものを図式を作ることも、Terence Tao もまったく同じことを言っていましたがそれってすごく時間がかかる仕事なのに、全部うまくやってくれる。

31:46 Claude ができないこと、規約が非標準的な場合よく知られているものでなければとにかくしきりにデフォルトに戻るそうです。pretraining されているなら、そして最後まで押し切ることにはまた足りない部分がある、というのがこの人の評価ではあります。その次に、方向性を読むこと。美的感覚が足りない。どれだけプレッシャーをかけたのか、プレッシャーに耐えるのができない。とにかくトップティアの研究者だからこういう話をするんだと思います。それで効果があったコツ、どうやって交差検証してこうやって階層構造を維持しながら

32:17 反復して質問したりすることを重ねてこういう結論が出たそうなんですが、これが結局どうやってAIが博士レベルに到達するのか、そして人間の大学院生たちは何をすべきなのか。実験を分離するのも良い方法かもしれない、そんな話もしています。

ロ・ジョンソク 32:34 ではこの方は、ただClaudeクライアントをそのまま使ったんですよね? Claudeを。

チェ・スンジュン 32:40 Claude Code、Claude Codeを使ったんです。Claude Codeにご本人のハーネスをもう少しだけこう精緻に適用していたら

ロ・ジョンソク 32:49 さっき話していたClaudeができない問題今は正直、全部解決できる領域のものですね。

チェ・スンジュン 32:53 でもこれをAnthropic公式の科学ブログでこれをやったというのは、実際にこういう事例があってこの程度の能力と認識がある状態だ。現在の科学者たち、現場の最前線にいる科学者たちがこういうことをやり遂げるのだということを示している一つのエピソードです。もう一つは、ここを見ると指標も出ています。

33:14 Claudeの総セッション数、それから入力トークンが2750万、出力トークンが、多くの論文を放り込んだ可能性もあるでしょう。なので、かなりの分量が進められたことが分かります。でも、ああいう大きな問題を解いても

ロ・ジョンソク 33:31 トークンの数は、実は僕らのあれを全部合わせるとだいたい3000万、4000万トークンになるわけで

33:39 たぶん今のエンジニアリングでは…億単位で使っていらっしゃるんですよね?そうです。でも私がお伝えしたいのは

33:44 実際、ただ億単位のトークンになったからといって良いわけではない。実はあれが普通なんです。3000万トークンの中で強い成果が出せるようにガイドして、何か目標設定をうまくしてそういうことのほうが、私はもっと意味のある方向性なんじゃないかと思います。

34:03 なので、うちのチームにもものすごく優秀なエンジニアの若い人がいるんですがこの人は純正主義者なんです。いろいろベタベタと、こういうハーネスをたくさん付けません。例えば、うちのClaude CodeやCodex以外にも上に付くかなりメタなハーネスがたくさんあって最近は流行っているんですが実際、そのメタハーネスが持っている機能を一昨日も、うちでは昨日でしたね、昨日ちょうどCodex 0.117が出て、それまでなかった機能がどっと入ってきたんですよ。だから外にあったメタハーネスの機能が本当に中に全部入ってきているんです。でも入ってくるものを見ていると

34:39 Claude Codeは、感覚としてはただ外にあるものの中で良いものがあるとなるとどんどん入れてその後で整理する感じだとすればCodexは、だから私がCodexをより好きな理由でもあるんですがああ、あれは無理に入れる必要はないなといういわゆるこういうクラッター、役に立たない塊は全部取り払ってくれて本質だけをきっちりそのバニラの中にうまく収めてくれる感じなんです。Codexにhookが入ってきたのもそれほど前ではないしせいぜいアプリサーバーだとかクライアント構造に分けて人々がteamworksで分業するようなことそういうことができるようにしてある段階なんですが私が申し上げたかったのは何かというとその優秀なエンジニアが

35:23 今スンジュンさんが見せてくれたこういう方法論を使うんです。人がうまくガイドしてその仕事を正確かつ速く終わらせることが重要であって

チェ・スンジュン 35:32 モデルを回し続ける必要はないということですね。

ロ・ジョンソク 35:34 はい、あまりにも過剰にsearch problemとしてやるのも答えではないし、その区間ではもちろん私は常にsearchを何百億トークンも入れてすべてを検索problemとしてその問題に変えて解くことも可能だとは思うんですが正しいアプローチはこれのように思います。おそらく人間の価値とAIの価値が極限まで強く結合するそういう領域なのだろうと思います。それでこの後半部では、シミュレーターを

チェ・スンジュン 36:05 物理学者で研究者の方が作った話をまたかなり詳しく解説しています。ここでもプロンプトが公開されていて、コードも公開されています。これは宇宙背景放射に関するシミュレーションを商用モデル級ではないけれど自分の研究向けにカスタムできる程度のものをJAXで構築する過程が出てきます。

36:29 なのでここでも、自分が得た教訓やそれから少しハーネスに近いものとかあるいはgitのある種の履歴が残る、コミット履歴が残ることの価値、その次にループは結局一種のRalph loopを回した、そういう話が出てきてそれがどの程度実用になるレベルになったのかそういったことを押さえてくれる具体的なブログをこれからも続けていくという約束がAnthropicブログの今週の紹介でした。こういうシリーズをこれからも続けていく、期待しています。全部は理解できなくても

37:03 現場の最前線にいる科学者たちがAIをどう使っているのかという事例をつまりAnthropicではAnthropicがOpenAIでもそういうことはもちろんやってはいますがもう少しこう具体性をもって話してくれている感じがあってつまり、これを少し考えてみるとですね。さっき冒頭でも申し上げましたが

ロ・ジョンソク 37:25 シリコンバレーにいる優秀な人たちがみんなサイエンスのほうへ逃げていっている、と申し上げたじゃないですか。コーディングで起きたことがサイエンスで起きないという法はないんです。

37:36 それに私は、これが今の私たちのチャンスだと思うんですが今は誰でもコーディングするじゃないですか。実際、誰でもって表現するのはちょっとあれですがこれまでできなかった人たちもそうですよね。モデルのある種のcapability overhangと結びついて自分が知らないことを学んでいきながら意志さえあれば昔は最高級のエンジニアにしかできなかったそういうことが、今では意志を持って取り組めるそんな時代になったんですよね。でも私は、サイエンスもまったく同じようにそれが置き換わっていく気がします。昔は新薬開発をするとかあるいはがんを治療するために

38:12 自分のがんを遺伝子シーケンシングしてその変わった部分を見つけて、その変わった部分のせいで発現するタンパク質を見つけてそれをAlphaFoldでこうmanifestして、実際に可視化してみてそしてそれに合う別の抗体候補を探してこういうことは、そのための知識を身につけるだけでも少なくとも生命工学の博士レベルの知識が必要でトレーニングも必要だったんですが今では本当によく整理された本を1冊読んで哲学的な気づきさえ得られればその段階にそのまま行けるようになったんですよ。

38:46 昔ならできなかったはずのことが実際に可能になっているのがそれが生命工学の博士でもなくそうですよね、その次にMD、つまり医師免許を持っている人でもないのに今、生物学の最前線にエンジニアが入っていってそういうことをやっているのを今まさに私たちは目の前で見ているわけでこれは私はAI for science、AnthropicもそうだしOpenAIもそうだし、Bayにいる多くの人たちがドメインへ逃げたんですよ。より難しくて、より賢い人でなければならないドメインへそのまま行く時代になった気がしてこれもいけそうだ、という気がちょっとします。

チェ・スンジュン 39:24 でもこれ、競争ではないんですが、何と言えばいいのかな、vice versaだから今、さっき少し前の事例はJAXとかそういうのを知らない科学者がエンジニアリングして道具を作ったわけで、侵食なんですよ。みんな互いに相互侵食なんです。

ロ・ジョンソク 39:39 Rustが最近人気を集めたのもRustエンジニアになるために努力をたくさんしてきた方が多いんですが最近、私はそのエンジニアではなかった方が来てバックエンドをRustで作り直しているみたいな話をされるのを聞くとこれをどう解釈すればいいのか、私も本当に複雑な気持ちになります。manifestという単語を深く考えてみる必要がありそうですね。

チェ・スンジュン 40:06 すごくいい単語を得た、という感じがありました。それで私もちょっと実験をしてみました。どんな実験をしたかというとAndrej Karpathyが、冗談はだめなんだと言っていたので私が文章を書くことに戻って、ちょっと実験してみたんですがいくつか面白い文章が出てきたんですよ。

40:26 でもここでは「みかん」という文章から始めました。ここに画像として描いてあるものがループを閉じると表現していたんですが独自の評価体系を作ってここを見ると憲法を書いてその次に、少し詩の草案みたいなものを書いたあと自分でそれをかなり厳しく評価してから受け入れ条件、これが受け入れ条件でATDという概念があるそうなんです。acceptance、つまり受け入れ条件を設定したうえでその受け入れ条件を達成するまでループを回す方式でやったんですよ。これはまだClaudeだけがこれがちょっとうまくできるんですが

41:06 Claudeはリポジトリの概念みたいなものをセッションのウェブ上でもそのまま持てるんです。Claude CodeはもちろんできるしClaudeのウェブでもリポジトリみたいに使えるんですよ。それで今見るとさっきのがこの創作作業をしたリポジトリです。それでそのリポジトリでauto researchみたいに成果物もずっと修正してその次にそれを作るハーネス、メインになるプロンプトさえも再帰的に修正させたんです。それで受け入れ条件をずっとescalateしていくんです。そういうふうにしたとき散文で面白いものが出てくるのを観察することができました。これは『ヘイルメリー』の映画を見てきてSF小説を書かせてみたんですが

41:51 読みながら、それなりに面白い小説が出てきた経験でしたし、これがいちばん驚きなんですよ。これはプロンプトで、もちろん詳細な指示文は前に500行以上あって実際にそれに何を作れと指示したのはこの部分だったんですよ。

42:13 それで「視覚化と表象」というタイトルで言葉を見えるようにする技術としての文章創作というものを私がイム・ワンチョル教授と話しているうちにイム・ワンチョル教授がAIと一緒に書いた論文のタイトルをこれにしたものがあるんです。それで小説を作って、散文を作ってみたらどうだろうということで、これが出てきたんですがこれを読みながら、私はちょっと驚きました。私の観点ではかなり創造的によく書けた文章が出てきたんです。大まかに言うと校閲者なんですが

42:43 その校閲者がある作家の文章を読んでいてゲシュタルト崩壊が起きるんです。もともとはこの校閲者の能力が、文章を読むと知的にイメージを思い浮かべられる能力を持つ人なんですがある日突然、「水」といえばㅁ、ㅜ、ㄹとして文字だけがこう認識されてイメージが浮かばなくなる、自分がある種の失明していく段階を経ているという感じの中で逆に、ここで私が驚いた部分はこの箇所だったんですがここを見ると字母を分解してその疑問めいた感じを生かすそういう内容を書いているのを見て私はこれは何というか、どうしてこんな発想をしたんだろうと感じる部分があるんです。子音と母音を分解して

43:26 それで私はもうイメージは思い浮かべないんだけど、別の感覚が喚起されながらサウンド的に感じる、そういうものについて文章を書いたんです。これは何だろうと思いながらやったんですが、ここを見ると、そこに入っていたのがentitiesは「ウン」という主人公を設定して状況と環境、それからどういうふうにストーリーのarcを、叙事を展開していくのかというところで何を捨てて何を選んだのか、こういうことをずっとループを回しながらやっていたら最終的に出てきたものを見たら30分くらい回っていたのかな、ちょっと驚きました。だからこれは少し違う感じだ。

44:03 それで散文はよかったんですが、それを同じメカニズムで冗談を書かせてみたんです。全然面白くないんですよ。それでこれでシットコムの場面を僕が数日前に夜にバスに乗って帰りながら深夜バスを話題にして同じメカニズムで文章を書かせてみたんですが、同じようにループは回したもののこれは面白くはなかったです。

44:25 でもそこに、その中に入っているある種のメカニズムは既によく知られているスタンドアップコメディとかあるいはシットコムとか日本の漫才、そういうある種の方法論的なものをリサーチしてそれをどう評価するかというそういう計画は全部あったんですが実際に出てきたものはいまいちだということなんです。

44:45 それで生成された散文は卓越しているように感じられるのになぜ同じアプローチで冗談はだめなのか、というのを今週ちょっと悩んでいたんです。なぜそれを悩んでいたかというと、もし冗談みたいなものがnon-verifiableならnon-verifiableなものはこのやり方ではだめなんだということなのかが気になったんです。でもそれも人間が楽しい、

ロ・ジョンソク 45:06 面白いっていう、冗談のある種のレベルがあるじゃないですか。下をやらせれば攻略されるんじゃないですか。ただまだverifierがないだけですよ。RLをやらせていないのかもしれないし

チェ・スンジュン 45:15 なぜならそれが、まあコーディングに比べて得があるわけでもないし。RLを、そのばらつきのあるRL訓練の環境かもしれないしそれにOpenAIが

45:25 去年の今ごろGPT-4.5を出してすぐ取り下げたじゃないですか。それがpre-trainがより大きくなっていたものだと推定されていたモデルがしかも文章をすごく創造的にうまく書く。でもそれはビジネスの領域ではないと判断して取り下げた可能性もあるしまあ分からないです。

45:39 でもとにかく現在のモデルでは同じハーネスを使っても冗談はうまく機能しない。またはAndrejが言ったように僕がそのskillを、そのハーネスを作ったskillが足りなかったのかもしれないし。なのでずっとああでもこうでもと試しているところなんですがでもこういうふうに、これがあの有名な「オッパはカチカチ屋だ」という歌を替え歌にして笑いどころを作ったでもこれで面白いのは何が面白くて何が面白くないかはモデルたちが最近、冗談を、解説するのはすごくうまいんですがそれをその程度の水準に作ろうとするのは僕がちょっと整理したところでは現在のレジームはプレトレーニングで全部叩き込んでミッドトレーニングでドメイン訓練をさせてポストトレーニングでRLプラス環境にハーネスまでやるということではこの冗談みたいなものは捉えられない側なんだ。投資していない可能性もあるし捉えられないものなのだというのが暫定結論なんです。

ロ・ジョンソク 46:38 みんなここにはあまり関心がないでしょう、多分。

チェ・スンジュン 46:40 そうかもしれないし、そうでもないかもしれないと思うほうですが今このインダストリーにいる人たちはみんな極Tの集合体なのに

ロ・ジョンソク 46:49 Fの領域はevaluationをどうすればいいのかも分からない人たちがほとんど大半だと思うので。

チェ・スンジュン 46:55 でもFの領域にもビジネスは多いんじゃないですか。

ロ・ジョンソク 46:57 そうでしょうね。ええ、でもそこに誰かがまた道を開けばまたそっちに一気に行くでしょうしこういう部分が実は僕たちが逃げ込むのにいい領域なんですよ、実は。それで、でもまたイ・ジヌォンさんがその話をメッセンジャーでしていて

チェ・スンジュン 47:13 価値関数という言葉とつながっていそうだというその言葉が僕にも響いたんです。でもまだそれをどう実装するかは知られていることがないようだ。感情が価値関数という言葉とつながっているというのはまだよく分かっていない領域だ。

ロ・ジョンソク 47:28 value function = evaluation metricじゃないですか。みんな似たような話ですね。でも質はかなり違っていた。散文と、ある種の笑いどころを生み出すことは

チェ・スンジュン 47:40 現在のやり方ではそう簡単にできる感じではない。Andrej Karpathyがとにかく言っていたことを僕も確認したわけです。はい、良い文章を書くためのRL環境はかなり発展している気がします。

ロ・ジョンソク 47:51 僕たちも前に、去年の論文でもたくさん見た気がするし最近は論文を読む時間があまりにもなくて見なくなっているんですが、以前Kimiとかこういう論文でもかなりの量を投入していたのがon-policy、ただモデル自身の能力を使って良い文章について絶えず行うRL環境はかなり重要に扱われていたと記憶しています。でもそこに詩や冗談は当然ない気がします。僕のpriorはそうだった気がします。

チェ・スンジュン 48:17 なぜなら、ギャグを練るという表現があるじゃないですか。そのコメディアンたちも会議をしながらああでもこうでも仮説を立てて、こういうのを実験してみて評価会みたいなことをやってそれ面白くない、面白くない、面白くない、そういうことをやりながらそれを削っていく作業をするんですがそうやって似たようにやればよさそうだったものの実際に出てきたものを見るとそうだし、好みに関することでも

48:37 また今週インサイトがあったんです。何を好きかだけが好みなのではなく何を嫌いかがものすごく強力な好みなんですよ。プロンプトで拒否、私は何らかの理由でそれを採用しないということがあるときぱっと私が感じるには、文章の質が良くなりました。

ロ・ジョンソク 48:54 それもフィードバックですからね。好みというのは好きなものだけの好みではなく

チェ・スンジュン 48:59 嫌いなものもものすごく重要なシグナルなんだなと。それからまた面白いのは

49:04 最近こういうふうに作業しているものたちがみんなループ性を持つようになっているのでこういうことを人と一緒にやっているとエージェントが回っている間に何をすべきなのか。最近、何人かの方たちとワークショップのようなことをするときにまた思うのはこういうふうに何か合意してエージェントに仕事をさせたあとで人は何を面白くできるのか、こういうこともまた興味深いポイントなんだなと。それをソーシャルコーディングだと話す人たちもいますがエージェントたちに仕事をずっと与え続けることはできますがそれでもそれが回っているあいだに何人かでどんな会話を交わすかとかどんなアイデアを出すかとか次に何をするか計画を立てることをちょっとやってみられるんじゃないかと思って少し実験していることがあるんですがそれはまた、この件に関連して後で一度お話しします。

49:53 締めくくりとして、私が今週の経験を少し圧縮して仮説をもう一つ考えてみました。暗黙知に関するリバースエンジニアリング仮説。ある人物が成し遂げた何らかの成果物があるときその成果物を生み出すことが期待される最小限のハーネスと受け入れ条件、およびそれらを自ら引き上げていくブートストラッピングループとして作動するリポジトリを作る。何であれリポジトリを作らなければならないなと最近思っています。

ロ・ジョンソク 50:20 はい、メモリ。リポジトリにはいろいろなファイルが入ることもありますし。リポジトリには成果物へと漸近していく過程が副産物として、MDファイルであれコードであれコミット履歴であれ残る。もしそのブートストラッピングループが受け入れ条件を通過して成果物に準ずるものを作ったならそのレベルの別の成果物が生成されるかカバレッジを広げながら繰り返しつつ、ループをもう一度進める。

チェ・スンジュン 50:47 するとこの仮説で最も実装が難しい部分はどの部分なのかという問いが浮かんできてもし自分自身の暗黙知を、なぜなら自分で文章を書いて自分でハーネスを作れるじゃないですか。だからそれを自分でうまく評価できるので自分の暗黙知を搾り出すことに成功して複製可能になったなら、そのとき自分の価値は何になるのか。あなた自身は複製できるのに他人は複製できない条件があるのか。この問いが浮かんだんです。自分が複製できるなら他の人も複製できるんじゃないですか。そうではあるんですが、それをもう少しよく知っている人、

ロ・ジョンソク 51:19 そのskillがあるからこそ上手な人の価値があってもちろんその価値がLLMのせいで光速で減っていっているのが問題なんですが結局はこれらすべてがタイミングの問題へと少し漸近していく気がします。私が早くやったことの時間価値はいくらなのか、相対的な時間価値。そして他の人たちがこれをカチッとしてコピーするのに

51:41 これがone 딸깍 awayなのかthree 딸깍s awayなのかが重要なんです。だからその時間感覚を、これからはビジネスの世界でその会社の価値、その人の価値としてevaluationする可能性が高いですよね。誰かがいつも新しいものを真っ先に出していればそういうもの自体はみんなが持っていけるとしても実はバッグは誰でも作れるんです。それにもかかわらず人々がエルメスのバッグを買う理由はそれが何かをずっとやり続けてきたからそれがブランドになったわけじゃないですか。するとブランドになると人々はまたそこに集まっていきます。

52:15 するとそれらをカチカチやる人がいるとしてもまったく同じようにみんなが棍棒を削るような、そんな老人がいるとしてもいちばん上手なのは長いあいだ繰り返してきた人でそうだとすれば、その才能が完全にみな平等だったとしても、人々はあれを買うんです。なぜなら、そのブランドに対する選好が生まれるから。だから私は、スンジュンさんがおっしゃったこのループは本当に全部その通りの話でその次に、こういう世界を私たちはすでに生きているんだという気もするんですがそれにもかかわらず私たちが逃げ込める領域は依然として生まれ続ける。

チェ・スンジュン 52:53 ロさんがこれまでおっしゃってきた話を見るとロさんはご自身をこの暗黙知を自動化したいんじゃないですか。かなりやっています。かなりやっていて、それをやりながら

ロ・ジョンソク 53:02 実際、現実ともかなりぶつかります。会社でもあのfunction、このfunctionは自動化しなければならないと思ったけれどその自動化する過程自体をまったく理解したがらない人たちもいるしそれに自分たちが慣れ親しんだ組織構造を早くまた作ってほしい。それにもかかわらず人が全部やらなければならない仕事があるんじゃないかと言うんですが私は、いやその人が今は人にしかできない仕事だけれどあの部分を自動化していかなければならないという一種のmanifestoが私にはあってその基底が違うので意見は分かれるんです。だからそういう部分が

53:39 これが私にだけ起きることではなくこれから別の世界でもみな起こることなんだろうと思うしそして私が最近練習しているのは科学論文あるいは他人が作っておいたハーネスあるいは何らかのarticle、そういうものがあるとき私は今、その暗黙知の領域の中でものすごく重要な能力になるのは、その曖昧な領域で何を目標として設定するかという能力がまだLLMに聞いてみてもこいつがうまくできない場合が多いんですよ。エンジニアリングだとか、あるいは数学や科学みたいな場合にはこいつは私よりずっと多くを知っているからあるいは私がその部分をあまり知らないからこっちよりうまくやることが多いんです。例えば、さっきの現実におけるそういうビジネス的な判断だとか、もう少し文章に近くて人に近い、そういう領域においてはこいつはmetricをうまく作れないんです。じゃあそのmetricを定義すること、どこまでが成功でどこまでがどの方向への進歩なのか、ということが結局その人の能力なんだと思います。そういうふうに私は最近、自分のあらゆる問題を全部置き換えて解いているんです。

54:47 成果物がExcelだ、成果物がスライドだ、成果物がreportだと言うなら、それの目標は何か。経営学で言うOKRというものがあるんです。仕事と成果をどう規定するのかと言うとObjective and Key Resultsです。昔Googleにいたときにものすごく訓練されてそれだけでやっていたのが、いつの間にか人生にかなり染みついたんですが、何をするにしてもそれの目標は何かというobjectiveを強く書いて、その目標が達成されたとき、達成されるときに私たちが見る期待されるkey result、核心的な成果物は何か。expected key resultと言って、それがOKRなんですがそれをできるだけ感覚的に書かずに全部数字に置き換えて書けと言うんです。いつまでに何をローンチすると言うなら正確な日付がないといけないしそれらの期待されるvisualについてのことも全部describeされていないといけない。それがmatchingして、そのexpectationが合っていれば0.7とか0.8を与えるし、ずっとうまくできたら1.0を与えるし、でなければ0を与えるし、そういうふうにして絶えずobjectiveとkey resultに報酬を与える実験をしてきたことが今の自分が何かをするうえでもすごく役に立っているんだなと。

56:00 auto researchでもOKRを使うんです。いちばん最近の経験はそのハーネスで、例えば私は今、自分だけのハーネスでChedexというものを作ってCodexの上に少し載せて使っているんですがかなり濃いRalph loopとauto research loopとその次にUltraworkみたいなものを持ってきたんですがその持ってくる過程で使ったのも似たようなループなんです。では結局、似たようなものをどう適用するのか。すると私の目標は、このCodexのbaremetalのバージョンはどんどん上がっているけれど、その上がるたびに変わるその点について新しく入ってきたnative featureとすでに私たちが作っておいたChadexにあったfeature、そして私がreferenceにしていたイェチャンさんのOh My Codexだとか、そういうものその間で、じゃあそれも変わるしOh My Codexも変わるし、その次にnativeも変わってChadexも変わる、こうなるんですが私が欲しいのは何なのか。nativeをできるだけ維持しながらnativeが提供するhookの機能だけで一種のgoverning structure、loop structureを組んでそれでも向こうにある機能を持ってこないといけないとなるとその合間合間で何が正しいmetricなのかを定義してやらないといけないんです。向こうにあるのはobjective B、こちらにあるのはobjective A、成果物C、こう置いてこれとこれのdeltaをscalarで定義してあれとあれのdeltaをscalarで定義してある程度featureが取り出せたらそのときからはもうCという結果物を置いて自分自身の自己改善ループを回すんです。auto research loopをかけてこの文書とコードの整合性、それからコードが戦略的に持っている何らかの問題点、こういうものについて徹底的に問い詰めるんです。だから、お前がdefectとして見つけ出したものの数が0になるまでループを回し続けろと言うといわゆる中途半端に搾り取ってきたものがだいたいの目的性として抽出されてくると実際にはobjectiveという賞を持ってくるわけじゃないですか。すると自らrecursiveなループを回しながらこのモデルの能力から引き出したその優秀さのために自分で進化するんです。0になるまで、そうやってそういうものが全部matchingして、私の計算ではそのmetricの範囲の中に入っていれば私はその間、中間成果物やコードやそういうものを一度も見たことがないし開いてもいないんですが2時間くらい回るんです。2時間回して終わったら、それを配布して私はそれを信じて使うんです。

58:45 そんなふうに、この業務ループをかなり全部変えています。だから人と何か仕事をするときも誰と何をするときもobjectiveとkey resultsをできるだけモデルがverifiable rewardの形でscalarのvalueの形で受け取れるように定義することが、最近の私のあらゆる仕事になっているんです。だから効果がすごくいいんです。だから今、似たような話の

チェ・スンジュン 59:13 別の変奏だと感じられはするんですがとにかくそれをverifiableに翻訳する能力が今は重要なんですよね。そこにdependencyがあるわけです。でも今、私がさっき言い漏らしてやらなかったのがこれはAnthropicが今週公開した長時間アプリケーション開発のためのハーネス設計図にも

59:32 ほとんど同じ話があるんです。そしてこれは、私がいくつか強調しておいたんですがGANのアイデアを使いました。Generative Adversarial Networkの着想を受けてエージェント評価器とエージェントから成るマルチエージェント構造なんですがこれもRalph loopなんです。やろうとしていることがデザイン領域において主観的な判断を具体的に採点可能な項目へと変えてくれる基準の集合を開発しようという序論が出てきてこれも結局は点数化するということなんですよね。一見すると点数化しにくいものなんです。そのままではだめだったのですが、それをどうやって単純な実装ではなくハーネスを削り出して積み上げてどうやったのかというストーリーがあっていちばん最後の部分に飛んで見ると、一度読んでみますね。次には何が来るのだろうか。モデルが良くなり続けるほど、たいていはより長く働きより複雑な作業をやり遂げられるようになると期待できる。場合によっては、モデルの周りのスキャフォールディングは時間がたつにつれて重要性が下がり、開発者は次のモデルを待つだけでも一部の問題を自然に解決できる。その一方で、モデルが良くなるほどベースラインだけではできない複雑な作業を達成するハーネスを開発できる余地もさらに大きくなる。この点を念頭に置くと、今回の作業から今後にも持っていけるいくつかの教訓がある。自分が土台にしているモデルを直接実験してみて、現実的な問題でその trace を読み、望む結果が得られるように性能を調整することはいつでも良い習慣だ。より複雑な作業では、作業を分解しそれぞれの側面に特化したエージェントを適用することから追加の余地が生まれることもある。そして新しいモデルが登場したら一般的にはハーネスを見直してもはや性能の鍵ではない部分は取り除き以前は不可能だったより大きな能力を引き出す新しい構成要素を追加するのがよい。今回の作業を通じて私が持つようになった確信はこうだ。モデルが良くなるほど、興味深いハーネスの組み合わせの空間が狭まるのではない。むしろその空間は移動する。そしてAIエンジニアにとって興味深い仕事はその次の新しい組み合わせを探し続けることだ。僕が話していた部分の、ある種まとまったエディションですね。まさに僕も正確にこう考えています。今はみんな認識は同じです。2026年現在、何が可能なのかという認識はみんな同じでだから重要なポイントはこの drift という表現を最近よく使うじゃないですか。もともと何か、僕たちが目的とするものとどれだけ隔たりがあるか、そのデルタ。その部分を僕たちは drift と表現していてこれがかなりまた流行語になりつついるのですが僕はその drift の基準点を常に最新のフロンティアモデルと、そのフロンティアモデルに正確に合わせ込まれたハーネスの最前線に置いています。それが移動していくんですよね。それがどんどん良くなっていくんです。それがどんどん良くなっていくのですがその良くなることによって、実は以前はできなかったこと、さっき話したように僕が新薬開発もできる世界になったわけです。僕は新薬開発をやってみようとしていてそういうことのためにはまた別のハーネスが必要なんです。新しいハーネスについての何らかの definition があるはずじゃないですか。それが僕はAI時代に僕たちみんなが追求すべき価値の地点だと思います。こういうことを経験し続けながら僕も次の挑戦の領域はここで、本質はここでここにもっと執着すべきなんだというそういうものが少しずつ生まれてきている気がします。移動という面では、またうわさがあります。次のモデルについてで、だからこれはこのカピバラというのはモデル名ではなくて正確ではありませんがOpus の次の tier だと。はるかにもっと良いモデルだ。Opus の次がカピバラだという話がうわさとして少し出ています。現在の Opus はKimi や DeepSeek のようなモデルを見るとフロンティア級の性能に近いものを出しているのが 1T くらいで1T から 2T くらいの間でOpus と Gemini 3.1 もその程度だろうという推定が多いようでした。真実は Andrej Karpathy くらいなら知っているかもしれませんが僕たちには分からなくてそれで、うわさでは内部モデルが 10T だ、そんな話はありますが、出てみないと分からない10T、Elon Musk が次のモデルだと言っていたのも7T だと言っていたんですよ。7T だと言っていたので、その 10T ならこれは今はサービングできないけれど、またやるんじゃないですか。実際、コンピューターをもっとつなげればいいだけなんですがとにかく、でもアーリーアクセスを提供するという文書が流出したということでそういうことが今週の後半に少しありました。当面の問題は、今週 Claude に障害が多かったことでした。需要が高いのかな。需要が今かなり増えていてそれで、こういうのが止まったらどうなるんだろう、前にも一度言及した『地球が静止する日』をもう一度思い出します。それで、ひとまず今日準備したのはここまでです。それでも私の観察では、冗談では済まないというのが現在の観察なのですが、もしYouTubeをご覧の方の中で挑戦してみたいという方がいて、成功ケースがあればコメントで知らせてください。今週はデルタを一度出してみましたね。僕たちが Andrej Karpathy の回答内容は実はかなり本質的な内容が多いので一度ずつスンジュンさんが準備してくれたスクリプトを読んでみるかモデルに入れてやり取りしてみることをやってみるのがたぶん大きな助けになると思います。それではまた私たちは次回にはい、また次回、来週の内容を持って話をしてみようと思います。それでは今週はここまでにします。ありがとうございました。