EP 95: DeepSeek-V4 논문 읽기

GPT-5.5와 DeepSeek-V4로 시작한 이번 주 AI 뉴스 00:00

00:00 노정석 녹화를 하고 있는 오늘은 2026년 4월 26일 일요일 아침입니다. 이번 주에 굵직한 소식들이 많았습니다. 구글 클라우드 넥스트가 열리고 있고, 소문이 무성하던 GPT-5.5가 드디어 나왔습니다. 성능은 그야말로 넘사벽이고요. 그런데 무엇보다도 중요한 소식은 DeepSeek-V4 출시일 것 같아요. 정말 싸졌다, 가성비가 정말 좋다는 이야기들이 많은데 중국의 프론티어 랩들이 심상치 않아요. 저희가 인지하고 있는 것만 거의 5개 정도 되는 것 같습니다. DeepSeek과 Kimi, GLM으로 유명한 Z.ai, 그 유명한 Yao Shunyu가 최근에 텐센트로 이전해서 Hy3을 만들었고, 또 DeepSeek에서 혁혁한 공을 세웠던 어떤 분이 샤오미로 넘어가서 MiMo라는 프론티어 모델을 내놨죠. 그 정점에 있는 것은 DeepSeek이라고 할 수 있는데, DeepSeek이 드디어 R1 이후로 거의 1년 4개월 만에 V4를 들고 나왔습니다. 오늘 DeepSeek-V4를 한번 자세하게 짚어보는 게 좋을 것 같아서, 영국에 계신 성현 님과 함께 오랜만에 자리를 갖게 됐습니다. 성현 님 어서 오십시오.

중국 프론티어 랩 지형 속 DeepSeek의 위치 01:06

01:17 김성현 이번 주 굉장히 재미있었습니다. GPT-5.5도 나왔고 여러 가지 소식이 있었지만 DeepSeek-V4가 오랜만에 연구적·기술적 측면에서 굉장히 재미있는 소재를 준 것 같아요. 마침 GPT-5.5도 그렇고, 소문의 Claude Mythos도 그렇고, 전부 pre-training 된 base model을 업데이트하고 있는 상황에서 DeepSeek도 pre-training 된 base model을 업데이트했습니다. 그리고 다른 회사들과는 다르게 DeepSeek은 자신들의 업데이트된 모델에 대해서 굉장히 솔직하게 얘기를 하죠. DeepSeek에서 샤오미로 옮겨서 지금 LLM을 리딩하고 있는 유명한 Luo Fuli가, 중국이 아마 pre-training 측면에서 미국을 따라잡았거나 혹은 어쩌면 기술적으로 더 나은 부분도 있을 것이라는 얘기를 했었는데, 그것의 정점을 보여주는 사례가 DeepSeek-V4가 아닐까 싶습니다. 동시에 여전히 중국이 post-training에서 미국에 밀리는 점이 있다는 이야기도 하고 있는데요, 그것에 대한 단서도 되고 있는 게 DeepSeek-V4가 아닌가 하는 생각이 듭니다.

02:22 DeepSeek-V3에서 V4로 넘어가면서 모델 크기가 굉장히 커졌고요. 아키텍처 측면에서도 굉장히 큰 변화가 있었습니다. 그 변화들이 모두 흥미로웠고요. 더 나아가서 이 리포트가 보여주는 건, DeepSeek 팀이 지난 1년 동안 엄청난 고생을 했구나, 굉장히 고통스러운 과정을 거쳐 왔구나 하는 점이 많이 드러난다는 것입니다. 그런 측면에서 굉장히 흥미로운 리포트이고요. 동시에 DeepSeek-V3가 중국 내 많은 프론티어 모델의 base가 되었거든요. Kimi 같은 모델의 경우는, DeepSeek-V3보다 아키텍처를 개선하기가 굉장히 힘드니 그 시간을 쓸 바에는 그 아키텍처를 그대로 채택하는 것이 훨씬 낫다고 판단해서 실제로 그렇게 채택하기도 했습니다. 그런 측면에서 보면 아마 앞으로 나오는 중국 모델들의 새로운 base model이 되지 않을까 하는 생각도 듭니다. 동시에 DeepSeek 팀이 이 아키텍처에 대해서 굉장히 고통스러운 과정을 거쳐 왔기 때문에, 그것을 다시 재현하는 데 있어서 중국 팀들이 많은 고생을 하지 않을까 하는 생각이 함께 들기도 합니다.

1.6T로 커진 DeepSeek-V4의 모델 확장과 아키텍처 변화 03:34

03:34 DeepSeek-V4는 일단 모델 크기가 커졌습니다. DeepSeek-V3는 작은 모델이 없었죠. 600B 정도의 모델이었는데 1.6T 모델로 커졌고요. activated parameter도 약간 더 커졌습니다. 제 기억으로 V3는 37B 정도였을 겁니다. 그리고 작은 모델이 같이 나왔고요. 작은 모델을 꼭 같이 내더라고요. 선후 관계가 있는 건 아니고 동시에 학습시켰을 수도 있습니다. 작은 모델도 나왔고, 그다음에 아키텍처 변화가 굉장히 크게 있었는데, 한 큰 축은 sparse attention입니다. 다른 한 큰 축은 mHC라고 불리는 아키텍처 개선이고, Muon optimizer는 요즘 중국 모델들이 다 쓰고 있는 optimizer이고요. 그 측면에서 모델의 결과적·성능적 변화는 이 세 개의 그래프가 가장 잘 보여주고 있는 것 같은데, base model의 성능과 post-training 된 모델의 성능이 크게 올랐고 동시에 long-context 측면에서의 비용이 굉장히 크게 감소했습니다. 연산 소모량 자체가 감소했고, 메모리 부담과 관련된 KV cache의 크기 자체도 굉장히 크게 감소했습니다. 여기에 가장 크게 관련된 건 역시 sparse attention이고요. 그리고 이 sparse attention 때문에 아마 DeepSeek 팀은 굉장히 큰 고생을 했을 겁니다.

연산량과 KV cache를 줄이는 Sparse Attention 04:03

04:55 노정석 sparse attention의 수식들을 저도 다 들여다보지는 못했습니다마는, 거의 연금술 수준으로 “이렇게 하면 될까” 싶은 것들을 다 만들어내더라고요. 그래서 이 오른쪽 그래프를 해석해 보면, context가 길어지면 길어질수록 원래 연산량이 굉장히 늘어나야 되는데 그 부분이 굉장히 낮은 수준에서 유지되고 있다는 것을 차이점으로 인지하면 될까요?

05:24 김성현 예, attention은 기본적으로 하나의 토큰에서 그 이전의 모든 토큰을 참조해야 되는 거죠. 그렇기 때문에 sequence의 길이, 즉 입력의 길이가 길어지면 길어질수록 연산 요구량이 계속 크게 증가합니다. 이 증가 속도를 굉장히 크게 감소시킨 거죠. 그리고 전반적인 규모 자체도 크게 감소시킨 거고요. long-context 측면에서 굉장히 중요한 변화입니다. 그리고 동시에 long-context 상황에서 attention은 이전 토큰 모두를 참조해야 되기 때문에 이전 토큰을 모두 메모리에 저장해야 됩니다. 그렇다는 건 메모리 소모량이 context 길이의 증가에 따라서 굉장히 크게 증가한다는 거고요. 그런데 그것 자체도 동시에 굉장히 크게 줄였습니다.

06:09 그리고 이게 long-context 측면에서 중요한 거고, long-context가 중요하다는 얘기는 사실 작년, 재작년의 얘기죠. DeepSeek-V3에서도 long-context가 굉장히 중요한 것 같으니 이 부분을 계속 개선하고 싶다는 언급을 했었습니다. long-context의 중요성이 그때보다도 훨씬 더 커진 상황이 됐죠. 그때의 long-context 중요성이 “문서를 좀 많이 넣고 싶다” 같은 느낌이었다면, 지금의 long-context 중요성은 agent 맥락에서 중요해지는 상황이 있거든요. 다룰 수 있는 context의 길이가 길어지면 길어질수록 agent 측면에서는 다룰 수 있는 문제의 복잡성과 규모가 커지는 거죠. 이전이라면 입력의 길이와 용량이 늘어나는 정도였다면, 지금은 이 모델이 할 수 있는 작업의 규모와 복잡성이 늘어나는 쪽과 연관되게 되었습니다. 그런 측면에서 long-context는 이전에 비해서도 훨씬 더 중요한 의미를 갖게 됐다고 볼 수 있을 것 같아요.

07:13 그 맥락과 결합해서 생각해 보면, DeepSeek-V4가 그 측면에서 굉장히 큰 개선을 이뤘고, 그 개선이 다름 아닌 아키텍처적인 혁신을 통해 이루어졌다는 게 굉장히 흥미로운 부분일 것 같습니다.

07:30 노정석 맞습니다. 그래서 결과적으로 여기 아래 문장에 쓰여 있는데, Pro 기준으로 — 사실 Pro는 지난 세대 V3보다 거의 2.5배에서 3배 정도 용량이 큰 모델인데 — 이 Pro 기준으로도 토큰 연산에 들어가는 연산량이 27% 정도로 줄었다, 거의 3분의 1이 된 거죠. 그리고 메모리 소비량은 10분의 1이 됐네요. 10%로 줄었다. 이 두 개의 그래프가 보여주는 게, DeepSeek-V4가 이번에 보여준 진짜 큰 한 방이지 않을까 하는 생각이 듭니다.

08:04 성현님, 그럼 이 내용들 한번 더 깊게 들어가 볼까요?

08:09 김성현 가장 중요한 부분이 바로 이 sparse attention이 될 것 같습니다. 이 부분으로 좀 더 넘어가야 될 것 같네요. 여기서부터 시작해야 될 것 같은데, sparse attention이라는 게 무엇인지부터 잠깐 소개해야 될 것 같습니다. 방금 말씀드렸던 것처럼 attention은 기본적으로 이전의 모든 토큰을 참조합니다. 하나의 토큰에서 이전 모든 토큰을 참조하게 됩니다. 그러니까 결과적으로 context의 길이가 길어지면 길어질수록 연산 소모량과 메모리 요구량이 늘어나는 구조죠. 그래서 그 부분을 개선하고 싶다는 생각을 많이들 했습니다. DeepSeek 자신도 R1이 나온 이후 얼마 지나지 않아 Native Sparse Attention이라는 것을 들고 나왔었어요. 이전의 모든 토큰을 참조할 필요가 있는가 하는 생각이 들게 되죠. 특히 context가 길어지면 길어질수록 하나의 토큰에 대해서 이전 모든 토큰이 다 중요한 정보나 의미를 갖고 있는 건 아니잖아요. 그렇기 때문에 소수의 토큰만 볼 수는 없을까, 어떤 중요한 소수의 토큰만 볼 수는 없을까 하는 생각을 하게 되고, 그게 sparse attention으로 이어집니다. sparse attention이라는 것은 전체를 참조하는 게 아니라 그중에 매우 일부만 희소하게 참조한다는 것이고, 그게 sparse하다는 것으로 이어집니다. 희소하다는 거죠. 전체를 다 보는 것이 아니라 보는 토큰은 그중에서도 희소한 일부라는 의미가 됩니다.

from-scratch 학습으로 보는 Sparse Attention의 의미 08:16

09:36 그것들을 사실 DeepSeek이 작년 초에 이미 들고 나왔었습니다. 굉장히 성공적이고 잘 되는 것 같다는 얘기를 했었죠. 그런데 그게 잘 되지 않았다는 교훈으로 보는 게 맞을 것 같습니다. 왜냐하면 DeepSeek 자신도 그 이후 DeepSeek-V3.2 같은 모델이 되면서 그 구조를 포기했었거든요. 사실 그 sparse attention에서 굉장히 중요한 부분 중 하나는 처음부터 sparse attention을 학습해서 from scratch로 pre-training 된 모델을 만들겠다는 것에 있었습니다. 그런데 그 구조를 약간 포기하는 듯한 행보를 보였어요. 그냥 dense attention, 즉 이전의 모든 토큰을 참조하는 attention으로 pre-training 학습을 한 다음, 이후에 post-training 개념으로 sparse attention을 얹자, 그래서 DeepSeek Sparse Attention이라는 얹는 구조를 들고 나왔거든요.

10:30 그게 왜 그런가 하면 아마 from scratch로 sparse attention을 학습하는 게 굉장히 어려웠기 때문일 겁니다. DeepSeek 자신이 그런 언급을 직접적으로 하지는 않았는데 sparse attention의 구조에 대해서 중국의 다른 많은 기업들이 실험을 하고 분석을 했습니다. 그런데 그쪽의 결론은 어렵다였습니다. 학습하기가 어렵다. 특히 from scratch로 학습하기가 너무 어렵다는 거였습니다. sparse attention을 그냥 from scratch로 학습하기는 어렵고 역설적이지만 dense attention이 있어야 sparse attention을 학습할 수 있다. 이런 결론으로 흘러갔습니다. 그래서 그러면 타협이나 절충이 되는 거죠. sparse attention을 바로 처음부터 밀어붙이지 못하고 dense attention을 한 다음에 그 이후에 비용 감소를 위해서 채택할 수 있는 절충점으로 sparse attention이 등장하는 형태로 나왔습니다. 샤오미나 텐센트에서 나왔던 결론이 그런 식이었습니다. 그런데 DeepSeek은 그걸 하고 싶었던 것 같아요. sparse attention을 거의 from scratch로 학습하는 것. 여기서도 V4에서도 완전히 from scratch는 아닙니다. 초반 1T 정도, 1 trillion 정도 토큰은 dense attention을 학습해요. 그렇지만 나머지 30T 이상의 토큰에 대해서는 sparse attention을 학습하거든요. 그렇다는 거는 sparse attention을 통한 거의 from scratch pre-training을 밀어붙이고 싶었다는 것이고 아마 거의 성공적인 것 같습니다. 그런데 그걸 위해서 거쳐야 했던 과정들이 굉장히 힘든 과정들을 거쳤던 것 같아요.

12:01 그리고 아키텍처적으로도 굉장히 정교하고 복잡합니다. 그래서 sparse attention 부분에 많은 부분을 할애하고 있어요. sparse attention이 여기서 세 가지 component로 등장을 하게 됩니다. 한 가지는 기본적인 sliding window attention이라는 게 있습니다. sliding window attention이라는 건 기존의 dense attention하고 굉장히 비슷한데 토큰이 보는 과거 토큰을, 보는 토큰의 숫자를 제한하는 겁니다. 기존의 dense attention은 모든 토큰을 다 보는데 sliding window attention은 어떤 context length가 길어지더라도 한 토큰이 과거에 예를 들어서 500 토큰만 보게 제한을 시키는 겁니다. 그 attention이 기본적으로 들어가고요. 이거는 사실 지금 많이들 굉장히 많이 채택하고 있는 구조입니다.

Sparse Attention을 구성하는 세 가지 핵심 컴포넌트 12:10

12:49 그래서 이 attention은 sliding window attention하고 full dense attention을 결합한 구조가 지금은 default로 기본값으로 많이 사용되고 있는 구조라고 보시면 될 것 같아요. 다른 한 가지가 들어가는데 다른 한 가지 attention은 예를 들어서 1만 토큰이 있다고 하면 그 1만 토큰을 100분의 1로 줄여버리는 attention이 하나 들어갑니다. 그래서 1만 토큰을 100분의 1로 요약한 다음에 그러니까 예를 들어서 각 100토큰을 한 개의 토큰으로 압축한다고 보시면 될 것 같아요. 압축한 토큰, 1만 토큰은 100분의 1로 압축하니까 100토큰이 나오겠죠. 그 100토큰에 대해서 full attention을 하는 attention 구조가 하나 들어갑니다.

13:33 가장 복잡한 구조가 Compressed Attention, Compressed Sparse Attention일 텐데요. Compressed Sparse Attention은 이 context를 약간 압축합니다. DeepSeek에서는 4분의 1로 압축을 하거든요. 4분의 1로 압축을 한 다음에 4분의 1에서 상위의 일부만 상위 top-k에만 attention을 하는 sparse attention이 들어갑니다. 이 3개의 attention의 결합을 통해서 DeepSeek의 long-context 지원을 위한 attention이 구성된다고 보시면 될 것 같고요. 각각의 구조와 구조가 야기하는 구조적인 변화나 이걸 다시 또 이렇게 만들더라도 이걸 효율적으로 추론하기 위해서 필요한 infrastructure가 또 필요하게 되거든요. 그 구조들 자체도 굉장히 복잡합니다.

14:24 노정석 그러나 이 그림에 intuition은 있네요. 일종의 아래에서 올라오는 KV를 가지고 와서 이 오른쪽 양쪽 끝으로는 이렇게 그대로 signal을 concatenation하는 라인들은 살아 있는데 이 가운데 있는 이 토큰 레벨 compressor로 두 개로 쪼개져 가지고 하나는 가서 query랑 결합해서 다시 MQA를 해서 뭔가를 던져주고 저기는 그냥 compressing한 게 올라가고 이런 것들이 그냥 찾아진 건 아니겠죠. 수많은 실험을 통해서 이런 것들이 되겠다고 하는 그 intuition들을 찾아냈겠죠.

15:07 김성현 거의 1년 걸린 겁니다. 이 연구들의 기반이 된 Native Sparse Attention이 작년 초 R1 이후에 얼마 지나지 않아서 나왔었거든요. 그리고 그 이후에 중간 단계로 절충안 같은 DeepSeek Sparse Attention이 나왔고요. 그리고 그걸로 끝까지 씨름을 하면서 나온 구조가 이 구조인 것 같습니다.

15:25 노정석 그렇죠. 여기가 작년에 DeepSeek-V3 내놓을 때 그 MoE 관련해서도 조금 재미있는 것들을 많이 했는데 참 DeepSeek이 거의 알고리즘적으로는 선두주자네요.

15:43 김성현 예, 최고 수준인 것 같습니다. 그리고 미국 쪽의 빅테크들은 자기들 아키텍처가 어떻게 생겼는지 공개를 하지 않기 때문에 그쪽에서 얼마나 발전해 있을지는 모르겠지만 제 생각에는 이 정도 수준이면 거기서 굉장히 발전된 것에 견주어도 동등하거나 어쩌면 더 나은 부분이 있을 수도 있는 모델이라는 것은 사실일 것 같습니다.

16:03 노정석 결과적으로 그림을 보고 있지만 성현 님은 DeepSeek-V4에 많은 칭찬을 한다, 얘네 정말 대단하다는 말씀을 주신 걸로 일단 생각하고 계속 넘어가 보겠습니다.

16:16 김성현 기술적으로도 경이롭고요. 세상에 이런 구조들을 만들어내고 동시에 구현을 해냈다는 것 자체가 그리고 학습에 성공했다는 것 자체가 놀랍기도 하고요. 동시에 그 과정이 얼마나 힘들었을까 하는 것들이 논문에 이미 굉장히 잘 드러납니다.

16:33 노정석 DeepSeek은 정말 이 프론티어 랩들의 프론티어 랩 포지션을 추구하는 것 같아요.

16:38 김성현 특히 아키텍처적인 측면에서는 그렇습니다.

16:42 노정석 맞아요. 새로운 알고리즘은 우리가 견인하겠다. 연예인의 연예인 포지션을 노린다는 그런 느낌이 들고, 그렇다고 봐도 무방할 정도로 참 잘한 것 같아요.

16:54 김성현 그래서 sparse attention에 대한 설명을 하면 좋을 것 같은데요. 사실 말씀하시는 것처럼 이 그림만 보면 이해가 되진 않지만, 이해하기는 어렵지만 이 그림 자체에 그 sparse attention의 핵심 구조가 많이 드러나 있습니다. KV cache는 이렇게 생각하시면 될 것 같아요. 이전 context의 토큰들이 있을 텐데 그때 각 토큰들마다 작은 크기의 벡터들이 부여가 되어 있고 이 벡터들이 모두 저장이 됩니다. 그러니까 모든 토큰들에 해당되는 벡터들이 메모리에 저장이 되는 구조인 거죠. 왜냐하면 그 토큰들을 모두 저장해 놓아야 attention을 사용할 때 이 토큰들과 이전 토큰들을 사용해서 계산을 할 수가 있으니까요. 그런데 각 벡터들이 아주 크지는 않은데 기본적으로 100만 토큰 같은 거 생각하면 이 토큰들의 규모가 굉장히 커집니다. 그리고 이 토큰들이 모델 전체에 대해서 한 번만 저장되면 되는 게 아니라 각 레이어마다 저장이 되어야 되거든요. 그렇기 때문에 레이어가 60개 있다고 하면 이 60개의 KV cache들이 저장이 되어야 되기 때문에 전반적인 메모리 용량이 상당히 무시 못 할 정도로 커집니다.

KV cache를 다루는 Lightning Indexer와 top-k 선택 17:10

18:20 1단계로 KV cache를 압축합니다. 4분의 1로 압축을 합니다. 크게 4분의 1로 줄이고요. 이 4분의 1로 압축한 다음에 4분의 1 중에서 일부만 뽑아냅니다. 일부만 뽑아내는 역할을 하는 게 Lightning Indexer라고 하는 부분이에요.

18:36 노정석 중요한 거죠.

18:37 김성현 Lightning Indexer가 굉장히 비교적 경량의 연산을 통해서 이 KV cache 중에서 뽑아내야 되는 벡터들, 토큰들을 찾아냅니다. top-k, 최상위 k개를 뽑아냅니다. 그리고 그 k개에 대해서만 attention 연산을 하는 겁니다. 이 context 전체에 대해서 하는 게 아니라요. 그게 핵심적인 아이디어입니다. 이렇게 생각하면 그렇게 아주 복잡한 흐름은 아니에요.

19:09 일단 압축한다. 숫자를 줄인다. 숫자를 줄인 다음에 숫자를 줄인 것 중에서 k개만 뽑아냅니다. 그리고 그 k개 뽑아낸 것에 대해서만 attention 연산을 한다, 이런 구조입니다. 다른 나머지 두 개의 component도 마찬가지로 어렵지 않고 단순합니다.

19:24 다른 하나는 k개를 뽑아내는 이 연산을 빼버리고 압축을 하되 그 압축률을 크게 늘린다. 100분의 1로, 100분의 1 이상으로 늘린다. 이 구조고요. 또 나머지 한 개의 component는 이 압축과 k개를 뽑아내는 걸 빼고 대신 attention의 범위를 제한한다. 예를 들어서 500개 정도로만 제한한다. 이 구조가 들어가 있는 거고, 그리고 이 세 가지 종류의 attention의 조합이 DeepSeek-V4의 long-context를 위한 attention의 핵심이 됩니다.

19:56 그런데 디테일로 넘어가면 이 구조가 상당히 복잡해요. 일단 attention을 압축하는 방법 자체가 상당히 특이합니다. 제 느낌에는 압축할 때 두 벌을 만들어서 그 두 벌을 결합하거든요. 왜 이렇게 했는지는 모릅니다.

20:14 노정석 되니까 했겠죠.

20:21 김성현 설명은 안 나와 있어요. 그 두 벌을 만든 다음에 두 벌을 합쳐서 계산한 다음에 다시 두 벌을 쪼개서 합치는 걸로 어떤 압축을 합니다. 왜 그렇게 했는지 모릅니다.

20:32 노정석 이쪽을 저희가 딥러닝 얘기하면서 참 연금술 같다는 이야기를 많이 하는데, 해보면 다 이 덧셈과 곱셈인데 저렇게 하니까 되더라고 하면 거기에 길이 생기는 거잖아요.

20:44 김성현 예, 아마 직관은 있었을 겁니다. 직관은 있었고 뭔가 연구적인 흐름은 있었을 텐데 왜 이런 선택을 했는지는 명확하지 않습니다. 아마 이 부분에 대해서 실제로 실험을 해보고 특성 같은 걸 보다 보면 뭔가 보일 수도 있을 것 같기는 해요. 그런데 이런 부분들이 아마 많은 시행착오를 통해서 얻은 결론일 겁니다. Lightning Indexer라고 하는 개념은 DeepSeek Sparse Attention이라는 이름으로 작년에도 아마 등장을 했었고요. 그 부분과 거의 동일합니다. top-k 계열을 찾아야 되는데 top-k 계열을 찾는 것도 쉬운 일은 아니거든요. 어쨌든 top-k를 찾는다는 건 그러니까 전체에서 최상위 k개를 찾는다는 건 어쨌든 전체를 다 봐야 되는 거잖아요. 전체를 다 봐야 그중에서 제일 현저한 k개가 무엇인지 찾을 수 있으니까요. 그 k개를 찾는 역할을 하는 것이 Lightning Indexer입니다.

Top-k 선택의 미분 불가능성과 학습 불안정성을 짚는다 21:36

21:36 그렇기 때문에 전체를 봐야 하기 때문에 이 부분은 상당히 경량이어야 합니다. 이 k개를 찾는 과정이 어떻게 생각하면 sparse attention을 굉장히 어렵게 만드는 부분입니다. sparse하다고 하는 것이 딥러닝에서 굉장히 늘 매력적이지만, sparse하다는 건 연산의 양을 줄여줄 수 있다는 의미이기 때문에 대부분에 대해서는 계산하지 않고 일부분만 계산을 하면 된다는 것이기 때문에 딥러닝에서 늘 매력적인 구조입니다. 그런데 동시에 딥러닝에서 sparse하다고 하면 늘 문제를 발생시킵니다. 왜냐하면 예를 들어서 MoE 같은 구조도 정확하게 그런 측면에서 sparse한 구조거든요. 왜냐하면 sparse하다고 할 때 굉장히 흔히 쓰이는 연산이 top-k 연산입니다. 그 전체에서 k개만 뽑아주는 연산. 그런데 문제는 top-k는 미분 불가능한 현상입니다. 기본적으로. 물론 선택되고 엄밀하게 말하면 선택된 것들에 대해서는 gradient가 발생하지만 이 선택하는 과정 자체에 대해서는 미분이 불가능합니다. 선택이 제일 중요한 부분인데 선택할 수 있는 이 선택을 학습할 수가 없는 거죠. 기본적으로는. 그렇기 때문에 이 부분에서 불안정하고 학습하기 어려운 부분이 발생합니다.

22:51 노정석 DeepSeek은 그런 부분을 어떻게 넘어섰나요?

22:56 김성현 그 부분이 이 전체 구조들이 모두 결합해서 아마 학습이 가능하게 만드는 게 아닌가 하는 생각을 합니다. 그러니까 이전에 중국에서 작년에 중국에서 나왔던 sparse attention과 같았던 중국 논문들이 이게 학습하기가 너무 어렵다는 얘기를 계속하고 있거든요. sparse attention 학습하기가 너무 어렵다. 사실 MoE도 sparse함의 측면에 의해서 학습하기 까다로워지는 부분들이 많이 발생하는데 attention의 측면에서는 그게 훨씬 더 강하게 작용을 합니다.

23:27 예를 들어서 선택지 자체도 훨씬 많아지거든요. 100만 개라고 하면 100만 개 중에서 k개를 뽑아야 되는 문제가 되는 겁니다. 문제 자체의 규모가 커지고 어려워지는 측면이 있어서 sparse attention을 학습하기가 어렵다는 것들이 공통된 결론이었고 그래서 sparse attention만으로는 상대를 하지 못하겠고 dense attention과 full attention과 결합을 해야만 sparse attention을 쓸 수 있는 것 같다는 얘기를 계속해서 했습니다.

23:52 그런데 이 문제를 DeepSeek은 정면 돌파를 한 겁니다. 그런데 정면 돌파를 했는데 모델 선택, 모델링적 선택의 측면에서 보면 굉장히 미묘해요. 그러니까 Native Sparse Attention이라고 하는 굉장히 초기 버전에서 흐름이 아주 크게 다르지 않습니다. Native Sparse Attention에서도 그 KV cache를 압축하고 거기에서 top-k를 뽑는다는 이 구조 자체는 거기서도 똑같이 등장을 하거든요. 그런데 구체적인 디테일의 측면에서의 차이가 있습니다. 그리고 어떤 조합의 차이도 있을 거고요. 이 다른 attention과의 조합의 차이도 있을 거고요. 그런 측면에서 보면 굉장히 미묘합니다. 그래서 왜 Native Sparse Attention은 안 되는데 이건 되는 거야라고 물으면 대답하기가 굉장히 어렵습니다. 바로 와닿지는 않아요.

24:37 노정석 그런데 사실 expert는 100 몇 개 중에서 고르면 되는 건데 이거는 100만 개 중에서 골라야 되는 거니까 사실 차원부터 너무 다르긴 하네요.

24:48 김성현 예, 그리고 MoE 같은 경우에는 load balancing이라고 하는 게 있어서 그것들이 학습에 많은 도움을 주는데 이 attention은 그런 거 쓰기도 좀 어렵습니다.

24:55 노정석 그래서 성현님이 계속 말씀 주시는 거를 중간에 좀 코멘트를 해보면 참 어렵고 신기한 주제였는데 이것들을 어떻게 되게 했는지 참 놀랍다는 그 뉘앙스를 계속 전달해 주고 계시는 것 같습니다.

25:14 김성현 예, 중국에서는 아마 안 되는 것 같은데 약간 자포자기 심정도 있었던 것 같거든요. 그런데 어떻게든 되게 만든 거죠. 그런데 되게 만들었는데 이게 왜 이렇게 하니까 왜 됐는지는 아직 잘 모르겠습니다. 이건 아마 앞으로 DeepSeek이 이렇게 하면 되더라는 걸 보여줬기 때문에 이게 왜 됐는지는 좀 더 많은 아마 시행착오가 발생할 것 같아요. 그리고 많이들 시도를 해볼 겁니다.

25:40 노정석 또 여기에 training 과정에서의 노하우들도 분명히 있겠네요. 복잡한

25:45 김성현 예, 추측하기로는 아마 이게 학습의 불안정성에 상당히 큰 기여를 하지 않았을까 싶습니다. 그 학습과 pre-training과 관련해서 많은 부분에 대해서 자기 자신들이 겪었던 불안정성 얘기를 하고 있거든요. 아마 여기 모델링적 선택이 학습 불안정성에 큰 영향을 미치지 않았을까 싶습니다. 여하간 디테일을 통해서 어떻게 만들었다는 건 확실하게 드러나 있거든요. 그리고 모든 부분을 공개했기 때문에 그거는 확실하게 알 수 있습니다. 그렇지만 이게 왜 이렇게 하면 되는지에 대해서는 아마 앞으로 추후에도 연구들이 많이 나올 것 같습니다. 많이 나와야 될 것 같고요.

26:21 노정석 또 DeepSeek이 그런 걸 감춰 놓은 상당 부분이 있겠죠. 이런 것들을 밖으로 자랑하지만 안으로 감추고 있는 그들만의 소위 암묵지가 분명히 존재할 겁니다. 아마 학습 과정의 노하우 부분에 많이 숨겨져 있을 것 같다는 느낌이 들고요.

26:41 김성현 그리고 아마 논문으로 다 정리하지 못하는 수많은 어떤 실험적인 증거들이나 경험들 같은 게 있겠죠.

26:50 노정석 페이퍼가 한 40페이지 정도가 되는데 단락 단락 단락이 다 굵직한 것들이에요. 느낌상 이걸 책 한 권을 써야 될 내용인 것 같은데 한 40페이지에 넣느라고 애를 많이 쓴 것 같습니다. 그리고 참고로 넘어가기 전에 말씀드리면 성현 님이 보여주고 있는 이 수식들 저도 봐도 대략 저게 뭘 의미한다는 그것만 알지 이해는 안 갑니다. 그러니 이게 이해가 안 간다고 해서 슬퍼하실 필요는 전혀 없습니다. 그냥 이런 느낌이구나 보고 넘어가시면 됩니다. 성현님, 다음으로 또 계속 넘어가 주시죠.

MLA 제거와 Muon Optimizer 도입 27:24

27:24 김성현 이게 이제 Heavily Compressed Attention에 대한 거고요. 그리고 동시에 돌아가면서 사소한 디테일인데 DeepSeek의 상징적이었던 MLA라고 하는 attention이 빠졌습니다.

27:34 노정석 그래요? 빠져도 되겠네요. 예, 빠져야 되겠네요.

27:42 김성현 예, 빠지는 게 됐고 MLA에 대해서는 Luo Fuli 같은 경우는 MLA는 안 쓰는 게 맞을 거다 이런 얘기를 하더라고요. 실제로. 그리고 아마 그렇게 되면 중국 모델들도 MLA를 버리는 쪽으로 많이 흘러갈 것 같습니다. Multi-Query Attention이라고 하는 더 단순한 구조로 들어가고요. 그다음에 Muon optimizer 들어갔고요.

27:58 Muon optimizer는 Adam optimizer 이후에 지금 굉장히 많이들 채택하고 있는 optimizer입니다. 중국 쪽 모델들 거의 대부분 다 이걸 쓰고 있고요. 학습 속도의 가속 효과가 있습니다. 학습 속도의 가속이라는 게 연산을 효율화하는 측면도 있습니다. 그러니까 연산 비용이 줄어드는 거죠. 그런데 학습 속도의 가속이 데이터가 제한적인 상황에서는 데이터 효율성의 증가가 되기도 합니다. 그런 측면에서 Muon optimizer가 굉장히 큰 주목을 받고 있고 지금은 거의 기본으로 많이 사용하고 있는 optimizer이기도 합니다.

28:39 그리고 이 부분에 대해서도 저는 약간 흥미로웠던 게 DeepSeek은 남들이 쓰는 기본을 따라가는 걸 싫어하는 것 같아요. 보통 많이 사용되는 Muon optimizer의 세팅이 있는데 그 부분을 약간 더 확장해 가지고 조금 더 정확하게 만들었습니다. 좀 더 정확하게 1이 되도록 만드는 수정을 좀 가했습니다. 그리고 이 부분에 대해서는 사실 중국 쪽에서는 Moonshot AI의 Kimi가 선구자이기는 해요. Kimi가 선도한 그런 선택들을 좀 많이 따오기는 했어요.

29:08 노정석 그리고 저희가 그 얘기하고 넘어갔었나요? Manifold-Constrained Hyper-Connections.

29:14 김성현 residual connection이라고 하는 구조가 딥러닝에서는 굉장히 핵심적인 구조죠. 이게 깊은 모델을 학습 가능하게 해주는 중요한 컴포넌트입니다. mHC는 아주 간단하게 요약하면 그러면 통로의 폭을 넓히자는 겁니다. 통로의 폭이 제한돼 있으니까 그걸 공유하고 제한된 통로 속에서 이후 단계까지 신경 써야 되기 때문에 제약이 너무 크게 발생하기 때문에 그렇다고 하면 통로의 폭을 넓혀 놓으면 거기에 대해서 여유가 훨씬 생길 거다. 그 제약이 실질적으로는 풀린다. 이런 구조라고 보시면 됩니다.

29:53 그런데 통로 폭을 무작정 넓히자면 비용이 굉장히 크게 발생하기 때문에 그걸 저렴하게 할 수 있는 방법이 없는가. 그게 Hyper-Connections였고요. HC를 안정화시킨 게 mHC.

30:01 노정석 Hyper-Connections가 그걸 해결하는 거였는데 Hyper-Connections을 Manifold-Constrained, manifold에 가뒀다. 이런 뜻으로 생각하면 되겠네요.

30:11 김성현 그걸 안정화시켰다고 보시면 됩니다.

30:14 노정석 그래서 저희가 DeepSeek 페이퍼의 알고리즘적 혁신, 세 가지로 이게 밀고 있는 게 첫 번째가 이 mHC였고 두 번째가 이 sparse attention 부분이거든요. CSA와 HCA로 설명된 이 부분이 그야말로 이번 DeepSeek-V4의 최대 공헌점일 게 sparse attention 부분일 것 같고 그리고 나서 Muon optimizer를 썼다. 이런 부분이 있었고요. 그러면 이제 그 알고리즘적인 세 가지를 조금 요약을 했고 다음으로 한번 넘어가 볼까요? 또 다른 포인트들은 어떤 게 있을까요?

30:51 김성현 알고리즘적인 측면에서 한 가지가 빠졌죠. 그 부분이 이제 앞으로 재미있는 주제가 될 것 같은데요. N-gram이 빠졌습니다.

N-gram 없이 정리한 DeepSeek-V4 알고리즘 30:57

노정석 아, 네네.

30:59 김성현 N-gram이 나와가지고 DeepSeek-V4에 들어갈 거라고 많이들 예상했는데 여기서 빠졌거든요. 그래서 앞으로 N-gram이 어떻게 다시 등장할지가 좀 더 재미있는 지점이 될 것 같습니다. 어쨌든 DeepSeek-V4에는 아직 없습니다. 그렇죠.

학습 인프라를 끌어올린 MoE pipeline 최적화 31:18

31:18 그리고 infrastructure가 나옵니다. infrastructure도 이제 만만치 않은 부분인데요. 한 가지는 MoE 부분에서의 최적화입니다. 이것도 어디까지 설명을 드려야 될지 잘 모르겠네요.

31:30 분산 학습이라고 하면 통신이 있고 연산이 있습니다. 그러니까 분산 학습을 하다 보니까 정보를 나누고 합치고 하는 과정에서 다른 어떤 worker들하고 통신을 해야 되죠. 통신이 있고 그다음에 실제 계산을 해야 되죠. 연산이 있습니다. 간단하게 생각하면 통신하고 연산을 동시에 할 수 있습니다. 그렇죠. 엄밀하게 말하면 완전히 그렇게 다 되진 않지만 기본적으로 겹칠 수 있습니다. 겹쳐야 합니다. 그런데 그냥 겹치는 게 보통은 겹치기 힘든 형태로 되어 있는 경우가 많이 있거든요. 알고리즘 자체는 겹칠 수가 없습니다. 통신하고 연산하고, 통신하고 연산하고 이런 구조가 됩니다. 그런데 이걸 겹치고 싶은 겁니다.

32:12 노정석 동시에 진행하고 싶은 거죠.

32:18 김성현 동시에 해야 되는 거죠. 그러면 연산 효율성이 엄청나게 증가하니까요. 그걸 위한 트릭 중 하나가 pipeline이라는 겁니다. 쪼개는 겁니다. 과제의 일부를 통신하고 연산하는 동시에 다음 일부를 통신하고, 그다음에 연산하고 통신하고 연산하고 하는 겁니다. 그 작업을 했습니다.

32:34 MoE에 대해서 사실 이전에 Comet이라고 하는 연구가 비슷한, 이걸 MoE에 대해서 한 연구가 ByteDance에서 나왔는데 그걸 개선했습니다. 기본적인 흐름은 이렇고 Comet이 개선했고 그걸 더 쪼개서 다시 한 번 더 개선한 겁니다.

32:54 노정석 사실 DeepSeek-V3에서도 이렇게 통신과 연산을 최적화하는 그런 부분들에 대해서 많은 설명을 했었고 그게 이제 본인들이 가지고 있었던 연산 자원의 한계, NVIDIA가 고급 칩을 중국에 수출을 안 했으니까 그걸 넘어설 수 있는 그런 단계로 썼다. 그래서 매우 저렴한 가격에 연산을 완료했다 해서 사실 1년 전에, 1년 반 전이죠. 그때 좀 한번 큰 충격을 줬었는데 이거는 이제 expert에 대한 거죠. 그 사이에 변한 게 있다면 전반적으로 모든 모델의 구조가 다 expert를 늘리는 구조로 됐고 그 expert를 학습하고 운용하는 과정 사이에 생기는 소위 이 bubble들을 어떻게 줄일 수 있을지를 한 번 더 개선을 한 거네요. Comet 대비.

33:34 김성현 네, DeepSeek-V3 같은 경우는 expert에 대한 비용을 pipeline parallelism이라는 거랑 겹쳐 가지고 해결했었는데 여기서는 그 MoE 자체를 개선했습니다. 그런데 사실 표현은 간단하지만 Comet이 엄청나게 복잡하거든요. 이걸 다시 한 번 더 복잡하게 만들어서 사실 저는 이거 별로 보고 싶은 엄두가 좀 안 나긴 합니다. 이렇게 아주 예쁜 다이어그램으로 표현했지만 이 내부의 디테일들이 어떤 형태일지 조금 두렵습니다.

인프라 효율을 높이는 Mega-kernel과 FP4 Quantization 34:08

노정석 네.

34:08 김성현 그리고 kernel 자체를 굉장히 개선을 많이 했습니다. 어느 정도 개선했냐고 하면 이 단락이 그걸 아주 잘 설명해 주는 것 같아요.

34:18 노정석 저 kernel이 뭐예요?

34:19 김성현 kernel이라고 하는 게 CUDA에서 올라가는,

34:22 노정석 CUDA에서 연산을 수행하는 그 kernel 말씀이시죠?

34:28 김성현 예, 그 kernel의 덩치를 mega-kernel이라는 형태로 굉장히 키웠고요. 그걸 연산과 통신을 최대한 압축시켜 가지고 연산의 밀도를 엄청나게 높인 겁니다. 연산의 밀도가 높아진다는 건 실제로 가속 프로세서에 엄청나게 더 부하를 가한다는 겁니다. 그리고 그게 어느 정도였냐고 하면 kernel의 밀도가 너무 높아져서 연산의 밀도가 너무 높아져서 전력 throttling이 걸리기 시작했다. 전력 수요를 감당하지 못하는 수준까지 수준이 됐다, 이 얘기를 합니다. 그러니까 이제 전력이 제약이 되는 거죠. hardware, 그래서 앞으로는 전력 인프라를 더 확충해야 될 것 같다는 이런 언급을 하는데 굉장히 낭만적인 이야기거든요.

35:12 TileLang이라고 하는, 이건 사실 TileLang이라는 건 DeepSeek과는 별개로 오픈소스이거든요. kernel 개발하면서 TileLang이라는 것과 협업해서 TileLang이라는 그 kernel 개발을 위한 DSL 언어에 대해서 많은 기여를 했다. 이런 얘기를 하고 있습니다. TileLang 자체를 굉장히 크게 개선했다.

35:30 노정석 한 블록 블록 하나하나가 참 내용들이 많아요.

35:33 김성현 integer 최적화를 해서, integer 최적화해서 TileLang을 개선했다고 하지만 이게 어떤 건지 여기서 별로 상상하고 싶진 않습니다. 이게 각각이 의미하고 있는 코드로 생각하면 이 코드가 어떤 형태일지 별로 상상하고 싶지는 않습니다. 이 모든 거 하나하나가 overhead들을 다 줄이고 연산의 밀도를 높이기 위한 작업들이라고 보시면 됩니다. 그리고 굉장히 흥미로운 부분 중 하나가 batch invariance인데요. 이것도 엄청 큰 기여인데 사실 이것도 이해하기가 쉽지는 않을 것 같긴 합니다. 그런데 이것도 굉장히 큰 기여고 Thinking Machines라고 하는 쪽에서 batch invariance에 대한 연구를 해서 blog를 내서 굉장히 화제가 됐었거든요. 그 batch invariance kernel들을 제대로 다 공개했는지는 모르겠는데 이 batch invariance kernel들을 DeepSeek이 다시 한번 공개를 했고 이 공개한 kernel들이 최적화를 굉장히 극도로 많이 해서 제가 알기로는 이게 batch invariance에 의해서 발생하는 overhead를 굉장히 크게 줄였다는 얘기를 합니다.

36:44 그리고 quantization이 들어갑니다. DeepSeek-V3는 8-bit quantization이 메인으로 들어갔었는데 여기서 한 번 더 밀어붙여 가지고 expert weight들 같은 경우는 MXFP4, 4-bit 압축을 합니다. 4-bit 압축인데 사실 GPT-OSS에서도 등장했던 거기는 해요. 그것들을 여기서도 시도했다고 보시면 될 것 같습니다.

37:06 노정석 NVIDIA의 최신 hardware들이 FP4를 메인으로 밀고 있기 때문에 이제 얘를 미리 쓰려면 이런 것들도 다 고려를 해야 되는 거죠.

37:18 김성현 예, 기본적으로 FP4 압축하면 모델 weight의 크기가 줄어들기 때문에 장점이 있고요. 이제 Blackwell부터는 가속이 들어가죠. 4-bit에 대한, 그리고 4-bit 압축까지 잘 되는 것 같습니다. expert에 대해서 4-bit 압축은 지금은 거의 표준이 되어 가는 것 같습니다.

노정석 오케이.

37:34 김성현 그리고 다음에 Muon에 대한 최적화들 들어가고요. mHC에 대한 최적화들, 그리고 DeepSeek-V4에 대해서 나오겠지만 또 굉장히 중요한 디테일이지만 나오겠지만 pre-training에서부터 long-context로 학습하거든요. long-context에 대한 최적화, 분산 long-context 학습에 대한 최적화가 들어가고요.

37:54 그리고 특히 여기서는 context를 압축하기 때문에 그 압축에 대응하기 위해서 다시 한 번 더 문제가 더 복잡해졌습니다. 거기에 대한 최적화 들어가고 activation checkpointing이라는 것에 대한 최적화 이상으로 여기서는 이제 그 부분을 좀 더 간단하게, 유연하게 만들기 위한 작업에 들어갑니다.

38:16 노정석 pre-training을 long-context로 학습한다는 게 pre-training부터 처음부터 그냥 아예 1M을 넣는다는 얘기죠? 엄청나네요.

38:24 김성현 1M도 포함된다고 보시면 돼요.

38:29 노정석 다른 모델들은 거의 처음 학습, pre-training 할 때는 4K, 8K context 아닌가요? 맞아요? 4K, 8K?

38:37 김성현 길게 하면 8K. 그리고 중국 쪽에서 4K도 굉장히 많이 했습니다.

노정석 네.

38:40 김성현 그리고 inference 최적화를 위한 작업들이 들어갑니다. 여기서 attention이 세 종류가 들어가잖아요. 그 attention 세 종류를 inference에 사용하기 위해서는 그 inference 인프라가 또 거기에 맞게 필요한 거죠.

노정석 네, 그렇죠.

38:54 김성현 그 작업이 들어갔습니다. 그리고 KV cache를 디스크에 저장하는 거, 이것도 약간 DeepSeek의 장기죠. 그리고 이제 pre-training이 나옵니다. 드디어 pre-training 데이터 부분이 나옵니다. 데이터에 대해서 많은 얘기를 하지 않아요. 32T 토큰을 준비했다고 합니다. 뭘 어떻게 준비했는지 잘 모르겠습니다.

32T 토큰과 long-context 학습으로 확장된 pre-training 39:02

39:12 노정석 어쨌든 고품질의 32T 토큰, 그렇죠. 그리고 long-context.

39:23 김성현 이 부분은 아마 뒤에서 얘기해야 될 것 같은데요. 그리고 아마 DeepSeek OCR 논문들 많이 냈잖아요. 이북 OCR 한 PDF 문서들과 이북이 굉장히 많이 들어갔을 겁니다. synthetic data가 요즘 굉장히 유행인데 synthetic data에 대해서 언급을 하고 있진 않아요. 합성 데이터를 많이 썼는데 언급을 안 하는 건지 안 썼는지는 잘 모르겠습니다. 안 썼을 가능성도 있을 것 같긴 합니다.

39:45 노정석 그래도 확률상 썼을 확률이 훨씬 높을 것 같아요. 사실은 저희가 불과 한 6개월 전까지만 보던 이런 페이퍼들도 대부분 pre-training 데이터셋의 크기가 15에서 20T 정도 됐는데 얘네 거의 지금 2배 됐거든요. 예.

40:07 김성현 흥미롭게도 언급을 전혀 하지 않습니다. 왜 그런지 모르겠습니다. 여기 비슷하게 언급하고 있는 논문이 있는데 이 논문은 synthetic data를 쓰면 안 된다는 논문이거든요. 그래서 어떤 것이 있었는지 잘 모르겠습니다.

40:16 노정석 사실 natural과 synthetic의 차이가 구분 짓기가 이제 어려운 세상이라고 봐야 될 것 같아요. 점점 더 그렇죠. 넘어가시죠. pre-training setup details.

40:30 김성현 그리고 이거는 디테일들이고요. training setup이 좀 중요한데 이 부분이 long-context pre-training입니다. 4K에서 시작해서 16K로 올린 다음에 거기서 한 1T 정도를 학습합니다. 그러면 나머지 30T는 64K 이상으로 학습합니다. 굉장히 흥미로운 부분입니다. 지금까지 중국 모델들에서도 이렇게 한 사례가 없었거든요. 64K로 학습한다는 건 이 규모에서 학습이 굉장히 효율적이라는 겁니다. 첫 번째는 attention은 기본적으로 흔히 얘기하는 제곱으로 증가하기 때문에 64K로 증가하면 여기서 비용 발생이 클 텐데 sparse attention과 여러 가지 최적화를 통해서 이 규모에서도 학습이 굉장히 효율적이다 라는 거 하나를 의미하고요.

41:18 나머지 하나는 이 규모의 데이터가 충분히 의미 있게 많이 있다는 걸 의미합니다. 그러니까 64K로 학습을 할 때 64K가 의미가 있으려면 최소한 32K 이상인 문서들이 충분히 많이 있다는 의미이거든요. 그런 데이터를 많이 준비했다는 거죠.

41:41 노정석 앞에도 데이터셋에 긴 데이터셋이라고 특별히 언급을 하더라고요.

41:47 김성현 동시에 한 가지 더 있다면 long-context로 오래 학습하는 게 의미가 크게 있다. long-context 능력에 의미가 크게 있을 거라는 걸 의미하는 거고 그렇다고 하면 중국 모델들도 전부 이 구조를 따라오게 될 겁니다. 그리고 이제 long-context 긴 길이에서 pre-training 하는 구조가

42:10 노정석 그러네요. 다른 모델들은 거의 4K, 8K로 pre-training 페이스를 거의 끝낸 다음에 맨 마지막 과정에서 context를 늘리는 작업들을 아주 약간 하잖아요. 그런데 얘네는 그렇게 하질 않았네요. 그냥 아예

42:20 김성현 예, pre-training 단계에 통합되는 겁니다. long-context, post-training, pre-training 이후 post-training 단계에서 long-context를 다룬다는 건 사라지고 그게 pre-training과 통합되게 될 겁니다. 그리고 그게 아마 long-context 능력에 대해서 실제로 크게 도움이 될 겁니다. 그리고 이게 이제 고통의 증거들입니다. 학습 불안정성.

학습 불안정성을 다루는 Anticipatory Routing 42:37

42:41 노정석 어떻게 training 불안정성을 줄이는가.

42:50 김성현 그런데 한 가지 재밌는 점은 학습 불안정성이라는 것 자체가 요즘 자주 안 나오는 이야기거든요. 요즘 LLM 만드는 쪽에서는 우리 학습 너무너무 안정적이다, 그런 얘기를 많이 합니다. 그런데 여기서는 학습 불안정성을 많이 겪었어요. 그런데 정확하게 왜 그랬는지는 잘 모르겠습니다. attention 때문인 것 같기도 하고 여기서는 MoE 쪽에서 불안정성의 원인이 많이 발생했다고 하는데 MoE에서도 약간 디테일적인 차이를 많이 줬거든요. 왜 그랬는지 모르겠는데 게이팅 부분을 약간 바꾸고 이런 부분에 수정을 많이 가했는데 왜 그런 선택들을 했는지 모르겠지만 그런 수정들을 했습니다. 그리고 아마 그런 수정들 때문에 학습이 불안정해진 것 같아요.

43:30 그 데이터 문제였을 수도 있고요. 그 부분에 대한 수정을 많이 했는데 clamping은 비교적 직관적입니다. 최대, 최소 어떤 값이 값의 범위를 제한시켜버리면 불안정성은 값이 너무 클 때 혹은 너무 작을 때 많이 발생하거든요. 그러면 그걸 제약시켜버리면, 제한시켜버리면 좀 나아지는 경우가 있습니다. 그거는 쉬운 구조인데 다들 이상하게 생각하는 건 Anticipatory Routing이라는 이 개념은 다들 좀 이상하게 생각합니다.

44:01 MoE를 routing할 때 어떤 expert로 이 토큰을 보내야 되는지 routing을 하거든요. 이 routing을 하는 걸 몇 step 이전의 학습 weight를 가지고 하는 겁니다. 과거의 학습 weight, 과거의 모델을 가지고 이 routing을 하는 그런 구조를 만들었습니다. 엄청나게 복잡한 구조고 이거를 효율적으로 학습에 쓰기 위해서 만들어야 되는 인프라가 엄청나게 복잡했을 거거든요. 그런데 이걸 구현해서 했습니다. 왜 그래야만 했던 건지가 미스터리해요. 이렇게까지 해서 이걸 구현해야 했던 이유, 이 과정이 좀 미스터리합니다.

44:39 노정석 이건 좀 두고두고 한번 씹어봐야 되고 누가 설명해 주기 전에는 이해가 안 될 것 같은데요. 네.

44:46 김성현 다들 이해를 못 하고 있어요. 이게 왜 되지, 이걸 왜 했지, 그리고 더 나아가서 왜 이걸 해야 할 만큼 학습이 불안정했지 다들 의아하게 생각합니다.

44:56 노정석 이거는 일종의 regularization이지 않을까라는 생각이 들어요.

45:00 김성현 예, 그럴 수 있죠.

45:08 노정석 일종의 너무 이렇게 뭔가 자기 루프가 강화되는 걸 막기 위해서 noise를 일단 섞어 놓았을 가능성도 있다. generalization을 위해.

45:14 김성현 결합이 연결되어 있던 부분을 일부러 끊었다. 그 끊는 작업을 하기 위해서 굉장히 복잡한 작업을 거쳤겠지만 어쨌든 일단은 그걸 해야 했다. 예, 그런 상황입니다.

45:31 노정석 네, 그러니까요. 이게 사실 앞에 알고리즘 세 파트만 좀 잘 캐치하면 DeepSeek-V4가 들어오지 않을까 싶었는데 사실은 성현님이 항상 강조하시는 게 그거잖아요. 진짜 중요한 건 데이터인데 데이터 이야기들을 사람들이 많이 안 한다. 그래서 데이터 부분은 이제 사실 paragraph 하나로 건너뛰었고 그 뒤에 이제 training, 어쩌면 데이터와 training이 사실은 정말 핵심 아니겠습니까? 그 부분들에도 저희가 이해할 수 없는 단락 단락들이 많이 들어 있습니다.

46:00 김성현 인프라가 그래서 굉장히 복잡합니다.

46:02 노정석 네, 얘네가 거의 정말 프론티어의 프론티어예요. 제가 그냥 느낌상.

46:13 김성현 그리고 여기서 또 평가가 나오는데 거기서 자기들 모델 비교를 하고 있죠. 모델 크기 커지고 데이터 증가하고 한 것에 의해서 제 생각에는 이제 특히 지식적인 측면에서, 특히 이건 pre-training이다 보니까 지식을 평가하는 게 훨씬 쉽게 용이한 점은 있긴 한데요. 지식적인 측면에서 굉장히 크게 발전했다. post-training 벤치마크에서도 비슷합니다. long-context 능력도 많이 발전했고요. 그리고 post-training이 등장합니다. post-training에서도 디테일이 굉장히 많이 있습니다. post-training은 한 가지 모델을 만들어서 중요한 이슈가 이 부분이거든요. 예를 들어서 코딩 전문가, 코딩 전문 모델, 코딩 전문 추론 모델, 수학 전문 추론 모델, 아니면 일반적인 추론 모델, 이런 것들이 많이 있는데 이것들을 어떻게 결합할 건가, 이게 약간 흥미로운 부분입니다. DeepSeek은 여기서 On-Policy Distillation 방법을 썼어요. 그래서 각각 전문가를 학습시킨 다음에 그 전문가를 distillation 하는 방법을 썼습니다. 그래서 최종 모델을 만들 때는 RL을 안 한 것 같아요. 그리고 rubric 기반의 reward model을 사용했고요. rubric 기반 reward model은 R1 나온 이후에 한 번 논문 낸 적이 있습니다. 그거 채택했고요. 그다음에는 tool call의 형식이 어떻다, 이런 얘기를 합니다. 그리고 reasoning 같은 게 경로에서 tool call하고 reasoning에 사용해서 context를 어떻게 구성한다, 이 얘기는 사실 DeepSeek V3.2에서도 얘기를 했었습니다. On-Policy Distillation이 나왔고요. 그리고 On-Policy Distillation을 효율적으로 하기 위한 인프라 얘기도 나오고 그다음에 distillation 할 때 디테일을 어떻게 해야 된다는 디테일들을 얘기하는데 이 디테일들 각각의 인프라적인 부담을 굉장히 크게 늘리는 내용들입니다. 그리고 그걸 커버하기 위한 인프라가 붙었고요.

post-training을 정교화하는 On-Policy Distillation과 Rubric Reward 46:35

47:59 노정석 RL을 하기 위한 인프라 얘기가 있는데

48:03 김성현 네, 나옵니다. 여기서 쓴 방법이 On-Policy Distillation 중에서도 인프라적인 부담이 큰 방법이거든요. 그래서 그걸 지원하기 위한 인프라적인 구조가 들어갔고 FP4 사용해서 RL하고 FP4를 사용해서 RL 한다는 건 쉽지만 굉장히 또 어려운 문제입니다. 그다음에 다시 한 번 또 RL 인프라스트럭처 얘기가 나옵니다. 1M 토큰에 대해서 pre-training을 했으니까 RL도 1M 토큰에 대해서 해야 되죠. 1M 토큰에 대해서 RL을 한다는 건 1M 토큰만큼을 생성한다는 의미가 됩니다. 그 1M 토큰을 생성해야 되니까 생성 속도가 빨라야 되겠죠. 예, 100만 토큰을 생성해야 되니까 100만 토큰을 생성하는 속도가 빨라야 되고 100만 토큰을 생성하면서 동시에 agentic한 post-training을 해야 되기 때문에 agentic한 post-training을 한다는 것은 post-training 과정에서 토큰을 생성하면서 실제로 sandbox하고 상호작용을 해야 되거든요.

48:58 sandbox하고 상호작용하려면 이거는 사실 post-training 전반에 다 필요한 인프라스트럭처에 다 필요한 내용이기는 한데 각 환경을 빠르게 띄워줘야 되죠. 예를 들어서 Docker 컨테이너 같은 걸 빠르게 띄워줘야 되는 거죠. Docker 컨테이너를 빠르게 띄워주려면 그 이미지들을 빠르게 읽어야 되고 이미지를 빠르게 읽으려면 그 storage 서비스가 또 받쳐져야 됩니다.

49:15 제가 어제 그 이야기 드렸습니다.

49:18 노정석 맞아요. 어제 이 페이퍼를 사실 알고리즘 부분만 정독을 하고 뒤에 있는 부분들은 살짝 단락 단락별로 이렇게 넘어가면서 읽었는데 가만히 보면서 이게 미국에 갈 게 아니라 여기에 가야 되겠다. 항저우에 가야 되겠다라는 생각이 들더라고요. 항저우의 카페에 가서 앉아서 여기에 걸리는 엔지니어들을 두고 뭔가를 물어봐야지, 프론티어가 여기에 있네라는 느낌이 저는 굉장히 많이 들었습니다.

49:48 김성현 이제 agent 상황에서 상호작용하면 당연히 error가 나고 실패가 많이 나올 거잖아요. 그 상황에서 대응해야 되는 인프라들, 그리고 그런 인프라들, 그런 scale-up 과정들 같은 것들이 다 문제가 되고 있고 그 부분에 대한 얘기를 많이 하고 있습니다. 여기서도 데이터 얘기는 하지 않죠?

50:05 노정석 맞아요. 벤치마크는 그냥 그림만 보고 넘어가죠. 쭉 해서 결국은 얼마만큼 좋아졌나. Claude Opus 4.6과 GPT-5.4, Gemini 3.1이랑 비교를 했네요. 중국 모델은 Kimi K2.6과

Claude, GPT, Gemini와 비교한 DeepSeek-V4 벤치마크 50:08

50:22 김성현 약간 아쉬워하기는 해요. post-training을, DeepSeek post-training을 좀 아쉬워하긴 합니다. 좀 더 밀어붙일 만한 여지가 많이 있지 않을까. 모델 체급이 커지고 훨씬 좋은 pre-training을 했으니까 거기에 발현돼야 될 만한 post-training을 통해서 더 발현될 수 있지 않을까 하는 얘기를 합니다.

50:41 노정석 이제 거의 새로운 종을 썼다라고 봐도 무방할 정도로 아키텍처의 변화가 심하기 때문에 이제 뭐 4.1, 4.2 나오면서 성현님이 방금 느낀 아쉬움들 좀 해결해 가져오지 않을까요? 이게 얘들의 기본이 좀 달라졌으니까. 사실은 학습의 불확실성, 불안정성을 좀 뒤로 하더라도 얘네들도 좀 더 gain을 얻을 시간이 필요한 거잖아요. 4.1, 4.2 곧 나오겠죠. 네.

51:05 김성현 지금은 아예 preview 단계였던 것 같아요. 처음부터 그리고 아마 포스트 트레이닝에 집중을 할 것 같고요. pre-training이 된 모델을 갖췄으니까. 그리고 다시 한 번 중요한 싸움은 post-training 단계에 있을 것 같습니다. 앞서 했던 말씀을 다시 인용하자면 pre-training에 대해서는 이미 동등한 수준으로 도달했다. 남은 건 이제 post-training에서 동등한 수준으로 도달하는 것이 되는 거고 동시에 post-training에 대해서 연산력을 pre-training에 대해서만큼 사용하는 것이 되는 거죠.

51:41 노정석 그러니까요.

51:42 김성현 아직은 제 생각에 post-training에 들어간 연산은 pre-training의 일부 정도일 것 같습니다. DeepSeek-V4 같은 경우 그런데 이 post-training에 대해서 더더욱 더 많은 연산을 투입하고 이제 pre-training 수준으로 연산을 투입하게 되겠죠. 그걸 통해서 좀 더 개선되는 모습이 나오지 않을까 싶고요. 그 과정을 통해서 얼마나 개선을 하는지가 DeepSeek에 대해서는 굉장히 중요한 문제가 아닐까 싶습니다.

52:09 그리고 그렇지만 여기서도 post-training 과정에 대해서도 굉장히 많은 얘기를 하고 있어요. PutnamBench 같은 수학 벤치마크 얘기도 하고 있고요. 이건 약간 다르지만 long-context에 대한 개선들, DeepSeek-V3가 어느 정도 됐는지 모르겠지만 어느 정도 됐을지 모르겠지만 굉장히 큰 개선, 상당히 좋은 수치를 보여주고 있습니다. 얘기를 하고 있습니다.

52:29 MRCR 같은 데에서 HLE나 Terminal Bench 2.0에 대해서도 얘기하고 있고 심지어 중국어 글쓰기 같은 것에 대해서도 상당히 많이 얘기를 하고 있습니다. 중국어 글쓰기를 개선하기 위해서 얼마나 많은 노력을 했는지 Gemini와 견주어서 더 나은 글쓰기 모델을 만들기 위해서 많은 노력을 했다, 이런 얘기들을 하고 있습니다.

52:48 white-collar task에 대해서도 우리 한번 그 과제 수행하는 post-training을 위해서 실험하고 Opus하고 비교를 해봤다, 이런 얘기를 하고

52:54 노정석 그렇습니다. 네.

52:57 김성현 Anthropic에서는 DeepSeek이 Opus에 대해서 query한 게 distillation을 하기 위함이었다는 식으로 얘기를 많이 했지만 저는 사실 이런 걸 하기 위해서도 많이 쓰지 않았을까 하는 생각을 많이 합니다. 저는 벤치마크 distillation보다도, 네. 비교하고 벤치마크를 하기 위해서 했던 거 아닐까 하는 생각을 많이 합니다.

노정석 네, 저희가

53:17 김성현 coding agent로서

53:24 노정석 한국에서 특히 사실은 중국에 대한 관심이 그렇게 높지가 않고 저희는 많은 소식들이 다 태평양 건너에 있는 실리콘밸리에 맞닿아 있기 때문에 그게 참 신기한 점이긴 한데 일본과 한국은 미국에 훨씬 가깝고 중국에서 일어나는 일들을 저희가 좀 그닥 관심 없어 하는 나라 중에 하나인데 그러지 않아야 될 것 같습니다.

53:48 알겠습니다. Conclusion, 이 엄청난 내용들을 한 50페이지, 저 뒤에 한 번만 더 내려가 볼까요? 여기 contributor, 공헌자들 naming 나오는 게 뒤에 쭉 있던데 몇 명이나 되는지 한번 좀 읽어볼까요? 저희

54:02 김성현 한번 세볼 걸 그랬네요. 저도 궁금하더라고요. 이 DeepSeek 조직 내에서 research하고 engineering contributor들의 수가 얼마나 되는지

노정석 그렇죠.

김성현 예.

54:09 노정석 그런데 얼마 안 되네요. 사실 숫자만 봐도

54:15 김성현 요즘 또 프론티어 랩 중에서는 그래도 규모가 꽤 있는 편이지 않을까 싶기도 합니다. 다들 팀 작게 만드는 데 관심이 많이 있으니까요.

54:28 노정석 그렇죠. 예. 이 AI 프론티어는 본토의 중국인들과 미국에 있는 중국인들이 이끌어 간다고 하지 않습니까? 또 페이퍼에 중요한 내용이 하나가 있는데 NVIDIA 칩과 화웨이 칩을 같이 썼다라는 얘기를 하고 있거든요. 비중에 대해서는 언급은 하지 않지만 이제 아예 상당히 많이 썼으니까 화웨이 칩도 언급이 됐을 거고 그들의 인프라스트럭처에 반도체도 대안들이 생기고 있는 거죠. 중국에서.

컨트리뷰터와 화웨이 칩 그리고 Meta Muse Spark 뒷이야기 54:31

54:56 최승준 그리고 또 하나 생각나는 흥미로운 포인트가 저희가 마이너해서 그런지 다루지는 않았지만 Muse Spark가 나오긴 했었잖아요. 이번 달에 거기도 그런데 어마어마한 컴퓨터 자원과 인재를 투여했지만 실제로 꺼내 놓고 봤을 때는 어떻게 보면 DeepSeek-V4가 더 나아 보이는 그런 느낌인 거죠.

55:13 노정석 Muse가 어디인 거죠? Meta요. Meta 존재감이 없어 가지고 제가 머리에 안 들어 있었어요. 죄송합니다. 네, 그쪽

55:28 김성현 그쪽은 모델 공개가 많이 짜져가지고 그런데 잘 모르겠습니다. 그 부분은 생각을 해봐야 될 것 같은데요.

55:32 최승준 그런데 거기도 어마어마한 컴퓨터 자원과 인재를 DeepSeek도 지금 DeepSeek-V3에서 DeepSeek-V4 넘어올 때 상당한 시간이 걸렸고 비슷한 시간을 쓴 거잖아요. 그런데 결국에 이렇게 공개된 거를 봤을 때는 DeepSeek-V4가 좀 더 임팩트 있게 느껴진다는 거죠.

55:46 김성현 아마 그거는 사실 정보를 많이 공개한 것의 현저성 차이도 좀 있을 것 같기는 한데요. 다시 말씀드리지만 중요한 건 이제 post-training으로 넘어온 것 같고 post-training의 퀄리티 차이는 사실 이거는 직접 써보는 사용자들의 이야기를 들어야만 알 수 있을 것 같습니다. 그런데 Muse Spark는 아키텍처나 pre-training에 대해서 디테일이 공개되진 않았지만, 전 말씀드렸던 것처럼 이 정도 수준은 아닐 수도 있겠다는 생각이 들기는 해요. 그러니까 그 pre-training에 집중해서 본다면 pre-training이 아키텍처나 기술적인 측면에서의 개선이나 혁신 같은 것들이 이 정도 수준은 아닐 수도 있지 않을까 하는 생각을 합니다. 추측을 해봅니다. 그런데 실제로는 어떤 형태일지 공개를 하지 않았으니까 알 수 없죠. 네.

Cloud Next와 GPT-5.5 소식 빠른 정리 56:39

56:39 노정석 그러면 저희 지금 시간이 꽤 돼서 이 정도에서 DeepSeek-V4 리뷰는 마치는 걸로 하고 또 이번 주에 저희가 DeepSeek-V4 말고도 구글 클라우드, 그다음에 GPT-5.5, 여러 가지 소식들이 있고 승준님이 조금 정리해 주신 내용이 있는데 그 내용들을 한번 퀵하게 볼까요?

56:55 최승준 진짜 퀵하게 해야 될 것 같아요. 빠르게, GPT 2.0 이미지가 사실은 큰 이슈가 됐습니다. 그래서 지금 Elo 점수가 굉장히 크게 나온 게 이게 지금 화요일쯤이었고요. 그다음에 클라우드 넥스트가 있었는데 이제 주목이 된 거는 8세대 training 모드와 inference 모드 TPU가 새로 나온 거, 그런 거가 좀 있었고 그다음에 Anthropic에서는 그동안 성능 떨어진 이유에 대한 변명을 좀 한 거가 또 목요일쯤에 있었습니다. 그리고 이제 금요일에 GPT-5.5가 예고됐던 대로 Spud라는 게 소문상이었지만 이게 나오고 확실히 빨라졌어요. 사용해 보니까 빨라지고 그다음에 성능도 상당히 만족스러운데 재밌는 포인트는 이게 그동안 Sébastien Bubeck이 여러 번 얘기했었던 유니콘 벤치마크잖아요. 그런데 유니콘 벤치마크가 갑자기 좋아진 게 이게 약간 꼼수를 쓴 건데 뭐냐 하면 이미지 2.0으로 이미지를 생성을 먼저 하고 그다음에 그거를 그리라고 해서 한 거예요. 그래서 약간 꼼수를 쓴 건데 그거를 이야기하는 거는 결국에는 이런 방향으로 갈 거다. 그러니까 이게 inference 안에서 이미지 생성 같은 것들이 들어가서 그걸 모델이 활용하는 쪽으로 가게 될 거다라는 뉘앙스가 좀 있었고 그거를 반영하듯이 최근에 보면 이미지 2.0으로 생성하고 GPT-5.5로 만드는 패턴이 급격하게 늘어났어요. 이게 일종의 그냥 frontend를 하는 게 아니라 이미지 모델의 힘을 받는 그런 시도들이 있었고

58:35 제가 그래도 시간을 들여서 소개하고 싶은 거는 지난주에 이어서 리듬을 봤잖아요. 지난주에 저희가 Opus, 그러니까 Claude 쪽의 리듬을 봤다고 하면 지금 이게 출시의 순서고요. 그다음에 이거는 기간에 이렇게 찍어놓은 건데 플래그십 모델만 보더라도 지금 이즈음에서는 한참 걸리지만 2025년 정도에 봤을 때는 o3에서 이게 4.5가 작년 2월이었고 o3가 4월 16일, 이맘때였어요. 그런데 거기에서 여름 8월까지 뛰는 거는 시간이 걸렸지만 그다음에는 0.1씩 올라가는 거가 거의 시간이 확 줄어들고 있는 모양새다라는 부분을 조금 다시 확인이 되는 것 같습니다. 여기에 Codex까지 넣으면 더 촘촘해지거든요. 그러니까 지금 어마어마한 pipeline이 돌아가고 있는 것 같고 결국에 저희가 한번 단톡방에도 얘기했듯이 Chrome 브라우저 업데이트처럼 모델 업데이트도 신경 안 쓰는 그즈음이 될 수도 있겠다.

59:37 그다음에 이거는 이제 3D 쪽에서도 좀 괄목상대할 그런 성능 향상이 GPT-5.5에서는 있었습니다. 그리고 재밌는 포인트가 NVIDIA에서 이제 GPT-5.5를 굉장히 밀어주는 양상 같은 게 있었고, 구글은 다시 Anthropic에 투자하는 거. 그래서 이번 주도 굉장히 소식들이 많은데 마지막으로 하나만 꼽자고 하면 이 Anthropic의 제품 팀의 Claude Cat Wu가 인터뷰한 게 상당히 재미있었어요.

Cat Wu 인터뷰로 본 가속된 개발과 번아웃 1:00:00

1:00:11 그래서 이거에 요약된 내용을 제가 앞에다가 좀 뽑아놨는데요. 개발 속도의 극적인 가속. 그래서 이게 인터뷰어가 이제 짚은 거는 리소스가 좀 도움이 되지 않았느냐 했는데 Cat Wu가 그거를 완전히 인정을 하지 않고 살짝만 인정을 했고 이미 어떤 flywheel이 돌고 있다. 그다음에 PM의 역할, 그런 얘기 쭉 하다가 저는 맨 마지막 부분이 재미있었는데 그거를 본문 그대로 가져온 부분이 이거거든요. 토네이도 한가운데에서 제정신을 유지하는 법. 이런 변화 속에서 인간으로 어떻게 버티냐. 그래서 지금 그 Anthropic의 공동 창립자 중에 한 명이죠. Ben Mann이 한 얘기가 지금이 앞으로 세상이 가질 수 있는 가장 정상적인 모습이다라고 하면서 굉장히 높은 frequency에서 회복 탄력성을 가지는 인재상에 대해서 좀 얘기를 했습니다. 그래서 세상의 모든 것이 미쳐 들어가고 있어가 아니라 이 와중에서도 정신을 차릴 수 있는, burnout 되지 않는 사람에 대한 이야기를 한 거 정도를 이번 주 뉴스로 좀 꼽아봤습니다.

1:01:16 노정석 저 능력을 갖추는 게 참 어렵죠. 네.

1:01:22 최승준 그래서 이번 한 주도 굉장히 DeepSeek의 밀도 높은 내용도 있었지만 전체적으로 퍼져 있는 것들이 다 자기네들 뭐 하고 있다라는 어떤 어마어마한 주파수를 보여주고 있는 거잖아요. 그런데 burnout 되기가 쉽죠.

1:01:34 노정석 이제 사실 저희 딸깍딸깍 하는 것도 새로운 일상이 돼가지고 그런 것들이 이제 좀 놀랍지도 않고 그리고 누가 몇 억 토큰을 썼네, 몇십억 토큰을 썼네라고 해서 그 token maxxing 이렇게 하는 것들도 좀 탈출하는 사람들이 생기는 거를 저 심심치 않게 보고 있어요. 저거는 답이 아니다. 나름의 어떤 균형점들이 생겨나고 있는 것 같고

1:01:59 또 지금은 저희가 지금까지 AI가 다 해줄 수 있는데라고 하는 그 AI 자체의 신기함, 기능, 이런 거에 좀 몰입을 했고 이것 때문에 다 없어져 버릴 거야, SaaS들이 다 없어질 거야라고 했는데 실제로 SaaS 주가가 내려가는 것뿐만 아니라 그들의 신규 주문도 급감하고 있거든요. 얘기인즉슨 이제 회사들 내부에서도 AI-native한 방식으로 이제 자신들의 tool들을 손쉽게 만들어 쓰는 그런 것들이 자리 잡히고 있다라고 보이는 signal들도 여러 군데 있거든요.

모델 성능에서 사업 가치로 넘어가는 경쟁 구도 1:02:08

1:02:32 그래서 시장이 아까 승준님 방금 말씀하셨지만 이젠 더 이상 이 모델이 얼마나 성능이 좋아졌고 뭐가 어떻대라고 하는 게 Chrome의 업데이트만큼 그냥 일상적인 그런 상황이 돼버릴 수도 있고 어차피 AGI야라고 하는 그런 세상이 돼버릴 수도 있고. 그런데 이걸 가지고 그럼 어떻게 우리는 사업을 할 건데, 어떠한 가치를 만들어 낼 건데, 그런 부분으로 급격하게 이동할 것 같습니다. 그런 시그널이 느껴져요. 또 앞서가시는 분들은 이제 더 이상 Harness를 어떻게 구축해야 되네, Claude Code가 어떤데, Codex 어떻게 하네, 이런 얘기가 아니라 이거 가지고 그럼 돈은 어떻게 벌 건데, 고객은 뭘 원하는데, 그들 사이의 gap은 어떻게 메꿀 수 있는데, 이런 이야기들로 담담하게 전진하시는 것들을 요새 좀 많이 목격하고 있습니다.

1:03:26 최승준 그래서 아까 성현님도 짚어주셨지만 그 base model이 지금 한 번 다 바뀌는 거잖아요. Anthropic도 4.7은 아닐 수 있지만 Mythos는 확실히 base가 달라졌고 Spud는 base model 달라졌고 DeepSeek도 base model 달라졌고 해서 이 이후에는 incremental하게 계속 계속 이 주파수로 모델들이 업데이트되고 이게 GPT-5.5도 사람들이 얘기하기로는 early checkpoint인 것 같다는 얘기들이 있거든요. 그렇다는 거는 계속 나온다는 거겠죠.

1:03:54 김성현 Spud pre-training이 끝났다고 한 지 얼마 되지 않아서 GPT-5.5가 나오더라고요.

1:03:59 최승준 그러니까요. 계속 나온다는 얘기죠.

1:04:02 노정석 좋은 거죠. 저희는 이렇게 좋은 모델들을 이 저렴한 가격에 쓰실 수 있게 해 주셔서 참 감사할 따름입니다.

1:04:10 김성현 다만 요즘 가격이 오르더라고요.

1:04:11 노정석 그렇죠. DeepSeek이 근데 또 열흘 동안 자기네 75% 할인 이벤트 하더라고요. 그런 세상이 됐습니다. 그러면 오늘 DeepSeek, 그다음에 GPT-5.5, 그리고 구글 클라우드 행사가 있었습니다마는 클라우드 쪽에 구글 쪽에서는 크게 주목할 만한 점이 보이지 않는 것 같아서 묻혀진 것 같습니다. 이런 세상이 됐네요.

오늘 논의 마무리와 다음 편 예고 1:04:37

1:04:41 그러면 오늘 또 조금 길고 어떻게 보면 굉장히 어려운 세션일 수도 있는데 DeepSeek-V4 그리고 GPT-5.5 이야기 한 번 나눠봤습니다. 승준님, 성현님 감사합니다.

1:04:51 최승준 수고하셨습니다. 재밌었습니다.