EP 88: 비결은 없다

오프닝: 성현과의 재회 00:00

00:00 노정석 녹화를 하고 있는 오늘은 2026년 3월 1일 일요일 아침입니다. 오랜만에 저희 성현 님 모셨고요.

저희 작년 연말에 마지막 편을 성현 님과 함께 찍었는데 작년에 모델의 변화를 살피자면 RLVR의 엄청난 발전, 그리고 MoE 같은 아키텍처 때문에 효율이 증가한 점들, 이런 점들을 꼽았었고 26년에는 또 어떤 관전 포인트가 있을지 이렇게 예측을 하면서 끝냈었는데 불과 두 달이 지났습니다.

그래서 많은 변화가 있기도 하고 없기도 하고, 오늘 오랜만에 성현 님 모시고 지난 두 달간의 소회 한번 들어보고 앞으로 어떤 일이 일어날지 한번 예측해 보도록 하겠습니다. 성현 님 어서 오십시오.

00:39 김성현 이전에 나왔던 세션들에서는 그래도 한 가지 주제를 잡고 그 주제에 대한 얘기들을 많이 했던 것 같은데요. 저는 이번 세션을 준비하면서 생각을 많이 했습니다. 두 달 동안 간간이 계속, 다시 여기 참여하면서 어떤 이야기를 하면 좋을까 하는 생각들을 많이 했는데요. 그게 좀 어렵더라고요. 예를 들어서 기술적인, 세부적인 디테일들에 대해서, 예를 들어 최근에 나왔던, 화제가 됐었던 DeepSeek의 Engram이라든지 MHC 같은 얘기들을 많이 할 수도 있겠지만, 저 자신의 관점이 살짝 변한 것 같기도 하고요. 그리고 그것이 정말로 지금 얼마나 중요한 과제, 문제인가 하는 생각들도 좀 있었습니다. 그래서 한 가지 주제를 잡고 계속 얘기를 하기보다는 다양한 주제들과 소회에 대해서 이야기를 해보는 게 좋겠다는 생각이 들었고 제가 하는 생각은, DeepSeek V4가 굉장히 DeepSeek 특유의 방식으로 굉장히 많은 기술적 혁신들과 디테일들이 있을 수는 있을 것 같아요.

”기술” 한 가지로 말하기 어려운 이유 01:17

01:39 김성현 근데 그 기술들이 흥미로운 것과는 별개로 이 자리에서 아주 흥미롭게 소개할 만한 어떤 패러다임 전환이라든지, 이러이러한 혁신이 있었기 때문에 앞으로는 이렇게 나아갈 것이다라는 이야기를 하기가 좀 어려울 것 같습니다. DeepSeek V4가 나왔더라도 여기서 이런 발전들이 있었으니까 앞으로 AI 모델의 발전은 이렇게 될 거고 이러이러한 것들이 가능하게 될 거다라는 이야기를 하기에는 조금 어려울 수도 있지 않을까 하는 생각이 들었습니다. 그래서 이 세션의 주제가 어떤 특정한 기술과 기술 발전에 대한 것이라기보다는 다양한 주제들에 대한 언급에 가까운 이유이기도 합니다. 그래서 이 슬라이드에 “기술”이라고 적어놨는데 그 의미는, 왜 기술이라는 것에 대해서, 어떤 특정한 기술에 대해서 말하는 것이 지금 참 어려운가에 대한 약간 변명에 가깝습니다.

GLM 5 리포트와 RL 중심의 기술 혁신 02:23

02:25 김성현 최근에 DeepSeek V4는 아니지만 굉장히 흥미로운 연구 리포트가 나온 것이, 프런티어급에서 리포트가 나왔던 것이 GLM 5였어요. Zhipu AI에서 나온 리포트였는데 여기에 굉장히 흥미로운 기술적인 혁신들과 디테일들이 많이 있습니다. 아주 거칠게 요약하면 세 가지예요. RL을 더 효율적으로 하는 거, 예를 들어서 Sparse Attention이라든지 이런 것들이, 또 RL을 위한 인프라스트럭처 같은 것들을, async RL이라든지, 이런 많은, 수많은 기술적 디테일들이 있는데 그 부분들이 상당 부분이 RL을 더 효율적으로, 연산 효율적으로 하는 것입니다. 컨텍스트 길이를 더 효율적으로 반영해서 더 효율적으로 RL을 진행하는 것. 다음, 다른 하나는 RL의 어떤 objective 같은 것들을 약간씩 수정해서 더 안정적으로 할 수 있게 하는 것이 하나 있습니다. 그리고 다른 하나는 RL을 더 다양하게 하는 것. 맨 마지막에 환경 스케일링에 대한 얘기를 할 것 같은데요. 더 다양한 과제에 대해서 RL을 진행할 수 있도록 그 환경을 늘리고, 더 환경을 더 효율적으로 확장하는 것. 이런 것들이 주요한 주제입니다.

GLM 5라는 이 리포트에서 수많은 혁신들이 거의 RL과 관련이 되어 있고 RL을 더 효율적, 더 안정적, 더 다양하게 하는 것이 지금 가장 큰 혁신의 방향이다라는 거죠. 이 부분에 대해서 생각하면 그 Yao Shunyu의 “The Second Half”에 대해서 생각하게 됩니다. “The First Half” 같은 경우는 벤치마크가 있고 그 벤치마크에 대해서 방법을 개발하고 그 방법을 개발해서 그 벤치마크가 풀리기 시작하면 새로운 벤치마크를 만들고, 이런 방법에 기반한 시대였다고 표현을 했는데 “The Second Half”로 오면서 우리는 방법에 대해서 답을 찾았다, 답지를 찾았으니까 이 답을 가지고 여기저기 문제에 대해서 적용하면 그만이다, 이런 표현을 했었거든요. 굉장히 어떻게 보면 오만하게 느껴지는 표현이기도 한데 동시에 이게 정말로 정확한, 최소한 지금 과거 2025년부터 지금까지 1년 동안은 굉장히 정확했다는 생각이 듭니다. 다들 RL이 답지, 답이 되었고, RL을 더 잘하기 위한 것, 그리고 RL을 더 확장하기 위한 것들이 대부분의 노력의 거의 전부였고 지금도 더더욱더 그렇습니다.

Yao Shunyu의 The Second Half: RL이라는 답지 03:40

04:37 김성현 기술이라고 했을 때, 기술적 혁신이라고 했을 때 많이 느껴지는 것은 이 방법의 혁신인데 방법의 혁신에 대해서는 말할 수 있는 것이, 흥미롭게 말할 수 있는 것이 별로 없고, 계속 RL이니까요. 이 RL로 얼마나 더 확장되어 가고 더 깊이가 있어지고 있는가에 대한 이야기만 계속 반복할 수밖에 없는 것이지, 이런 느낌을 받기 때문에 제가 어떤 기술의 궤도를 가지고 이 기술이 이렇게 발전하고 있고 앞으로 어떻게 발전할 것이다라는 이야기를 하는 것이 조금 어렵게 느껴졌습니다. 왜냐하면 최소한 계속해서 RL이 계속 적용이 되고 계속 점진적으로 발전하는 것이 예상 가능한 것이고 지금 계속 일어나고 있는 것이니까요. 이런 측면에서는 비밀 레시피에 대한 생각을 좀 하게 됐습니다. 비밀 레시피라는 것은 어떤 프런티어 모델들이 비밀 레시피를 갖고 있다고 하면 그게 방법적인 혁신에 좀 더 가깝다고 생각이 되거든요. 그 사람들이 전혀 알려지지 않은 어떤 비밀을 갖고 있어서 그 비밀을 알지 못하면 모델을 만들 수 없는, 이런 것들이 있다는 믿음을 좀 갖게 되죠.

비밀 레시피는 존재하는가 05:16

05:41 김성현 물론 굉장히 많은 혁신들이 있습니다. GLM 5에서처럼 굉장히 많은 혁신들이 있고 굉장히 많은 개선들이 있습니다. 그 개선들이 있는데 그것들을 부정하는 건 아니고, MoE라든지 이런 것들도 엄청나게 다 중요한 혁신들이었죠. 근데 그것이 숨겨져 있고 알기가 굉장히 어려운 어떤 레시피였다기보다는, GPT-3.5부터 지금까지 지켜봐 오면 다 그냥 점진적으로 모델을 개선하고 개발해 나가다 보면 나타날 수 있고 알 수 있는 것들이었던 것에 가까운 것 같습니다. 그나마 비밀 레시피에 가장 가까웠던 것은 RLVR인 것 같기는 합니다. 그 외, 이외에는 상당수가 중요한 혁신들이지만 어떤 알지 못하면 절대 따라잡을 수 없고 그렇지만 그 알기가 굉장히 어려운 그런 형태의 비밀 레시피는 아니었던 것 같다는 생각이 있습니다. 물론 이런 느낌을 받는 것에 상당수는 중국 기업들이 비밀 레시피들을 다 자체로 찾아내거나 개발해 가지고 알려졌기 때문에 그것이 더 이상 비밀이 아닌 것처럼 느껴져서 그런 점도 있을 것 같긴 합니다만, 지금의 느낌이 좀 그렇습니다. 단순히 에이전트 RL이라든지 RL 자체만으로 인해서 발생했던 것은 아니고 지금까지 있었던 많은 혁신들이 대체로 점진적이고 예상 가능한 궤적 안에 있는 것들이었던 거죠.

그런 측면에서 지금 더더욱 중요하고 자명하게 느껴지는 건 지금의 시점이 어떤 놀라운 혁신, 그리고 놀라운 새로운 접근 방법이라기보다는, 물론 그런 작은 접근들을 부정하는 건 아니고 그건 계속 있을 거고 앞으로도 계속 있을 겁니다. 그런데 그것보다도 훨씬 중요한 게 기본에 충실한 것인 것 같습니다. 좋은 데이터를 만들고, 안정적인 인프라를 갖춰서, 그리고 많은 연산을 사용해서 모델을 만들어 나가는, 이 가장 기본적인 것. 어떤 창조적인 방법이 아니라 이 기본이 지금 모델들의 성능을 지배하고 있다는 생각을 합니다. 다양한 모델들이 다양한 성능 차이가 있고 다 사람들마다 선호하는 모델들이 있을 텐데, 그 선호하는 모델들이 그 모델을 만든 회사가 갖고 있는 다른 회사들은 전혀 모르는 어떤 레시피가 아니라 이 기본에 훨씬 가까운 문제들, 더 좋은 데이터를 만들고 더 잘 스케일링을 하고 하는 이런 문제들에 훨씬 가깝다는 생각을 하고요. 이 기본에 충실한 것이 지금 굉장히 관건이라는 생각을 합니다. 그렇기 때문에 기본에 충실할 수 있다면 많은 후발주자들이 따라잡을 수 있는 문제, 상황이, 환경이 갖춰진 것 같기도 해요. 동시에 이 기본에 충실한 경험들을 많이 쌓아놨던 지금 프런티어 기업들이 훨씬 더 유리한 지점, 시간적으로 유리한 지점에 존재하고 있는 것도 사실이죠.

기본기의 시대: 데이터와 제품 감각 07:14

08:18 김성현 동시에 한 가지 생각하는 것은, 이 기본에 충실하다는 것이 제품을 만드는, 제품이라는 것을 대하는 태도에 크게, 밀접하게 닿아 있다는 생각을 합니다. AI 조직들은, 제가 경험한 AI 조직들에 좀 한정해서 말하는 거기도 합니다만, 연구적인 성향이 좀 강하기 마련이라고 생각하거든요. 연구적 혁신이라든지 새로운 연구적 접근법 같은 것들에 대해서 훨씬 그 엔지니어들의 관심이 많이 가게 되어 있는 것 같습니다. 근데 저는 제품을 만드는 것은 그것과는 좀 다른 감각이 필요하다는 생각이 들어요. 많은 반복을 거치고, 많은 시행착오를 거치고, 그리고 많은 사용을 거치면서 조금씩 조금씩 더 개선해 나가고, 조금씩 조금씩 모델을 더 갈고닦아 나가는 과정들이 굉장히 중요하다고 생각을 하는데, 이런 감각과 태도의 중요성이 굉장히 높아져 있는 것 같습니다. 조금씩 조금씩 더 연마해 나갔을 때 그때 느껴지는 차이가 사용자에게는 굉장히 크게 와닿을 수 있는 거고, 그렇지 않으면 자꾸 조금씩 구석을 채워 나가고 갈고닦아 나가는 것보다는 커다랗게 그리고 쉽게 성능적 증대, 수치적 증대를 가져다줄 수 있는 것에 대해서 훨씬 경도되게 되죠. 그렇지만 지금 시점은 그것보다도 제품을 만들어 나가고 기본에 충실한 것이 중요한 시대인 것처럼 느껴집니다. 왜냐하면 많은 중요한 방법들이 많이 발견되었기 때문이죠. 어떻게 생각하면 RL이라는 방법이 이미 발견되었기 때문에, 이 방법 내에서 갈고닦는 것이 굉장히 중요한 차이를 만들게 되는 부분인 것 같습니다.

10:00 노정석 동의합니다. 정말 지난 두 달 동안, 어떻게 보면 지난 가을부터 올해 성현님이 지금 말씀하신 이 순간까지 모델이 막 급진적으로 갑자기 2배, 3배 좋아진 건 아니잖아요. 계속 좋아지긴 했지만, 근데 사실은 사람들이 이렇게 판단하고 있는 것 같아요. 지금의 모델도 충분히 다 쓸 만하다. 너무너무 괜찮다. 그래서 그걸 중심으로 제품도 많이 생기는 것 같고.

AI의 사회적 파급력 증가 10:19

10:19 김성현 저는 그런데 AI가 사회 환경에 어떤 영향을 미칠 것인가, 이런 부분에 대해서 확신을 가지고 말할 수 있는 형태의 전문가는 아닙니다. 그래서 더더욱 그런 언급을 하지 않으려고 노력합니다. 근데 그것과는 별개로 AI의 파급력이 갈수록 엄청나게 강해지고 있더라고요. 그거는 분명한 사실인 것 같습니다.

노정석 맞죠.

10:38 김성현 Anthropic이 어떤 형태의 제품을 내놨다, 서비스를 내놨다는 것만으로도 수많은 기업들의 주가가 출렁이고 있고요. 그리고 미국 정부에 모델을 넣느냐 넣지 않느냐, 거기에 넣더라도 거기에 대해서 하나의 프런티어 기업이 어떤 조건을 거느냐에 따라서 국가적인 문제가 되기도 하고, 이런 파급력이 점점 더 커지는 것 같습니다.

11:01 최승준 최근에 그 DoW 얘기인 거죠. 전쟁 관련된.

11:07 김성현 전쟁 관련된 얘기해서 거기에 대해서 Anthropic이 어떤 조건을 걸고 있느냐, 어떤 태도를 거느냐가 국가적인 문제가 되고, 거기에 그 제품을 미국에서 정부에서 사용하면 안 된다, 된다, 이런 논쟁이 되는 것들을 보면서 AI 모델의 발전과 그 발전에 의한 파급이 지금 이미 이 시점에서도 엄청나게 큰 것 같다는 생각이 들고요. 저는 이 부분에 대해서, 제가 갖고 있는 생각, 태도가 약간 다르다고 느껴지는 게, 저는 계속해서 모델이 어떤 측면에서 발전할 수밖에 없다고 생각을 하거든요. 그러면 그 발전된 상황에서, 미래에서 이것들이 어떤 파급, 영향을 갖게 될까 하는 것이 약간 두려워지기도 합니다. 그렇습니다.

11:52 노정석 많이 두렵죠. 근데 이건 계속 있어왔던 일들이잖아요. 똑똑한 사람이 10명 모인 회사가 있었는데 누군 100명 모아서 더 강력한 회사를 만들었고, 근데 또 시대가 지나고 나면 5명의 더 똑똑한 사람이 컴퓨터와 결합해서 더 좋은 회사를 만들고, 더 좋은 사업을 만들고, 이런 식의 변화는 계속 있어 왔으니까.

계속 엎치락뒤치락 하네스와 모델의 어떤 성능과 이게 앞서거니 뒷서거니 하면서 계속 좋아지지 않을까요? 그 형태는 어떻게 되든지 간에 좋아지는 건 확실하다라는 거에는 다 이견이 없는 것 같습니다.

Fog of Progress: 미래 예측이 어려운 구조 12:21

12:21 김성현 그 측면에서 제가 이전 세션에서 언급했던 부분이기도 한데, 진보의 안개, 혹은 Fog of Progress. Geoffrey Hinton 교수가 했던 이야기가 계속해서 생각이 납니다. 이 모든 것들이 다 미래가 어떻게 될 것이다에 대한 예측에 달려 있는 것 같거든요. 그리고 다들 미래가 어떻게 될 것인가에 대한 그림을 갖고 있죠.

근데 직업이 어떻게 변할 것이다, 지금 AI를 배워야 한다, 말아야 한다, 이런 것들이 다 미래에 대한 예측에 달려 있는 부분이라고 생각합니다. 예를 들면 AI를 지금 배워야 된다, AI 사용법을 배워야 된다라고 생각하면, AI 사용법이 미래에도 크게 변하지 않을 거다, 그리고 AI 사용법을 잘 아는 것이 미래에도 영향을 크게 미칠 것이다, 이런 가정을 깔고 있는 것이잖아요. 결국 이 모든 것들이, 직업에 대해서도 마찬가지죠. 직업이 어떻게 변할 것이다, 앞으로 개발자가 필요할 것이다, 필요하지 않을 것이다, 이런 모든 것들이 실제로 앞으로 AI 모델들이 어떤 형태로 발전되어 있을 것인가에 대한 가정을 가지고 시작하는 거죠.

근데 물론 사람들이 다 미래는 정확하게 알 수 없는 거기 때문에 가정을 할 수밖에 없고, 그 가정에 따라서 얘기할 수밖에 없지만, 동시에 저는 계속해서 제가 생각하는 것은 미래는 예측하기가 어렵다. 아주 가까이 있는 근접한 지점에 대해서는, 도로에 안개가 깔려 있는 것처럼, 근접한 지점에 대해서는 보이지만 조금 더 나아가면 그거는 지수적으로 광자의 양이 줄어들기 때문에 알기 어려워진다. 단기간적으로는 계속해서 발전할 것이라고 분명하지만 장기간에 어떻게 되어 있을까에 대해서는 예측하기 어렵다는 얘기를 계속하게 됩니다.

14:00 노정석 그거는 저희 감히 얘기할 수 있는 사람이 없지 않을까요? 일론 머스크급 정도 돼야 그런 말 할 수 있는 걸로 저희는 그렇게 받아들입시다. 일론 머스크는 얼마 있으면 외과 의사 필요 없다, 2년 내에 필요 없다, 이런 식의 얘기하시는데 어떻게 될지 모르지만,

아까 성현님 말씀하신 Fog of Progress 그 비유도 굉장히 적절한 게 저희가 안개가 앞이 안 보이는 건 맞는데 각자 안개 속에서 어떤 위치에 있는지는 다른 것 같아요. 프런티어 랩은 더 앞에 있으니까 그들이 지수적으로 더 많이 보고 있는 건 부지의 사실이고. 저희 같은 사람들은 따라가면서 보는 거니까 그들보다는 당연히 적게 보고 있을 것이고, 어디에 서 있는지는 다 상대성이 있는 것 같아요.

14:48 최승준 저는 농담 하나 떠오르는 게, 그 Fog of Progress는 광자에 관련된 거잖아요. 산란이 덜 일어나는 물 입자에 산란이 덜 일어나는 파장이면 보이는 것도 좀 더 늘어나는 거 아닌가요? 농담입니다만.

15:05 노정석 그리고 또 어떤 사람은 운 좋게 터널 구간에서 시작하게 되는 경우도 있거든요. 그럼 터널이 끝날 때까지 신나게 또 달려 나갈 수 있어서.

환경 스케일링: 에이전트 RL의 병목 15:15

15:15 김성현 예측하기가 참 어려운데 제 생각에 조금 더 가늠하기 쉬운 문제 중 하나는 환경 스케일링 문제이긴 합니다. 환경 스케일링을 하면, RL에서의 환경을 얘기하는 건데 RL에서의 환경이라고 하면 어떤 에이전트가 그 안에 들어가서 활동을, 액션을 취하고 활동을 하고 거기에 따른 환경의 변화를 관찰하고 그 환경을 관찰한 다음에 거기에서 최종적으로 보상을 얻고, 이런 것들이 일어나는 환경을 말하는 겁니다.

지금의 에이전트, LLM 에이전트라고 하면 예를 들어서 소프트웨어 엔지니어링 과제 같은 것들이 하나의 환경이 되겠죠. 이 버그를 고쳐라고 하면 이 버그가 있고, 어떤 소스 코드가 있고, 그 소스 코드 안에서 사용할 수 있는 도구가 있고, 그다음에 그 도구를 사용해서 상호작용한 다음에 최종적으로 어떤 보상을 얻게 되죠. 이런 환경들을 다양하게 늘려 나가야 될 겁니다. 왜냐하면 지금 단순한 작업들을 하다가 점점 더 다양한 작업들, 더 복잡한 작업들을 하고 있잖아요. 지금 AI 에이전트가 할 수 있는 일이 굉장히 많죠. 그리고 더 복잡한 프로그램을 만들 수 있게 되고요. 그러면 점점 더 복잡한 프로그램을 만들기 위한 환경을 만들어야 될 겁니다. 이전에는 단순한 어떤 함수 하나를 만드는 거였다면 이후에는 하나의 전체적인 프로그램을 만드는 게 될 거고, 앞으로는 서비스 하나를 통째로 만드는 게 될 겁니다. 그러면 이 환경들을 점점 더 늘려 나가야 되는데, 점점 더 늘려 나가서 발생하는 문제는 이 수준이 계속 높아지다 보니까 만들어야 되는 환경의 복잡성도 계속해서 높아지는 거죠.

환경 스케일링 — 4가지 기술 발전 시나리오 (1: 한계형, 2: 선형, 3: 지수형, 4: 혁신 파동형)

16:40 최승준 이 그래프를 한번 좀 읽어봐 주셔도 좋을 것 같아요.

16:44 김성현 그러면 그 상황 속에서, 환경을 스케일링하는 것이 가장 병목이라고 생각을 해보겠습니다. 그리고 환경을 다양화하는 것이 모델의 발전에 있어서 가장 중요한 고비라고 생각을 해보겠습니다. The Second Half를 받아들여서 RL을 하고, RL을 할 수 있는 환경이 있으면 무슨 문제든지 다 풀 수 있다고 가정했을 때, 그렇다고 하면 무슨 문제든지 다 풀 수 있으니까 환경을 만드는 것이 오히려 유일한 기술의 병목이 될 텐데요. 그러면 그 기술의 병목에 대해서 어떻게 풀려 나갈 것인가에 대한 가능한 궤적을 한번 생각을 해보겠습니다.

가장 낙관적으로 생각하는 사람들은 시간이 지나면 그 기술적 병목이 더더욱 쉽게 풀릴 거라고 생각할 수 있을 것 같아요. 가능한 일입니다. 어떤 중간 지점 정도에서 환경을 스케일링한, 환경을 다양한 과제를 만드는 것이 갑자기 너무 쉽게 풀리는 방법을 찾았다라고 하면 지수적으로 훅 올라갈 겁니다. 이게 일어날 수 있는

17:40 최승준 가능성이 생기는 거죠.

17:42 김성현 녹색 그래프입니다. 쭉 늘어날 텐데, 그런 게 가능할 수 있는 사례는 제 생각에는 지속 학습 문제 같은 게 풀리면 이런 비슷한 일이 일어날 수 있을 거라고 생각합니다. 그러면 환경을 스케일링하는 문제가 기술에 의해서 풀리는 것이 되는 거거든요. 기술에 의해서 결정적으로 풀리는 것에 가깝죠. 그러면 지수적으로 발전할 겁니다. 지속적 발전이 저는 가능할 거라고 생각합니다. 그런 시나리오에서는 물론 현실적인 제약들이 없진 않겠지만요.

비관적으로 생각하면 복잡성이 계속 늘어나기 때문에 그 환경을 만들어 나가는 비용과 시간도 계속해서 증가하고, 그 복잡성이 어떤 감당 불가능한 수준에 이르면 발전이 정지할 거라고 생각할 수도 있습니다. 그러면 어떤 점근하는 파란색 곡선처럼 점근하는 형태가 되는 거죠. 상대해야 되는 복잡성이 너무 커져서 도저히 이걸 뚫고 나가지 못하는 상황이 되겠죠.

제 생각에는 이거는 기술적 혁신이 거의 전혀 없는 경우에 가까울 것 같습니다. 거의 전혀 없고 계속 지금처럼 수작업으로 계속해서 만들어 나가야 하는 경우, 그리고 그 복잡성이 계속 높아지기 때문에 그 복잡성에 비례해서 수작업의 비용도 비례해서 커지는 경우 파란색에 가까울 것 같습니다. 그게 아니라 약간의 기술적인 혁신과 개선을 통해서, 그리고 새로운 환경, 더 복잡한 환경을 만들어 나가는 비용이 그렇게 계속해서 끊임없이 증가하지 않는 경우라고 하면 직선에 가까운 형태로 계속 쭉 점진적으로 올라갈 것 같습니다.

점진적으로 올라갔다고 하더라도 이것이 체감의 정도가 점진적일 거라는 것은 또 아니긴 합니다. 기술적인 발전의 차이는 굉장히 점진적인데 그 체감의 느낌은 어마어마하게 클 수는 있어요. 그렇지만 기술 자체만 봤을 때는 그런 형태의 발전이 점진적인 발전이 되지 않을까 싶고요.

이 점진적인 것도 조금 더 자세하게 보면 이런 형태에 가깝지 않을까 하는 생각을 합니다. 조금씩 계속 발전해 나가다가 어떤 혁신에 의해서 발전해 나가다가 복잡성이 커져서 이 속도가 다시 느려지고, 그즈음에 다시 어떤 기술적인 발전이나 혁신 같은 걸 통해서 이 복잡성을 다시 낮추게 되어서 이런 형태가 좀 더 원거리에서 보면 직선처럼 보이겠죠.

환경 스케일링 — 4가지 기술 발전 시나리오

19:51 노정석 대부분의 현실은 4번이죠.

19:57 김성현 이런 궤적들이 일어날 수 있을 거라고 생각을 하고요. 물론 이 곡선들 중에서 어떤 일이 실제로 일어날 것인가는 저는 잘 모르겠습니다. 제 생각엔 미래를 예측하는 것에 있어 이 환경 스케일링의 문제이고, 환경 스케일링의 문제가 어떻게 풀리느냐에 따라서 이 궤적이 완전히 달라질 거라는 생각을 합니다.

20:12 최승준 이 맥락 자체는 RL에서 나온 레퍼런스인가요?

20:16 김성현 The Second Half에서 제시하는 것처럼 RL이 정답이다, 이 모든 문제에 대한 해답이다라고 가정했을 때, 해답이 주어졌을 때에도 주어지는 문제는 있거든요. 그 주어지는 문제가 환경 스케일링의 문제인 거죠.

이 환경 스케일링이 풀려 나갈 수 있는 시나리오가 제 생각에는 세 가지일 거고, 사실 이 세 가지가 가능한 곡선을 거의 다 포괄하는 내용이라서 사실 예측이 아니긴 합니다만 이 세 가지 시나리오가 있는 거죠.

20:42 최승준 그거를 좀 더 일반화해서 미래 예측의 맥락으로 약간 전이시켜서 말씀하시는 거군요.

20:47 김성현 여기에서 조금 더 구체적으로 말씀드리자면, 파란색으로, 파란색 궤적은 제 생각에 기술적 혁신이 별로 없고 과제의 복잡성에 따라서 과제를 만드는 비용도 계속 동일하게 증가하는 경우, 혹은 그 과제의 복잡성에 비해서 비용의 증가가 훨씬 더 큰 경우가 파란색에 좀 가까울 것 같습니다. 정말로 원하는 너무너무 복잡한 문제를 풀려고 하면 만들어야 되는 환경의 비용이 너무너무 크고 너무 시간이 오래 걸리는 거죠. 그래서 기술의 발전이 굉장히 느려지는 경우가 파란색이 될 것 같고요.

이 지수적인 발전 같은 경우는 이 환경 스케일링의 문제가 기술적으로 완전히 풀려, 한 번에 풀려버리는 경우가 여기에 가까울 것 같습니다. 그래서 지속 학습이 풀리면,

21:27 최승준 자기 자신을 부트스트래핑할 수 있는 그런 종류의 기술이라는 거죠.

21:31 김성현 부트스트래핑하고, 자기 자신이 환경을 스스로 발견해서 문제를 푸는 경우. 그러면 기술이 기술의 문제를 풀어버리는 거죠. 이런 것들이 일어나면 이런 지수적인 발전이라든지 굉장히 발전이 가속되는 경험을 하게 될 것 같고요. 그게 아니라 그 정도의 기술적 점프는 없지만 과제의 복잡성을 풀어나갈 수 있는 기술이 발생하고, 그 기술을 통해서 다시 더 복잡한 과제를 만들어내고, 다시 또 기술의 발전이 있어서 다시 과제의 복잡성을 낮추고, 이런 것들이 반복되는 시나리오라고 하면 좀 선형적이고 직선적인 흐름에 가깝게 보이지 않을까 하는 생각을 하게 됩니다. 물론 이렇게 예쁘게 그래프가 나오진 않겠죠.

제 예상을 말씀드리자면, 저는 이 녹색이 발생할 가능성이 꽤 높다고 생각합니다. 왜냐하면 지속 학습 같은 문제는 지금 모든 사람이 주목하기 시작했더라고요. 몇 달 사이에, 그리고 이걸 풀려고도 많은 사람이 시도하고 있으니까 이런 풀리는 것들이 일어날 수 있지 않을까 하는 생각을 합니다. 물론 풀리더라도 이렇게 예쁘게 지속적으로 발전하지는 못할 수도 있고, 시행착오 많이 있겠지만.

환경 스케일링 — 4가지 기술 발전 시나리오

22:39 최승준 4번에, 4번에 베팅하고 있었는데 3번, 오히려 3번이라고 말씀하셨네요.

22:46 김성현 왜냐하면 저는 그런 패러다임의 전환을 계속 기다리고 고대하는 입장이거든요. 그렇기 때문에 약간 기대에 의한 예측이죠. 그런데 충분히, 현실적으로 베팅하자면 저는 직선에 좀 가깝지 않을까. 계속해서 복잡성을 줄이기 위한 시도들을 하고, 그걸로 인해서 감당할 수 있는 과제의 복잡성도 늘어나고, 이런 것들이 일반적이지 않을까 싶고요.

23:04 최승준 하지만 선형적이더라도 체감 수준에서는 지수적일 수 있다는 거죠.

23:13 김성현 네, 그렇습니다. 지금 예를 들어서 사람을 통해서 과제를 만드는, 이것도 프론티어 기업들은 계속 엄청난 돈을 자원을 투자하고 있다고 알고 있는데요. 그 자원을 투자하고 있는 것 속에서도 그것을 통해서 계속해서 발전이 일어나고 있잖아요. 그리고 그것이 사람들한테는 갑자기 급진적인 혁신처럼 느껴지죠. 그런 일들이 계속 일어날 거라고 생각을 합니다. 그런 일들은 거의 기본적인 베이스에 가깝지 않을까 하는 생각을 합니다.

2026년 키워드: RL의 돌파구 23:36

23:36 노정석 그럼 성현 님이 좀 정리를 하면, 2026년을 지배하는 가장 중요한 키워드도 역시 모델의, DeepSeek이 보여줬던 모델의 약간 잔잔바리 아키텍처의 변화나 효율성 증가나 이런 부분들은 조금 당연히 그냥 받아들이는 부분이고, 모델의 근원적인 capability, 능력의 점프는 이 RLVR, 이 포스트 트레이닝에서, RL에서의 누가 어떠한 돌파구를 만드느냐가 가장 중요한 요소가 될 것 같다라는 말씀을 주신 걸로 저희가 이해하면 되겠죠.

24:09 김성현 네, 그리고 그 혁신이 너무나 급진적인 혁신일 수도 있고요. 그게 지속 학습 케이스고, 그렇지 않더라도 풀어야 되는 복잡성을 낮추는 작은 기술적 혁신들, 합성 데이터라든지 이런 혁신들, 그리고 작은 개선들, 이런 것들이 실질적 차이를 만들어내겠죠.

24:27 노정석 네, 앞서 GLM 5 논문도 소개를 간단하게 해 주셨는데 거기서도, 저는 사실 읽어보지는 않았습니다만 대부분의 내용이 RL을 어떤 식으로 새로운 방법을 도입할 거냐, 효율을 증가시킬 것이냐 이런 부분에 대한 내용이었다라고 말씀을 주셨잖아요. 그래서 그거를 가지고 조금 더 약간 잠재 공간을 예측해 보면, OpenAI라든지 아니면 Anthropic이라든지 Google이라든지 이런 쪽의 프론티어 랩들도 거의 대부분의 노력이 RL에서의 어떤 돌파구를 찾는 데 투여되고 있을 거다라고 추정하시는 거죠.

25:04 김성현 네, RL에서 돌파구를 찾고 지금 일어나고 있는 RL을 개선하는 것이 가장 큰 차이라고 생각합니다. 지금 Anthropic이나 Google이나 OpenAI가 갖고 있는 차이들도 그 기업들이 RL에 대해서 어떻게 접근하고, RL의 환경을 어떻게 만들었고, 모델을 어떻게 가이드했고, RL로 가이드했고, 이런 부분들에 의해서 결정될 것이거든요.

모델 성향의 차이: 프리트레이닝 vs 포스트 트레이닝 25:25

25:26 김성현 그러니까 예를 들어서, 저는 프리트레이닝은 Gemini가 여전히 제일 잘 돼 있고 제일 강할 거라고 생각을 하는데, 근데 프리트레이닝과는 별개로 사람들은, 어떤 사람들은 Codex를 선호하기도 하고 Claude를 선호하기도 하잖아요. 그 차이가 발생하는 건 RL에서, 포스트 트레이닝에서 발생하는 거지요.

25:43 노정석 네, 사람들이 모델의 성향 차이를 두고 호불호가 갈리거든요. Claude는 직관적이고 훨씬 더 인간의 생각이나 인간의 어떤 성향, 이런 것과 더 얼라인이 잘 된다라는 느낌을 갖고 선택하시는 분이 많고.

Codex는 따지기 좋아하고 혼자 알아서 무언가 시작과 끝을 맺는 거를 하기 때문에 좋아하는 분들이.

Gemini는 그 둘 어딘가에서 사실은 약간 어정쩡한 그런 느낌이거든요. 그러나 사실상 가지고 있는 지식이나 품질이나 이런 거 보면은 Gemini가 사실은 제일 넓게 가지고 있는 건 저희는 맞다라고 추정하고 있고.

26:23 김성현 그게 프리트레이닝의 힘이겠죠. 근데 성향의 차이는 포스트 트레이닝에서 만들어지는 거고요. 근데 이 포스트 트레이닝을 생각하면, 앞서 말씀드린 것처럼 제품이라는 관점에 대해서는 영향이 굉장히 크게 발생하는 거겠죠.

그래서 Claude 캐릭터를 좋아하는 분들도 많고, 저도 Claude 캐릭터는 굉장히 좋아합니다. Claude Opus 4.6을 쓰면서 더더욱더 좋아하게 됐는데요. 물론 코딩과는 별개로 제가 그냥 채팅을 하면서 느꼈을 때, 이 Claude 캐릭터를 굉장히 좋아하는데, 이 Claude의 캐릭터라는 게 어떤 기술적 혁신으로 만들어졌다고 말하기는 어려울 것 같습니다. 물론 기술적 혁신의 도움을 많이 받기는 했죠. Constitutional AI라든지 혁신의 도움을 많이 받기는 했지만, 그 유명한 Amanda Askell 같은 사람들이 constitution을 만들고, Claude의 캐릭터를 정립하고, Claude라는 어떤 제품에 접근하고, 이 제품을 개선하고, 제품이 어떤 캐릭터를 가지고 성향을 가졌으면 좋겠다라고 하는 그런 측면에서의 관점과 개선들이 굉장히 크게 영향을 미치고, 그런 의미에서 포스트 트레이닝이 더할 나위 없이 중요한 상황인 거죠.

하네스와 모델의 융합: 제품과 모델의 경계 27:17

27:22 최승준 그러면 최근에 하네스를 모델이 잘 쓰게 한다거나 에이전트 swarm이나 에이전트 팀 같은 것들도 결국에는 RL이 결정적인 가능성이 있는 거죠.

27:30 김성현 하네스 자체가, 예를 들어서 Claude Code라는 하네스가 있다면 그 하네스에 대해서 모델이 학습이 될 것이거든요. 이것이 지금 어떤 하네스에 대한 특화라든지 하네스 차이에 대해서 큰 영향을 미칠 가능성이 있죠. 이게 예전에 Moonshot AI의 CEO가 언급했던 이야기인데, 제품과 모델의 경계가 점점 더 가까워지는 것의 한 가지 이유이기도 합니다.

왜냐하면 모델 개발사 측에서는 이전이라고 하면 모델을 다양한 사용처에 대해서 학습하는 것이 우선이었겠지만, 지금 모델 개발사는 에이전틱 모델을 만들면서 그 에이전틱 모델에 특화된 어떤 하네스도 갖고 있기 마련이거든요. 왜냐하면 그 하네스가 환경의 일부이기 때문이죠.

그래서 Anthropic이라고 하면 Claude Code라는 하네스가 당연히 이 환경 스케일링과 포스트 트레이닝에서의 컴포넌트로 들어가 있죠. 그렇다고 하면 이 하네스를 통해서 이미 모델은 학습이 된 겁니다. 그리고 이 하네스를 사용하는 방법을 모델이 이미 학습해서 나오기 때문에, 이 하네스가, 모델과 하네스의 결합이 어떤 제품이라고 한다면 그 제품은 이미 코앞에 있는, 모델의 학습이 끝난 시점에 존재하는 거죠.

28:42 노정석 이게 정반합 형태로 계속 발전하는 것 같아요. 모델이 좋아지면 그것 때문에 하네스가 좋아지고, 그 모델과 결합한 하네스가 새로운 어떤 결과나 플로우를 내놓게 되고, 환경 역할을 하게 되면 그 자체를 또 그다음 세대의 모델이 통째로 내재화하는 그런 것들을 겪게 되고, 더 나은 출발선에서 다시 또 하네스가 만들어지고, 이런 식의 단절적 변화라고까지는 아니지만 끊임없는 변화가 계속 일어나고 있는 게 아닌가라는 생각이 듭니다.

29:10 최승준 이거는 비약일 수도 있는데, 최근에 OpenClaw 이후에 환경에 대해, 에이전트가 활동할 수 있는 환경이 굉장히 다양해졌다고 하면, 그거는 사실 미분 가능한 신호로 연결되는 건 아니잖아요. 그럼에도 불구하고 뭔가 지금 환경 자체가 좀 영향이 있다는, 직관 같은 게 비약일 수 있지만 좀 생기긴 하는데, 그거를 어떻게 생각하시는지 궁금하네요.

일반화와 지속 학습 가능성 29:32

29:34 김성현 다양한 환경에 들어가서 활동할 수 있게 된 것이, 한 가지 가능성은 다양한 환경에 이미 넣어봤기 때문에 일 수도 있을 것 같은데, 아마 그보다는 예상 가능한 시나리오는 아니었을 것 같아서, 그보다는 일반화 능력에 가까울 것 같습니다. 환경 스케일링을 돌파할 수 있는 한 가지 방법은 모델의 일반화 능력을 확장하는 것이긴 할 거거든요. 좀 더 간단한 환경이나 좀 더 다른 환경에 대해서 학습을 하더라도 모델이 더 복잡한 환경과 더 다른 환경으로 일반화될 수 있으면 이 문제가 좀 더 쉬워지는 거겠죠. 그 측면에서 그런 일반화 능력이 발현된 것에 가깝지 않을까 하는 생각이 듭니다.

근데 다양한 환경에 넣어볼 수 있다는 건, 넣어볼 수 있는 상황은 갖춰진 거죠. 근데 말씀하셨던 것처럼 이 다양한 환경에 넣어볼 수 있는 것이 모델을 발전시키고, 이 다양한 환경에서 모델이 적응할 수 있는 기회로 이어질 수 있다고 하면, 문제가 갑자기 급진적으로 변하기 시작할 겁니다. Claude 봇들이 어디 가서 커뮤니티를 한다든지, 글을 쓴다든지, 자율적으로 어떤 과제를 수행한다든지 이런 것들을 했을 때, 그런 자율적으로 수행할 수 있는 공간은 주어져 있는데 그 공간 속에서 어떤 수행을 하고 상호작용을 하면서 그것이 모델을 발전시키고 변화시킬 수 있는 계기가 될 수 있다고 하면, 모델이 갑자기 크게 변하겠죠. 그게 지속 학습 시나리오일 거라고 저는 생각을 합니다. 그걸 연결할 수 있는 방법은 굉장한 기술적, 패러다임적 혁신이 있어야 되고, 그런 것들을 기대하게 되긴 합니다.

이게 일어난다고 생각하면 아마 사람들이 겪는 느낌이 많이 달라질 겁니다. 그 수많은 Claude 봇들이 단순히 자율적으로 어떤 과제를 처리하는 걸 떠나서, 자율적으로 처리하면서 피드백을 얻고 자기 자신을 발전시키는 것들을 보게 될 테니까요. 아마 그쯤 되면 하면 안 된다고 말하는 사람들이 많이 늘어날 것 같기도 합니다. 이거 노출시키면 안 된다, 하면 안 된다. 네, 진지하게요. 저는 이전부터 모델이 곧 제품이다라는 걸 믿어 왔고, 그래도 다행히 이전에는 조금 덜했던 것 같은데, 갈수록 사람들이 더 동의하기 시작한 것 같아요. 약간 기쁩니다.

근데 모델이 곧 제품이다라는 걸 이야기하면서 할 수 있는 이야기 중 한 가지는 기술을 기다리는 것, 기술을 기다리는 전략입니다. 사실 제 개인적인 전략이기도 합니다. 2년 전 정도였던가, 그때는 에이전트라는 것이 나오긴 했지만 모델이 에이전트로서 학습되었다거나 이런 것들은 잘 없었던 시점이었죠. 그때도 사람들이 모델을 가지고 어떤 제품을 만들려고 시도를 많이 했습니다. 그때 하네스가 정말로 어마어마한 하네스였죠. 모델이 그래도 무언가 하려고 할 때 할 수 있게 도와주는 도구를 쥐어주는 느낌이라고 하면, 그때 하네스는 틀을 다 꽉 짜놓고 모델을 거기 꽂아 넣는 느낌이었으니까. 그런 형태의 하네스라고 해야 될까요? 그걸 외골격이라고 해야 될까요? 그런 것들을 통해서 어떤 에이전트를 만들려고 사람들이 시도를 많이 했었는데, 굉장히 잘 안 됐죠. 잘 안 됐고 복잡성도 굉장히 높았고요. 그런데 이미 그 시점에서도 사람들이 했던 이야기가, 이렇게 수많은 하네스들을 만들고 복잡하게 만들어서 나온 제품보다 한 3개월에서 6개월 정도 기다려서 새 모델 나왔을 때 그 모델을 가지고 단순한 하네스를 써서 제품을 만드는 것이 훨씬 만들기 쉽고 성능도 훨씬 강력하더라라는 이야기를 했습니다. 그런 것들을 보여주는 것이 기술의 발전이 일으키는 파급력이 엄청나게 크고, 제품을 구성하는 방식이라든지, 모델에 접근하는 방식을 크게 변화시키고 결정한다는 것을 보여주는 사례라고 생각합니다.

기술을 기다리는 전략 31:39

33:04 김성현 그래서 지금 모델의 어떤 성능을 가지고 사람들이 얘기를 많이 하게 됩니다. 지금 모델은 이건 안 되고 저건 안 되고, 이거 안 되는 거 보니까 앞으로도 안 될 것 같다. 그리고 앞으로도 안 될 것 같으니까, 앞으로도 안 될 거라는 것이 반드시 AI에 대해서 비관적인 입장은 아닙니다. 예를 들어서 앞으로도 이게 잘 안 될 거라고 생각하면, 앞으로도 지시를 잘못하면 잘 안 될 거라고 생각하고, 지시를 정말 정교하게 주지 않으면 안 될 거라고 생각한다면, 그렇기 때문에 우리는 AI를 배워야 되고, 사용법을 정교하게 배워야 되고, 프롬프트를 잘 주는 법을 배워야 되고 사용법을 배워야 된다, 이렇게 이어질 수도 있거든요. AI를 긍정하는 입장에서도 그렇게 이어질 수 있는 거죠.

근데 저는 굳이 그런 조바심을 내는 것보다는, 다른 한 가지 전략은 기술이 발전하는 것을 기대하면서 즐기는 것도 또 한 가지 전략이라고 생각합니다. 뒤처진다고 느끼는 것보다는, 앞으로 발전될 모델들을 기다리면서, 그 모델들이 훨씬 내가 더 쉽게 쓸 수 있게 만들어 줄 거고, 더 큰 것들을 더 쉽고 강력하게 해낼 수 있을 거라고 기대하는 것도 한 가지 전략일 거라고 생각합니다. 그게 제 전략이기도 하고요. 물론 이것이 사회적으로 개인의 전략일 수도 있겠지만 사회적으로 긍정적인 일이 될 거라고 보장할 수는 없습니다. 기술의 발전이요.

예전에 AI 모델이 손가락을 제대로 못 그리는 것뿐만 아니라 얼굴조차도 잘 그린 이미지 생성을 못 했던 시절이 있었죠. 그때 많은 예술가들은, 아티스트들은 손가락조차도 제대로 못 그리는 AI를 어떻게 쓰겠냐라는 생각을 하는 사람들도 많이 있었습니다. 그거는 시간이 지나면 해결될 문제에 훨씬 가까웠습니다. 사람들은 지금 시점에서 가능한 것과 가능하지 않은 것을 기준으로 앞으로도 그게 계속될 거라고 믿는 경향이 생각보다 크게 있는 것 같습니다. 많은 경우에 그 한계들 중 많은 부분들은 그냥 시간이 지나면 해결되는 문제일 거거든요. 그렇다고 하면 사실 예상은, 시간이 지나면 해결되었을 때 어떤 일이 벌어질까입니다. 그걸 기준으로 생각을 해야 된다고 생각합니다.

그래서 한동안 그런 이미지 같은 것들이 돌아다녔던 적이 있었어요. 예술가들은 “AI 막아야 돼, AI가 예술 파괴하고 있어” 이렇게 반대하지만 프로그래머들은 AI가 프로그래머들을 대체한다고 하면 오히려 좋아한다, “빨리 대체해 줘” 이런 얘기를 한다는 이미지가 돌아다녔던 적이 있었거든요. 전 그 이미지가 돌아다녔던 이유가 바로 그 생각 때문이었다고 생각합니다. 지금 AI는 우리한테 좀 도움을 주고 쉽게 문제를 편하게 풀 수 있게 해주기 때문이지 앞으로도 계속 이 정도일 테니까 프로그래머의 직업이나 정체성 같은 것들을 위협받을 일은 없을 거다, 그런 가정이 깔려 있었던 거죠. 그런데 시간이 지나고 더 많은 것들이 늘어나기 시작하니까 좀 더 진지하게 이게 오히려 위협이라고 느끼는 사람들은 훨씬 이전보다 많이 늘어났을 것 같아요. 그리고 그 이전에 예술가들이 했던 반응들을 보이는 개발자들도 많이 있는 것 같고요.

이미 그런 모든 것들이, 지금 수준의 발전이 크게 없을 거다, 그리고 질적인 발전이 없을 거고 앞으로도 크게 변하지 않을 거라는 가정을 깔고 있기 때문에 발생하는 일이라고 생각합니다. 그런데 저는 그게 어쨌든 현실이라고 생각을 합니다. 그러면 물론 시간이 지나도 발전하지 못하는 문제들은 있을 수, 해결되지 못하는 문제들은 있을 수 있을 겁니다. 그건 굉장히 흥미로운 문제죠. 그런 문제들은 어떤 문제가 있는데 그 문제들은 앞으로도 절대 해결되지 않는다, 이런 문제들은 굉장히 흥미로운 문제고 그 자체가 연구적인 가치가 있는 문제일 겁니다.

근데 그것과는 별개로 많은, 지금 직면하고 있는 문제들은 시간이 지나면 해결될 수 있는 문제들일 거고 지금 풀리지 않는다고 하는 문제들도 계속 풀어나갈 수 있다. 그것들을 가정하고 생각하는 것이 좋지 않을까 하는 생각을 합니다.

36:42 노정석 Claude Code를 만들었던 Boris Cherny도, 지금 안 되는 문제가 있다면 6개월 후의 모델이 될 거라 가정하고 6개월 후의 모델을 상대로 제품을 만든다라는 얘기를 했었거든요. 그 말이 맞는 것 같아요.

36:58 김성현 그건 더더욱 프런티어 기업에 있었기 때문에 더더욱 가능했겠죠. 그런 감각이 말씀하셨던 것처럼 안개 앞쪽에 있기 때문에 가능한 것 같습니다. 그런데 안개의 뒤쪽에 있다고 하면 앞으로 6개월 후도 비슷할 것 같은데라는 가정을 하기가 좀 더 쉽고, 그렇다고 하면 거기에 맞춰서 전략을 짜게 되겠죠.

37:11 노정석 저희가 우스갯소리로 그런 말을 많이 했잖아요. 이 AI 쪽에서 1개월은, 과거에 1년 동안 일어나던 일이 1개월 안에 일어난다, 이런 얘기했었는데 그 1개월 1개월의 변화의 폭, 일종의 그래디언트를 느끼는 감각이 사람마다 지금 다 다른 거고 그거에 따라서 어떤 액션을 할지가 지금 다 다르게 비춰지고 있는 것 같아요.

37:33 최승준 희망 사항이 있다면 말씀을 듣고 보니까 AI 혼자서 잘 풀 수 있는 문제, 그리고 인간-AI 켄타우루스 형태에서 잘 풀 수 있는 문제, 인간만이 잘 풀 수 있는 문제, 이 3개가 다 공존하는 게 좀 행복한 사회겠네요.

검증 가능성과 컨텍스트 길이의 한계 37:52

37:52 김성현 네, 그럴 수도 있습니다. 근데 저는 그보다 좀 더 가까운 건, 예를 들어서 지금 RL의 중요한 패러다임은 검증 가능성인데, 인간의 직무를 잘 분석해 봤더니 사실 검증 가능하지 않은 부분들이 많더라라든지 이런 것들이 조금 더 가능한 시나리오일 수도 있지 않을까 하는 생각이 듭니다.

예를 들어서 커뮤니케이션이 중요하다라든지, 코드라고 하면 코드에서도 좀 더 검증하기 어려운 부분들이 있죠. 코드 퀄리티라든지 품질이라고 얘기하는 것들, 이런 부분들이.

38:20 최승준 RLVR로부터 도망가야 되는 거군요.

38:24 김성현 예, 그런 부분들이 아마 계속 병목일 가능성은 있을 수도 있을 것 같습니다. 그런데 그런 문제들은 모두가 다 아는 문제들이기 때문에 또 모두가 풀려고 시도를 할 거고 이미 어느 정도는 또 가닥을 잡고 풀어나가고 있을 것 같다.

38:36 노정석 그래서 지금 트랜스포머 모델의 콘텍스트 길이가 사실은 1M에서 고정된 지 벌써 2년이 지났거든요. 그걸 넘어서는 거는 사실은 비용의 문제도 있겠지만 프런티어 기업들도 이제야 겨우 Anthropic이나 OpenAI도 1M을 해주고 있는 상황이잖아요. Google은 예전부터 했지만,

그것 때문에 생기는 한계를 저희가 다 사실 에이전트 엔지니어링이라는 이름으로 보완을 하고 있고, 그게 좀 굳어진 그런 느낌이 들어요.

그리고 얼마 전에 작년에 성현 님 말씀하실 때 이 모든 토큰들의 entropy가 다 다르고 결정적인 토큰, 이런 말씀하셨었잖아요. 이것 때문에 뒤에 맥락이 다 바뀌고 심지어 그런 것들을 매개로 해서 그 안에 들어가는 이 attention score의 entropy를 다 계산해서 의미적으로 컨텍스트 블록들을 다 나누고 그것들을 메모리 관리를 하자라는 그런 시도도 제가 엊그저께 YouTube에서 본 것 같거든요.

그래서 어떤 모델을 새로운 CPU로 규정하고 기존에 있었던 von Neumann 아키텍처에서 인지 컴퓨팅의 모델을 새로 세우는 이런 시도들도 요새 굉장히 많이 보이고 있는 것 같아요. 그래서 성현 님이 말씀하셨던 모델과 하네스의 변증법적인 관계, 이것과도 관련이 있는 것 같은데 너무 많은 시도들이 여기저기서 일어나고 있어서 저도 어느 방향이 옳은지에 대해서는 정말 모르겠습니다. 진짜 다양한 분화가 일어나고 있는 시기구나.

컨텍스트 관리: Sparse Attention과 멀티 에이전트 40:08

40:13 김성현 컨텍스트 관리에서는 말씀하신 방법들 같은 것들, 그리고 Sparse Attention 같은 것들이 훨씬 전통적으로 생각하는 기술 기반 방법일 거고요. 그다음에 지금 한 가지 일어나고 있는 중요한 축은 멀티 에이전트하고 자체적인 요약이죠. Compaction이라고 표현하기도 하는데 모델 자체가 컨텍스트를 관리하도록 만드는, 멀티 에이전트나 Compaction이라든지 이런 것들이 결국 모델 자체가 컨텍스트를 알아서 관리하도록 만드는 것이거든요.

40:39 노정석 지금 현재 저희가 쓰고 있는 모델 중에서도 그런 auto compaction을 해주는 모델이 있나요? 대부분 다 하네스가 아니라 모델 자체적으로 그걸 처리하고 있는 건가요? 하네스가 처리?

40:47 최승준 하네스가 한다.

40:49 노정석 하네스가 처리한다고 봐야 되겠죠. 네.

40:54 김성현 그런데 이제 그거 자체가 RL을 통해서 가능해진 것 중 하나는 그거 자체가 학습될 수 있게 되는 거죠.

40:58 노정석 그 부분 조금만 자세히 설명해 주시겠어요. 제가 잘 이해를 못하고 있는 부분 같아요.

41:06 김성현 최근 많이 나오고 있는 시도 중 하나가 모델이 어떤 컨텍스트를 가지고 작업을 하고 있는, 작업을 진행하고 있는데 컨텍스트 길이가 너무 긴 것 같은 거예요. 대충 컨텍스트의 길이를 보니까 ‘아, 지금은 여기서 끝내지 못하겠구나. 넘기자, 다음으로.’ 그렇지만 넘길 때 지금까지 작업 진행 상황을 넘기기 위해서 요약해 놓자. 이런 의사결정을 할 수 있죠.

예를 들면 모델이 그것도 일종의 도구 사용이 됩니다. 결국은 다음 모델을 도구로 봐서 다음 모델에 넘기자. 그런데 다음 모델에 대해서 내가 탐색한 것에 대한 정보를 주자. 그러면 그다음 모델한테 넘겨줄 수 있죠. 그럼 다음 모델도 쭉 수행을 합니다. 하다가 이걸로도 안 되겠다, 다음 모델에 넘기자. 이게 모델들이 연쇄되는 거죠. 어떤 체인 형태가 되는 겁니다. 멀티 에이전트도 비슷하게 생각할 수 있습니다. 모델 쪼개 가지고 이걸 잡기 위해서 이 주자, 그다음에 그다음 모델에서 받아와서 그 결과를 받아 가지고 다시 하자, 이런 식의 결국 모델 사이에 연계가 되는 거죠.

41:55 노정석 근데 그러한 경향성도 학습된 거죠. RL을 통해서.

41:59 김성현 학습시킬 수 있다는 구조에 가깝습니다. 결과적으로 최종적으로 나오는 건 모델이 컨텍스트를 알아서 관리하는 형태가 됩니다.

그래서 봤더니 ‘아, 도저히 이 컨텍스트는 감당을 못 하겠다. 넘기자, 다른 모델이나 에이전트.’ 이런 자체적인 컨텍스트 관리가, 관리를 할 수 있는 어떤 얼개를 만들 수 있어요.

그런데 그런 얼개를 만들 수 있고 보상을 줄 수 있으면 RL로 학습을 할 수가 있는 거죠.

그리고 이런 형태의 작업들을 많이 하고 있고 아마 Compaction 같은 기업들이 하네스가 들어가 있기는 하지만 그 Compaction 시나리오에 대한 RL을 진행했을 겁니다.

Compaction이 정확하게 어떻게 돌아가고 있는지 내부는 모르기는 하는데요. 그런 것들이 들어갔을 겁니다.

42:32 최승준 모델이라고 Second Brain 쓰지 말라는 법 없잖아요. Zettelkasten 할 수 있는 거죠.

42:37 김성현 그리고 그것이 어떻게 보면 좋은 방향일 수도 있습니다. 컨텍스트 늘려 가지고 그 컨텍스트 안에 다 넣으려고 시도하는 것보다는 Second Brain을 쓰고 도구 사용하고 에이전트 사용을 통해서 컨텍스트를 관리할 수 있게 만드는 것이 더 합리적인 방향일 수도 있고요.

중요한 거는 이전이라고 하면 그걸 모든 걸 하네스로 했어야 되죠. 하네스로 ‘아, 이쯤 되면 컨텍스트가 이쯤 되면 이걸 쪼개, 어떻게 쪼개, 어떻게 요약해.’ 이런 요약한 다음에 ‘넘겨, 넘긴 다음에 결과를 받아와.’ 이런 것들 다 시나리오 만들고 하네스로 만들어줬어야겠죠.

43:07 최승준 그렇죠. 훅 걸고 이렇게 되고 그렇게 했었겠죠. 예전이라면, 작년이라면 그렇게 했었겠죠.

43:13 김성현 지금은 도구 사용 같은 한계가 있겠지만 그것들이 어쨌든 학습된다는 거죠. 그리고 이것도 제 개인적인 믿음이지만 AI 모델에서 학습이 가능한 것과 가능하지 않은 것은 질적인 차이가 있습니다.

43:27 최승준 지금은 학습 가능한 형태의 콘텍스트 엔지니어링이 있다, 이미 있다.

43:31 김성현 컨텍스트를 관리할 수 있는 방법이다. 컨텍스트를 모델이 알아서 스스로 관리한다고 생각했을 때 그러면 컨텍스트 관리를 중심으로 한 어떤 하네스들에 대한 관점이 좀 바뀌어야 될 수도 있겠죠.

Dario Amodei 인터뷰와 지속 학습 전망 43:40

43:43 최승준 그래서 Dario Amodei 최근 인터뷰 중에 굳이 지속 학습 안 하고도 문제 풀 수 있다, 그런 뉘앙스를 비친 것 같기도 해요.

43:48 김성현 다만 저는 여전히 그쪽 부분에서는 컨텍스트만으로는 안 될 것 같고 지속 학습, 학습이 일어나야 되는, 이거는 단순히 그런데 컨텍스트 관리를 넘어서는 문제이긴 합니다. 컨텍스트 관리 관점에서 보면 어쨌든 길이가 문제지, 컨텍스트를 잘 넣으면 다 된다 이런 느낌인데 저는 그보다는 학습이 필요하긴 할 것 같다라고 생각은 합니다.

44:11 최승준 그래서 그 인터뷰에서도 그렇지만 우리도 지속 학습 하고 있다라고 하긴 했었어요. 다 하는 거죠.

44:16 김성현 더 이전에는 지속 학습이 안 한다는 느낌에 가까웠던 것 같은데 점점 더 메시지가 지속 학습 한다는 쪽에 가까워지는 것 같더라고요.

44:23 최승준 모두 다 하고 있는 것 같아요.

44:27 김성현 저는 너무 자명하게 이걸 풀면 엄청난 일이 일어날 것 같다는 생각을 다들 하고.

44:32 노정석 2026년이 딱 두 달이 지났습니다만 6분의 1 정도 지났고, DeepSeek V4가 또 우리에게 어떠한 깜짝 놀람을 선사해 줄지는 좀 더 기다려보는 걸로 하고.

44:43 최승준 3월이에요. 벌써 그러면 알파고 주간이 멀지 않았거든요.

44:46 노정석 3월, 4월, 또 5월까지 해서

44:49 최승준 또 예정된 이벤트들이 있죠.

44:50 노정석 미친 듯이 또 달려 나가는 시기가 또 시작이 됐습니다. 또 성현님 개인적으로 소식이 하나 있죠. 성현 님이 이번 주에 한국을 떠나셔서 영국으로 가시죠. 그 개인적인 근황 토크 조금 해주시죠.

근황 토크: 런던 이주 44:54

45:06 김성현 이직을 하면서 이직한 회사가 이주를 요구해서 영국 쪽으로 가게 됐고요. 런던 쪽으로 갈 예정입니다.

45:13 노정석 가셔서 또 그 동네도 나름의 프론티어가 돌아가는 동네니 재미있는 소식들 많이 접하시겠네요.

45:22 김성현 그럴 수 있었으면 좋겠습니다. 말로만 듣던 엿듣기가 가능했으면 좋겠는데요.

45:31 최승준 어떤 기대가 있으신가요? 성현 님의 연구 취향이라든가 앞으로 그 분야에서 이런 거를 좀 해보고 싶다라는 기대감 같은. 왜냐하면 초반에 말씀하신 게 연결되는 부분이잖아요. 최근에 일어나는 일에 어떤 관심이 덜해지는 거와 분명히 그다음 단계 스텝은 그걸 극복하기 위한 뭔가 니즈가 있으셨을 것 같은데.

45:48 김성현 두 가지 관점에서 생각해 볼 수 있을 것 같아요. 어떤 모델을 만드는데 그 모델이 프론티어에서 경쟁하는 것이 너무너무 중요하고, 우리가 프론티어를 뛰어넘는 것에 관점을 맞출 수도 있을 것 같긴 한데, 저는 그것과는 별개로 모델을 만드는 것이, 그리고 좋은 모델로 이어지는 작업들을 하는 것이 즐겁습니다. 좀 더 나은 모델을 만들기 위해서 어떤 작업을 하고 어떤 기술을 개발하는 것을 좋아하는 쪽인 것 같습니다.

그리고 모델 개발 그 자체의 바깥에 대해서는 저는 기술 발전에 대해서 모두 좀 가까워지고 있는 기술을 기다리는 것도 그 때문인 것 같은데요. 앞으로 일어날 일들을, AI의 발전을 즐기게 된 것 같습니다.

46:26 노정석 짜증 내기보다는 즐기는 게 저희 답이죠.

46:29 최승준 FOMO에 휘둘리기보다는 자기가 잘할 수 있는 거에 좀 집중하고 중심 찾아가는 여정으로 개인적으로 느껴지긴 하네요.

불확실한 시대의 균형 감각 46:36

46:39 김성현 또 미래는 예측하기가 참 어려운 것 같거든요. 다들 어떤 미래의 예측에 기반해서 불안해하는 것, 불안해지는 것 같기도 한데, 불안해지기도 하고 너무 낙관하기도 하고, 다 모든 것들이 일어나죠. 그렇지만 그런 어떤 낙관하고 불안해하기에는 미래는 예측하기 너무 어려운 것이 아닌가 하는 생각이 들죠.

예를 들어서 기댓값을 구한다고 하면 확률과 결과를 곱해서 합치잖아요. 그런데 너무너무 다양한 가능성이 있고 너무너무 다양한 그 확률을 알지 못하기 때문에 불확실성의 측면에서 보면 어떤 한 가지, 그것을 믿고 그 믿음을 통해서 흔들릴 정도로 우리가 확실하게 알지는 못하지 않을까.

47:15 노정석 요새 전 지구인이라고 표현하면 좀 그렇지만, 정말 전 국민이 예측 엔진으로 살고 있는 시대거든요. 다 모두가 주식 시장에 붙어서 각자의 배팅을 하고 있기 때문에. 안 하는 분이 없으시더라고요.

47:32 최승준 prediction 하니까 농담 아닌 농담이 떠오르는 게, 저도 몰랐는데 pre 플러스 diction이더라고요. diction, 말하는 거를 미리 해보는 거, 그런 거더라고요.

47:42 노정석 성현 님, 그러면 영국 가시면 저희가 시차를 잘 맞춰서 계속해서 이 프런티어에서 일어나는 일들과 그에 대한 생각들, 저희 굉장히 혼돈스러운 시기거든요. 모두가 혼돈스러운 시기고, 저는 비관과 낙관, 이 사이에서 균형 감각이 결국 제일 중요하다라는 생각이 드는데, 그 균형 감각이 뛰어난 사람들은 항상 어떤 미래에서 잘 적응하고 올바른 배팅들을 하게 되고, 혹은 위험 관리를 하게 되고 하는 그런 것들을 보게 되고, 너무 극단에서 한쪽으로 가는 사람은 누구는 기회를 놓치거나, 혹은 누구는 한 번은 맞출 수 있으나 그다음은 못 맞추고, 이런 경우를 많이 보게 되더라고요. 항상 저도 돌고 돌고 돌아서 어떠한 균형 감각을 갖고 있느냐가 인간으로서 지금 제일 중요한 덕목이다, 이렇게 생각을 하는데요.

48:41 최승준 성현 님 런던에 가시더라도 이렇게 차분하게 함께 돌아보면서 얘기할 수 있는 기회는 소중하기 때문에, 저희가 섣불리 놓아드릴 수 없는 그런.

48:48 노정석 알겠습니다. 그러면 오늘도 저희 두 달 동안 있었던 일들과 앞으로 일어날 일들에 대해서 성현 님의 생각 토큰을 쿼리해 보는 좋은 자리였습니다. 저희 약간의 불확실성을 지나가고 있는 거니까, 또 한두 달 지나면 재미있는 일들이 많이 생겨 있겠죠.

마무리 및 감사 인사 49:01

49:07 김성현 네, 그랬으면 좋겠습니다.

49:09 노정석 그러면 오늘은 이 정도에서 마무리하도록 하겠습니다. 성현 님 감사합니다.