EP 45
AI 비즈니스 생존전략 — 어디에 AI 비즈니스를 세울 것인가?
오프닝: Non-Verifiable Data Domain Is All You Need 0:00
노정석 녹화를 하고 있는 오늘은 2025년 3월 29일 토요일 오후입니다. 제가 지난 3월 22일에 한 행사에 가서 발표를 하나 짧게 했었는데 그 내용이 좀 정리가 돼서 승준님한테도 한번 소개해 드려 보려고 합니다. 그래서 제목을 non-verifiable data domain is All you need라고 지었는데 뭔가 이 곧 AGI가 될 프런티어 모델들의 이 공격으로부터 어떻게 살아남아야 되는가 스타트업 founder로서 그다음에 AI 엔지니어로서 이 OpenAI나 구글처럼 프런티어 모델을 개발할 수 없는 그런 입장에서 무엇을 해야 되는가에 대해서 일종의 생각 실험이라고 보시면 돼요.
그렇기 때문에 약간은 주관적이고 또 논리적으로 완벽하게 맞지 않는 영역이 있을 수 있지만 하나의 관점에 대한 이야기이기 때문에 한 번 얘기를 해보도록 하겠습니다. 그래서 저는 무언가 이 AI 시대에 기회를 잡고 싶어 하는 기술 창업가들을 audience로 해서 이 자료를 만들었고요. 그 관점에서 한번 봐주시면 좋을 것 같습니다.
AI 비즈니스에서 돈 버는 두 축: 인프라 vs 수직 통합 1:11
AI와 비즈니스를 융합한 그런 영역들의 얘기를 굉장히 많이 하고 있잖아요 그러면서 항상 하는 얘기가 AI world에서 돈을 버는 영역이 딱 한두 군데 정도밖에 없는 것 같다. 그거 말고는 대부분 돈을 못 버네. 그럼 그 두 군데가 어디야 라는 이야기를 했을 때 하나는 이 NVIDIA처럼 칩을 제공하고 그다음에 무언가 Lablup처럼 orchestration layer를 제공하고 그다음에 그 위에서 cloud service를 제공하는 소위 그런 AGI infrastructure와 관련된 그런 쪽이 돈을 버는 한 축이고 그걸 벗어난 다른 축은 테슬라처럼 무언가 명확한 하나의 vertical 그 vertical을 가지고 그 사이사이에 빈 공간을 AI service를 이용해 가지고 이렇게 연결한 그런 영역들 수직 통합화를 한 영역들이 돈을 버는 것 같다.
그러면서 그 영역들의 핵심이 나만 가질 수 있는 데이터 proprietary data고 그 데이터가 서비스를 더 좋게 만들고 그 서비스가 더 좋은 데이터를 생성시키고 이렇게 선순환이 도는 일종의 data flywheel이 중요한 영역이다. 이렇게 얘기를 하면서 그 스타트업들한테 그냥 AGI 위에서 서비스를 develop을 하든지 물론 이것도 굉장히 큰 기회죠. 아니면 무언가 새로운 영역으로 도망을 가든지 그 둘 중에 하나를 하는 게 좋겠다라는 이야기를 항상 했었는데요.
서비스·알고리즘·컴퓨트, 세 관점으로 본 AI 산업 지형 2:40
제가 항상 서비스와 알고리즘과 compute 뭐 이런 세 가지의 어떤 관점으로 세상을 좀 보면서 이런 식의 얘기를 했었죠. compute와 engineering layer만 지금 돈을 버는 것 같다. algorithm layer가 지금 제일 commoditize와 democratize가 심해서 여기는 Big Tech에 취직하거나 이런 게 아니면 학교에 교수님이 되거나 하는 게 아니면 여기가 지금 무언가 자본적인 입장에서는 value capture에서 좀 제일 손해를 보는 영역인 것 같다.
이런 얘기를 했었고 그리고 우리가 아는 NVIDIA나 OpenAI나 구글이나 메타라든지 소위 여기에 오늘 x.ai도 하나 낀 건데 무언가 출발점은 다르지만 NVIDIA는 아래 칩에서 시작해서 중간에 있는 meta layer들 middleware들을 공급하면서 계속해서 서비스 쪽으로 더 올라오고 있고 OpenAI는 서비스로 시작해서 걔네들도 막 칩을 개발하고 뭐 하고 하면서 이렇게 넓혀가고 있고 구글은 원래부터 전방위로 다 하던 회사였고 메타는 정말 최상단 서비스에서 또 아래로 내려오고 있고 테슬라 같은 경우는 자기네들은 완전히 다른 자동차 영역에서 하면서 중간에 있었던 어떤 layer들은 사실은 테슬라는 얘네가 LLM을 개발하거나 그런 건 아니고 정말 open domain에 있는 기술들을 잘 leverage 해서 사용하는 곳이잖아요.
그런데 그것들을 잘 연결해가지고 이렇게 위에서부터 아래까지 수직 통합화를 하는 이런 것들을 하고 있는데 그래서 한쪽은 정말 AGI가 어떤 궁극적인 이런 도착점이고 하나는 full-stack vertical integration이 key인 영역이다. 이렇게 제가 나눠서 설명을 했었거든요.
스타트업의 두 가지 옵션과 Data Flywheel 4:29
그래서 우리는 option이 두 개밖에 없다. 스타트업 입장에서는 AGI 위에서 서비스 스타트업을 만들든지 아니면 테슬라처럼 뭔가 하나의 vertical을 잡고 뭘 이렇게 수직적인 통합을 통해서 뭘 만들든지 이 둘 중에 하나를 해야 된다라는 말씀을 거의 한 3, 4년째 사실 3, 4년째 이런 얘기를 하고 있는 이유가 제가 맞다는 거를 계속 스스로 검증하는 게 아니라 저는 제가 맞든 틀리든 상관없거든요. 그냥 세상이 가는 방향이 어느 방향인지가 중요한 건데 아직 요거를 뛰어넘는 다른 player는 못 봤다.
그래서 저희 그 테슬라 하면은 Andrej Karpathy가 이런 얘기 굉장히 많이 했잖아요. 이 선순환 뭔가 자기가 테슬라의 예시를 들면서 했죠. data source가 생기면 그거 가지고 무언가 더 정확한 label 때문에 Autopilot이 훨씬 정확해지고 그 Autopilot 때문에 테슬라 차가 더 많이 팔리고 차가 더 많이 팔리는 것 때문에 데이터가 더 많이 들어오고 그 데이터 때문에 또 서비스가 더 강화되고 Autopilot이 강해지고 그래서 차가 더 많이 팔리고 이런 것들을 하는 소위 선순환 loop를 만드는 유일한 출구인 것 같다. 그리고 이 얘기를 data flywheel이라고 불렀었죠.
AGI 임박: 프론티어 모델의 폭발적 발전 5:51
그래서 다시 돌아가 보면 제가 무언가 미래는 두 가지 방향성밖에 없을 것 같다. 하나는 프런티어 모델 위에서 AI service를 build를 하든지 아니면 이 프런티어 모델이 handle하지 못하는 그런 어떤 영역에서 수직 통합한 AI service를 만들든지 둘 중에 하나를 해야 된다라는 이야기를 했었는데 그 저희가 지금까지 했었던 이 AI 이야기를 그냥 하나만 다른 것들을 다 제쳐두고 중요한 얘기만 요약해서 결론만 뽑아보면 Dario Amodei도 2027년이면 모든 영역에서 인간을 뛰어넘는 이 모델이 나올 거다라는 이야기를 공공연하게 하고 있고 엊그저께 구글 Gemini 1.5가 나왔는데 성능 정말 좋고 benchmark도 놀랍더라고요.
그런 것처럼 저희 불과 두세 달 사이에 어마어마한 발전을 보고 있지 않습니까? 그리고 승준님이 또 session에서 다뤄주시겠지만 지난 1월 말 DeepSeek R1 발표 이후부터 어마어마하게 달렸잖아요 Grok, Llama 3, Claude 3.7 Sonnet, GPT-4, GPT-5 Gemini 2.0 등등등 가고 있는데 그래서 저는 AGI는 곧 달성이 될 거다라고 개인적으로 생각을 하고 있고 또 지금 우리가 보고 있는 모델을 인정하고 싶지 않아서 그렇지 사실은 이미 굉장히 많은 영역 거의 대부분의 영역에서 인간보다 훨씬 뛰어난 영역에 도달했다고 봐도 무방할 것 같고요.
Verifiable Reward Function과 Test-Time Compute 7:23
가치 판단의 기준들을 좀 다 잃은 것 같아요. 그런데 저는 저희 test-time compute에 대해서 승준님과 저도 굉장히 많이 다뤘잖아요. 이게 얼마나 왜 중요한지에 대해서 그래서 저희가 작년 올해 초까지 해서 사실 OpenAI o1과 DeepSeek R1의 의미에 대해서도 굉장히 많이 다뤘는데 저는 이게 시사하는 바가 굉장히 큰 것 중의 하나가 무언가 검증 가능한 reward function을 만들 수 있는 영역 어떻게 algorithmic한 방법으로 이 verifiable reward function, 검증 가능한 reward function을 만들 수 있는 영역들은 사실은 저희 DeepSeek R1이 보여줬잖아요 OpenAI o1이 어떻게 만들어졌는지를 검증한 모델이라고 볼 수 있는데 그냥 찾으면 된다.
답안지만 주어지면 그 사이에 reasoning token은 끊임없이 계속해서 test-time compute를 투입하면 만들어진다라는 걸 저희 알게 됐으니까 그래서 그런 영역들 대표적으로 수학이라든지 과학이라든지 아니면 코딩 이런 영역들이 그냥 한 번에 다 만들어졌죠. 여기는 dataset이 완전히 reinforcement learning을 통해서 다 자체 생성되는 영역으로 넘어간 것 같아요.
그리고 나서 또 하나 physical world 저희 로봇 이런 환경도 승준님이 NVIDIA 하시면서 Omniverse랑 simulator 환경에 대해서도 얘기 많이 해 주셨지만 저는 이 NVIDIA가 제공하는 simulator 같은 경우도 사실은 검증 가능한 reward function을 만들어주는 환경이라고 생각이 들거든요. 그래서 이 부분에 대해서는 뒤에서 조금 자세하게 이야기를 하는 걸로 하고 그래서 중요한 message를 하나 요약을 해보면 무언가 reward function이 확실하게 만들어지는 algorithmic한 방법으로 만들어지는 영역은 그냥 Big Tech player들이 다 dataset을 자동 생성할 거다. 자동 생성하고 거기에 대한 능력은 프런티어 모델들이 다 탑재하게 될 거다.
Distillation과 Reasoning Model의 선순환 9:32
그렇죠 그리고 저희 또 distillation 추출 예시에서도 굉장히 많이 다뤘지만 그런 reasoning model들이 하나가 거대한 모델이 생기면 굉장히 많은 문제들에 대해서 reasoning token들을 쭉 다 써주잖아요. 그리고 어렵거나 매우 어렵고 품질이 높은 그런 영역들의 reasoning token들을 모은 그 dataset들만 잘 추려서 훨씬 작은 크기의 모델에 distillation을 하면 fine-tune을 걸면 SFT라고 하죠. supervised fine-tune을 걸면 32 million짜리 모델도 OpenAI o1-mini 이런 거에 필적하는 성능으로 증가하는 것들을 저희가 봤죠. 그리고 그거를 극강으로 만들어줬던 논문이 Stanford Alpaca 같은 저는 논문에서 많은 공부를 시켜줬다고 보고 있고요.
그래서 그렇게 생성된 수많은 dataset들이 dataset들이 많아지면 저희가 이 선순환에 대해서 얘기를 많이 하지만 reasoning model들이 dataset을 이만큼 늘려주면 그 모델 그 수많은 dataset은 다음 세대의 instruct model들이 그걸 가지고 학습을 하면 예전에는 reasoning model이 test-time compute를 통해서 이 끊임없이 연습장에 무언가를 쓰면서 답을 냈다면 그 다음 모델들은 그거를 소위 외우고 있거나 저는 외우고 있다와 이해하고 있다 와 해결 가능하다라는 게 거의 동치라는 생각이 드는데 그냥 물어보는 순간 아는 거죠.
그런 것들이 되는 것 같아요. 그래서 최근에 DeepSeek-V2가 새 버전이 나왔잖아요 새 버전이 나왔는데 0324 버전이 나왔는데 instruct model인데도 사실은 복잡한 reasoning power에 대해서도 그냥 간략하게 답들을 내는 것들을 많이 보여주고 있거든요. 저는 그것도 그런 capacity를 보여주는 거라고 생각을 합니다.
검증 불가능한 영역으로 도망가기 11:31
그래서 이 idea가 하나 생기는 거죠. 검증 불가능한 영역으로 그럼 도망가면 되겠구나 이 부분에 대해서 검증 불가능한 영역 그런데 이 부분에 대해서도 약간은 모순이 있는 게 사실 LLM이 저희 프런티어 모델들이 예를 들어서 Shakespeare의 소설이라든지 아니면 시라든지 아니면 무언가 저희가 인류가 진보를 하면서 계속 쌓아온 일종의 어떤 정치적인 가치 판단의 기준이라든지 사실 이런 부분들도 다 verifiable한 domain은 아니거든요. 근데 사람들이 무언가 가치 판단을 하면서 저희가 지식이라는 형태로 dataset을 만들어 온 거잖아요.
그러니까 그런 굉장히 많은 이미 굉장히 크고 많은 영역들의 non-verifiable한 영역들을 다 통째로 외우고 있거든요. 그러니까 여기서 그 프런티어 모델들을 더 명확하게 정의하면 걔들은 굉장히 많은 양의 verifiable data domain을 다 외우고 있고 알고 있고 이해하고 있을 뿐만 아니라 plus 검증 가능한 영역들은 스스로 탐색할 수 있는 영역까지 갖추고 있는 굉장히 큰 시스템이라고 보는 게 맞는 판단인 것 같고요.
프론티어 모델 위의 AI 서비스와 GTM 12:52
그 두 가지 영역에 대해서 설명을 해보면 프런티어 모델을 위해서 AI 서비스를 만드는 영역 이 부분이 일종의 LLM 래퍼라든지 GPT-2 래퍼 같은 굉장히 얕은 서비스라는 생각은 안 들거든요. 이미 LLM 자체가 하나의 거대한 인프라스트럭처가 되었기 때문에 이것도 어마어마하게 큰 opportunity가 될 거라는 생각이 드는데 이것 자체에서는 무언가 AI와 관련한 function이나 AI와 관련된 무언가의 소위 저희가 얘기하는 moat 너네만 할 수 있는 장점은 사실 구현하기는 어렵죠.
저는 go-to-market, GTM이라고 부르는데 go-to-market이 유일한 방법인 것 같아요. 좋은 팀 만들어서 좋은 문제 define하고 빨리 execution해서 서비스 잘 만들면 Cursor의 예제나 이런 거 보다시피 굉장히 큰 사업을 대단히 빠른 시기에 만들 수 있다는 것을 보여주고 있기 때문에 이 영역도 매우 매우 매우 큰 영역이라는 생각이 듭니다.
그런데 이 부분은 비즈니스 센스가 뛰어나고 GTM이라고 하면 정말 뭔가 심오한 엔지니어링이라기보다는 살짝 비즈니스 쪽에 훨씬 가까운 영역이니까 뭔가 tech entrepreneur보다는 그냥 뭔가 비즈니스 센스가 뛰어난 entrepreneur들이 훨씬 더 잘할 수 있는 영역이라는 생각은 들고 만약에 저희가 기술을 아는 entrepreneur의 입장에서 굳이 한다면 저희는 두 번째 영역 사실 프런티어 모델들이 잘 다루지 못하는 그런 vertical 영역에서의 AI 서비스를 만드는 게 좋겠구나.
핵심: Proprietary Data의 진짜 정의 14:39
그래서 오늘의 주제이기도 한데 너만 가질 수 있는 데이터 proprietary 데이터 가져야 된다는 얘기 굉장히 많이 하잖아요. 그런 proprietary 데이터가 무엇이냐는 거에 대해서 제가 살짝 한 단계 더 나아간 건데 이거죠. 뭐냐, 알고리즘적 방법으로 검증 가능한 reward function을 만들 수 없는 영역.
그런데 이런 부분들이 또 뭐로 다시 쓰일 수 있냐면 이 prompt work이나 agent를 잘 조합하는 걸로 아무리 잘 조합해도 참과 거짓이 명확한 synthetic data를 잘 생성할 수 없는 영역들이 여기에 포함돼요.
최승준 궁금한데요. 어떤 거죠?
환경이 만드는 검증 가능성: 로봇과 VLA 15:27
노정석 그런 영역들은 엄청 많죠. 그래서 이거에 심상을 띄우기 위해서 이걸 하나 보여드리고 싶은데 이게 환경이거든요. 이게 한 2주 전쯤에 Gemini Robotics에서 발표했던 한번 Google에서 큰 발표를 했었잖아요. 그렇죠? 뭔가 VLA, Vision Language Action 모델에서의 사실은 프런티어 모델을 만들어서 또 세상에 확 내보내 버렸는데 사실 로봇 쪽으로 지난 2년 동안 뛰어난 인재들이 굉장히 많이 창업을 했었잖아요.
이제 무언가 텍스트나 비전이나 비디오, 이런 모델을 중심으로 하는 곳에서의 프런티어 모델은 소위 빅테크 player들이 다 끝낸 것 같다. 그러면 다른 모델 중에서 프런티어 모델이 필요한 곳은 어디냐고 해서 제일 많이 갔던 곳이 로봇이고 이것들에 대한 성과가 요새 Figure AI라든지 첼시 핀 교수님 회사 이름이 갑자기 생각이 안 나네요. Physical Intelligence인가 이름이 생각이 안 나네요. 어쨌든 그런 회사들의 모델들이 많이 쏟아져 나오는 거라고 생각하는데, 보시면 Gemini도 그렇고 그다음에 많은 VLA 쪽으로 프런티어 모델을 한다는 lab들도 그렇고 다 이런 환경을 가지고 있거든요.
예를 들어서 우리가 만들고 싶은 task가 포도를 바나나가 있는 접시에 넣어 줘’라고 이런 task가 됐을 때 이 환경 자체가 있어서 뭔가 vision으로 정보가 들어오지 않는다면 이걸 아예 만들 수가 없거든요. label 자체를 생성할 수가 없거든요. 이런 부분들의 환경들이 non-verifiable한 영역을 verifiable로 바꿔주는 환경이라는 생각이 들어요.
취향과 주관의 영역: 메이크업 데이터셋 사례 17:26
그리고 더 큰 틀에서 생각해 보면 무언가 사람들의 취향을 묻는 거라든지 굉장히 주관적인 영역들의 데이터들이 여기에 굉장히 많이 들어가는데 무언가를 물어봤을 때 예를 들어서 기계는 모호하게 대답하지만 인간은 취향이 생기는 부분들이 있거든요. 예를 들어서 저희 회사 같은 경우에는 메이크업의 조합들에 대한 데이터셋을 굉장히 많이 만들고 있는데 그게 대표적으로 기계가 판단할 수 없는 영역이거든요.
이러나저러나 기계는 어떤 경우는 좋다고 하고 어떤 경우는 나쁘다고 그래요. 그런데 인간은 이 context가 주어지면 이건 명확히 좋고 이건 명확히 싫다는 것들을 계속 labeling을 하거든요. 그래서 무언가 사람들에게 끊임없이 메이크업 combination을 보여주고 고객들이 그것을 ‘좋아’, ‘싫어’, ‘좋아’, ‘싫어’ 어떠한 형태로든 직접적으로 ‘좋아’, ‘싫어’를 하든지 아니면 은근하게 이건 눌러보든지 이건 그냥 넘어가든지 이런 식으로 해서 피드백을 주는 그런 loop가 있다고 하면 거기에 label이 생기는 거거든요.
Non-Verifiable을 Verifiable로 바꾸는 Closed-Loop System 20:39
그러면 제가 방금 얘기했던 그런 서비스가 사실은 non-verifiable을 verifiable로 바꿔주는 어떤 환경인 거거든요. 그래서 이게 쉬운 얘기를 좀 멀게 멀게 돌아왔는데 이런 AI 서비스들이 Tesla의 자동차에 달려 있는 카메라처럼 카메라가 사실은 user가 급제동을 하는 환경이라든지 아니면 급가속을 하는 환경이라든지 아니면 Autopilot을 해제하는 환경이라든지 이런 부분들과 vision을 mapping한 데이터들을 가져다주잖아요. 그리고 그것들이 일정한 어떤 사용자의 피드백을 가지고 판단한 데이터가 함께 들어오는 거고 그게 사실은 label이라고 할 수 있기 때문에 이런 AI 서비스들을 결합하는 부분들이 우리가 프런티어 모델이 절대 갖지 못하는 그런 데이터 영역에서 무언가를 갖게 만드는 영역이구나 하는 이런 생각들을 하게 된 거죠.
그래서 이런 환경만이 뭔가 성공이든 실패든 0, 1의 label을 줄 수 있다. 그리고 이런 환경이 없다면 절대 무언가 얻을 수 없는 거죠. 아까 simulator에서 말씀드렸지만 Physical AI 같은 경우도 예전에는 이게 안 됐었는데 사실 많은 lab들이 그 실험 환경들을 갖췄고 그 실험 환경들을 simulator 환경에 가지고 오면서 더 이것들을 0과 1의 label을 줄 수 있는 환경들이 더 싸게 생겨나고 있고 그런 거죠.
그래서 그럼 아까 보여드린 이 non-verifiable을 verifiable로 바꿔주는 이 시스템 이 environment를 제가 정의하기로는 이런 거구나. 이 정의는 나중에 또 바꿀 수 있습니다만 지금 시점에서의 약간의 깨달음. 그럼 그런 것들을 가능하게 하는 AI 서비스나 simulator를 뭐라고 정의하면 될까? non-verifiable을 verifiable로 바꿔주는 이 closed-loop system이구나’라고 저는 이렇게 정의했어요.
이렇게 정의하고 세상을 바라보니까 똑같은 proprietary 데이터라도 이건 LLM이 하겠네. 이건 LLM이 못 하겠네’라는 판단의 기준이 좀 되더라는 말씀을 드리고 싶은 거죠.
최승준 있는지는 모르겠지만 문득 뉘앙스로 봤을 때는 open-endedness 연구하는 쪽에 강화학습 계열하고 약간 공명하는 부분이 있게 느껴졌어요. open-endedness 쪽에서는 agent만이 아니라 환경도 trainable object로 보거든요. 그래서 그 둘 사이의 관계가 막 엮여 들어가는 부분이 있는데 문득 그 생각이
노정석 네, 네. 아마 비슷할 겁니다. 저도 사실 제가 뭔가 어마어마한 발견을 해낸 게 아니라 무언가 비즈니스적으로 제 스스로 관점을 잡아야 저 task를 할지 말지 이런 것들을 결정하는데 결정하는 과정들이 보통 그렇거든요. 처음에는 뭔가 막 논문 읽어보고 다른 사람들 YouTube 들어보고 하면 뭔가 상이 맺히는 듯하지만 잘 안 와닿아요.
와닿는다면 약간 모호한 상태에서 저 reasoning 모델을 쓰면 저런 것들을 할 수 있지 않을까 우리도 token work를 해보면 이만큼 되지 않을까 라고 해서 엔지니어들이랑 막 회의해서 실험을 걸고 왕창 뭘 만들어 본다고요. 그러면서 시간이 몇 개월 가요.
사실 그러고 나서는 결국은 다 모든 게 evaluation으로 귀결되는데 그러면서 느끼는 거 있죠. 처음에 evaluation 틀이 명확하게 상상 안 되는 프로젝트는 시작하면 안 된다. 그래서 evaluation metric을 먼저 명확하게 정의해 두고 evaluation metric을 명확하게 정의한다는 것 자체가 사실은 label의 0, 1이 정해진다는 얘기랑 또 약간은 동치인 거라서 그래서 그러고 나서 깨달음이 생기면 이거 하면 안 되는구나.
플러스 그때 논문에서 했었던 얘기나 다른 애들이 저렇게 하는 이유는 저거구나. 새삼스럽게 스스로의 멍청함을 쫙 깨달으면서 뭔가를 하는 거죠.
그래서 오늘 제가 승준 님한테 말씀드린 내용이 아마 다른 분들이 보시기에는 너무 뻔한 내용일 수도 있는데 저는 개인적으로 맨날 proprietary 데이터 나만 가질 수 있는 데이터가 중요한데 그 나만 가질 수 있는 데이터는 무엇인가에 대해서 약간 한 걸음 조금 진전했다는 느낌이 들어서 요걸 좀 정리했는데
최승준 지금 하여튼 듣다 보니까 서사 구조가 지금 어떤 통찰이 있고 그걸 말씀하고 싶다는 느낌이 오거든요.
노정석 네, 지나보면 또 개소리일 수는 있어요. 그런데 그런 것들이 결국 어쩌면 simulator가 하는 역할이고 큰 의미에서 우리가 만들고 있는 AI 서비스가 데이터 관점에서는 어떤 데이터를 생성하는 서비스로 맞아 들어가야 하는구나 하는 것들을 얘기해 줄 수 있죠.
결론 정리와 AI 실습 제안 23:54
그래서 아까 말씀드렸던 이 중요한 메시지를 한번 반복해 보면 우리가 지금까지 얘기했던 너만이 가질 수 있는 proprietary 데이터는 무엇이다’라는 부분을 조금 더 자세히 정의할 수 있다. 그래서 그것은 무엇이냐, 뭔가 non-verifiable한 것들을 verifiable하게 바꿔주는 어떤 환경이다, closed 환경이다. 저는 이게 simulator이거나 혹은 AI 서비스다라고 이렇게 정의하고 있고 이 AI 서비스의 모양은 무엇이어야 하는가는 사실 도메인마다 다 다를 것 같아요.
헬스케어라든지 교육이라든지 아니면 어떤 HR 서비스 등등 LLM이 그냥 물어보면 바로 자기가 weight에 가지고 있는 지식을 꺼내서 조합해 주지 못하는 그런 영역들이 여전히 굉장히 많이 존재하거든요. 그래서 시스템은 무언가 특정한 vertical domain과 결합된 simulator이거나 AI 서비스이겠구나.
그리고 개인적으로는 그런 것들을 AI 서비스에서 훨씬 더 많은 기회를 느끼고 있다. 이러한 AI 서비스는 그 프런티어 모델의 강력한 성능 위에 그냥 래퍼로 올리는 것과는 좀 다르거든요.
이 부분들에 대해서는 굉장히 많은 예제와 이런 게 있지만 당연히 이게 수학 문제가 아니기 때문에 제가 오늘 얘기한 이야기 자체도 저의 하나의 의견이고 non-verifiable해요. 그리고 각각의 관점에 따라서 다 달라질 수 있는 상대적인 것이기 때문에 여기서 어떤 관점을 정의하느냐가 사실 회사의 어떤 전략적인 point들이 되는 거라서 이 마무리는 이렇게 하고 싶어요.
그럼 그런 것의 예제에 대해서 공부시켜 줘야 될 거 아니에요. 그런데 저희가 항상 하는 게 뭡니까? 승준 님과 제가 하는 게 AI와 함께 대화하며 지평을 넓히는 것들을 어떤 가치로 지향하고 있으니까 이것을 숙제로 한번 남겨 볼게요, 오늘.
최승준 아, 숙제인가요? 저는 이제 알려주시는 건가요?
노정석 아니요, 숙제라는 표현은 좀 주제넘었고, 실습. 어차피 해보고 싶으신 분들은 하는 거고 하시지 않을 분들은 영원히 하지 않기 때문에 제가 이 슬라이드 내용들을 원래 Emacs에서 그냥 쭉 에디터로 하나 써놓은 내용이 있거든요 이거를 그냥 여기다 갖다 붙여놨는데
이거를 그대로 끌고 가셔서 구글 AI나 ChatGPT나 Claude에 그냥 붙여 넣으시고 그 뒤에 첫 질문을 요걸로 시작해 보시는 거죠.
야 나는 요런 요런 도메인에서 일하고 있는데 내 도메인에서 non-verifiable을 verifiable로 바꿔주는 closed-loop system의 예제에 대해서 알려줘라고 하면 제가 몇 개 굉장히 많이 해봤거든요 매우 예제를 잘 줍니다. 그리고 제가 무언가 알지 못하는 도메인에서 제 머리를 막 상상해서 하는 것보다 이 친구가 훨씬 잘할 거기 때문에 나머지 작업은 이 친구에게 맡기고 제가 오늘 드리고 싶었던 말씀은 이 정도에서 마무리를 하도록 하겠습니다.
최승준의 Recap과 마무리 27:10
최승준 재밌게 들었습니다. 제가 한번 그냥 인공지능 아니고 인간 지능으로 recap을 한번 해 보면 처음에 제목은 non-verifiable 데이터를 만드는 것을 좀 강조를 해 주셨고
두 가지 어떤 기업가의 그러니까 AI를 사용하고 활용하고자 하는 기업가의 갈래길이 두 가지가 있었는데 하나는 새롭게 기민하게 시작하는 팀에서 적합한, 제가 느끼기로는 형태였고, 1번은.
2번은 기존의 기업인데 proprietary 데이터를 non-verifiable하게 만드는 쪽으로 해서 정석님은 지금 약간 실행이 2번 쪽으로 가셨다는 것을 그리고 거기서 뭔가 아이디어를 얻었다는 것을 지금 말씀해 주고 싶었던 거죠
노정석 네, 그렇습니다. 사실 2번 쪽을 잘 develop하는 것 말고는 대부분의 영역들은 프론티어 모델들이 훨씬 우리보다 잘하게 될 것이라서 그들과
최승준 1번도 기회가 있다고 말씀하시긴 했잖아요. 근데 1번의 뉘앙스는 뭔가 그 말씀은 직접 하시지는 않았지만 요새 워낙 작게들 시작할 수 있게 알고리즘이랄까, 코딩 도움을 받는 그런 레이어가 교란되고 있다 보니까 작게 빠르게 그런 것들을 해내는 예를 들면 Cursor 같이 그런 쪽이 1번인가요?
노정석 네, Cursor의 예제를 들면 저는 Cursor도 그 서비스의 본질 자체는 이 Claude의 능력을 그대로 가져다 쓰는 것이기 때문에 AI 인프라 위에서 서비스 레이어를 올린 것이라고 생각하거든요. 굳이 2번 관점에서 생각해 보면 수많은 이 코더들이 쓰면서 어떤 건 성공했고 어떤 건 성공하지 못했고 하는 소위 코딩 스타일이라든지 문제의 정의라든지 이런 부분들에 대해서 사실 non-verifiable이 verifiable로 바뀌는 영역이 Cursor도 당연히 있죠.
저는 Cursor 같은 서비스 자체가 아주 AI 인프라 위에서 그 AI가 갖고 있는 능력 자체를 product화해서 밖으로 꺼내는 그런 대표적인 예제가 아닌가라는 생각은 들어요. 우리가 지금 Y Combinator의 포트폴리오 회사에서 보는 굉장히 많은 예제들이 1번 영역이죠
최승준 1번 근데 2번은 뭔가 기존의 비즈니스가 있는데 거기에서 다른 곳은 건드리기 어려운 데이터를 만들어내는 데는 환경으로부터 신호를 얻어야 된다는 것이고 그 환경을 만들어낼 수 있어야 되는 거죠 신호를 받는 환경을
노정석 네, 그렇게 저는 정리하고 있습니다. 예, 그렇군요. 이 부분이 오늘 제가 얘기한 것이 이 비즈니스 부분들에 대해서 어디로 도망갈까를 고민을 많이 해 보신 분은 많이 공감이 되실 것이고 왜냐하면 저만 하더라도 승준님도 사업을 시작하신다면 이게 내년에 OpenAI가 딱 끝내버릴 영역으로 가고 싶지 않으실 것이잖아요.
최승준 당연하겠죠
노정석 네, 그래서 그런 부분들을 고민을 하다 보니 이런 데까지 도망을 왔네요. 그렇군요. 제가 이 표현을 안 쓰려고 하는데 이것의 제일 큰 주제는 어떻게 도망갈까예요 어떻게 도망갈까에 대한 도피 일기인 것이지 이게 그다지 막 자랑스러운 내용은 사실은 아니죠
최승준 의미심장하네요. 도피 일기라. 지금 하여튼 상황이 너무 빨리 변하고 작년하고 올해가 또 너무 다르잖아요. 그렇죠
노정석 계속 가속한다는 느낌이 들지 않으세요?
최승준 너무 그렇죠. 뭐랄까… 계속 붉은 여왕 그 말씀하셨는데 계속 그 상황인 것 같아요.
노정석 로그로 바꿔 보면 지금 linear하니까 이거 엄청 exponential한 거죠. 그렇죠. 그래서 지금은 지금 우리가 무언가를 상상한다면 2027년에 AI가 될까 말까라는 고민이 무의미하지 않을까요? 된다라는 가정하고 뭘 하는 것이 맞겠죠? 맞죠, 그것이 맞겠죠. 알겠습니다. 그럼 오늘은 이 정도로 제 주제는 마무리하도록 하겠습니다.
최승준 감사합니다.