<오픈AI의 딸기(o1) 서비스에 대한 저의 견해>
커리어리 친구들, 오픈AI가 재배한 딸기(strawberry, o1)를 잘 따서 먹고(사용하고) 있습니꽈? ㅎㅎ 현재 온통 제 페북 탐라에 딸기 얘기 밖에 없네요!! 일반 분들은 가을에 왠 딸기?? 라고 하겠지만 … 공개된 블로그를 읽고 제가 느낀 점에 대해 몇 가지 적어 보고자 합니다. 이번 ‘딸기’ 버전에서 크게 향상 된 것은 추론 시간을 단축시키고 동시에 많은 사용자가 사용할 수 있도록 추론을 확장시켜 추론 패러다임을 대중화시켰다고 봅니다. 물론 ‘딸기’ 이전에 그록(Groq, 일론 아저씨 Grok2 아님) 에서 엄청나게 빠른 추론 경험을 해 보신 분들이 있을 것 입니다. 강화 학습(Reinforcement Learning)의 선구자들 중 한 명인 리차드 서튼(Richard S. Sutton) 은, 컴퓨팅 자원이 증가함에 따라 무한히 확장될 수 있는 두 가지 핵심 기술이 '학습'(learning)과 '탐색'(search) 라고 보았습니다. 이 내용은 2019년에 작성한 에세이인 “쓴 교훈(The Bitter Lesson)"에서 비롯되었는 데, 특정한 인간의 지식이나 전문성을 모델에 주입하는 것보다, 계산 능력의 증가와 함께 일반적인 학습 알고리즘을 사용하는 것이 더 효과적이라는 점을 강조했습니다. 딸기는 이러한 후자인 검색에 초점을 맞추지 않았나 생각합니다. 1. 사실 추론을 수행하기 위해 거대한 모델은 필요하지 않습니다. 수 많은 파라미터가 Trivia QA와 같은 벤치마크에서 좋은 성능을 내기 위해 사실을 암기하는 데 사용됩니다. 또한, 지식에서 추론을 분리하는 것이 가능합니다. 즉, 웹브라우저나 코드 검증기와 같은 도구를 호출하는 방법을 아는 작은 "추론 코어"를 사용하는 것입니다. 그렇게 하면, 사전 훈련에 필요한 계산량이 줄어들 수 있습니다. 2. 막대한 양의 계산이 사전/후 훈련 대신 추론 서비스 제공으로 이동합니다. LLM은 텍스트 기반 시뮬레이터와도 유사한 데, 시뮬레이터에서 다양한 전략과 시나리오를 전개함으로써, 모델은 결국 좋은 솔루션으로 수렴하게 됩니다. 이 과정은 AlphaGo의 몬테카를로 트리 탐색(MCTS)과 같은 연구에서도 잘 보여 줍니다. 3. 수 억명이 사용하고 있는 OpenAI는 오래전에 추론 스케일링 법칙을 알아냈을 것이며, 이는 학계가 최근에야 발견하지 않았을까 추측해 봅니다. 주요 논문 근거는 다음과 같습니다. - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling : DeepSeek-Coder가 SWE-Bench에서 샘플 하나로 15.9%에서 250개의 샘플로 56%로 증가하여 Sonnet-3.5를 능가한다는 것을 발견했습니다. - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters: 이 논문은 PaLM 2-S가 테스트 시간 검색을 통해 MATH에서 14배 더 큰 모델을 능가한다는 것을 보여주었습니다. 4. 딸기의 실제 프로덕션에 적용하는 것은 학술적 벤치마크를 달성하는 것보다 훨씬 어려울 것 같습니다. 현재 ‘딸기’ 버전은 대부분 잘 생각(COT)해서 좋은 결과를 보여 주지만, 몇몇은 기대한 만큼 ‘reasoning’이 동작하지 않은 것이 여기 저기 탐라에 올라 온 글들을 보았습니다. (아직 베타 이전의 프리뷰 버전임을 감안) 또한, 실제 환경에서의 추론 문제에 대해, 언제 탐색을 중지해야 할까요? 보상 함수는 무엇일까요? 성공 기준은 무엇인가요? 언제 코드 인터프리터와 같은 도구를 루프에 호출해야 할까요? 이러한 CPU 프로세스의 계산 비용을 어떻게 고려할까요? 이에 대해 오픈AI에서 자세히 공개하지 않았습니다. 5. 딸기 버전은 쉽게 데이터 플라이휠이 될 수 있습니다. 만약 답변이 정확하다면, 전체 탐색 추적이 긍정적이고 부정적인 보상을 모두 포함하는 작은 학습 예제 데이터셋이 될 것 입니다. 그러니깐 여러분들은 많이 쓰면 쓸수록 일종의 강화 학습과 차세대 GPT를 위한 추론 코어를 향상 시켜 줄 것 입니다 🙂 (전 세계 사용자들을 이용해 베타 테스트중 ㅡ.ㅡ)