그냥 추측이지만 o1의 reasoning 학습 방법과 추론 방법은, output 추론 결과가 아니라 reasoning 추론에 대해 RL을 사용해서, 추론시에 reasoning 결과에 대한 스코어를 MCTS로 탐색 한 다음 가장 좋은 스코어의 reasoning 을 사용하는 것이 아닐까? 그래서 간단한 문제인 경우 빠르게 좋은 스코어에 도달하니 reasoning 속도가 빠르고, 어려운 문제인 경우에는 reasoning 속도가 느려지는게 아닐까? 추가로, reasoning 시에 reflection을 사용할지 분할 정복을 사용할지, 추가로 뭘 더 사용할지등의 전략 결정도 reasoning 시에 RL로 카테고리와 스코어에 따라 방법과 단계를 결정하는 것이 아닐까? 라는 망상을 한 번 해 보았다. ㅋ..

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 9월 13일 오전 4:07

댓글 0