Community

그냥 추측이지만 o1의 reasoning 학습 방법과 추론 방법은, output 추론 결과가 아니라 reasoning 추론에 대해 RL을 사용해서, 추론시에 reasoning 결과에 대한 스코어를

그냥 추측이지만 o1의 reasoning 학습 방법과 추론 방법은, output 추론 결과가 아니라 reasoning 추론에 대해 RL을 사용해서, 추론시에 reasoning 결과에 대한 스코어를 MCTS로 탐색 한 다음 가장 좋은 스코어의 reasoning 을 사용하는 것이 아닐까? 그래서 간단한 문제인 경우 빠르게 좋은 스코어에 도달하니 reasoning 속도가 빠르고, 어려운 문제인 경우에는 reasoning 속도가 느려지는게 아닐까? 추가로, reasoning 시에 reflection을 사용할지 분할 정복을 사용할지, 추가로 뭘 더 사용할지등의 전략 결정도 reasoning 시에 RL로 카테고리와 스코어에 따라 방법과 단계를 결정하는 것이 아닐까? 라는 망상을 한 번 해 보았다. ㅋ..

알림

알림이 없습니다