o1 의 모델 그 자체로써 특별한 점은 추론하는 방법을 강화학습을 통해 익히도록 한 것인가봅니다. 정렬을 위해 사용하는 RLHF는 강화학습이라고 보기에는 좀 불충분한 면이 있다고 하는데, o1 은 강화학습을 본격적으로 사용한 모델로 보이네요.


즉, 데이터를 통한 학습이 아니라, 알파고 제로와 같이 기보가 없는 상태에서 학습하는 방식과 유사한 방식을 사용한 것으로 추측되는데요. 추론 전략과 과정을 인간이 제공한 데이터로 학습하는 것이 아니라, 스스로 다양한 추론을 시도하고 실패하고 정복하는 과정을 거쳐서 학습하도록 한 것 같습니다.


바둑처럼, LLM 역시 인간에게 배우는 것 보다 스스로 시행착오를 통해 진화(학습)하도록 하는 것이 훨씬 뛰어난 결과를 가져다 주는 것 같네요.

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 9월 12일 오후 7:13

댓글 0

    함께 읽은 게시물

    코치로서 40일, 짧은 회고

    ... 더 보기

    유튜브가 대세이다. 포탈 사이트에서 검색하던 사람들이 이제는 유튜브에서 먼저 검색하며, 한 해 수입이 수십 억에 달하는 유튜버들도 많다고 한다. 이런 분위기에 영향을 받아 필자도 콘텐츠 개발과 홍보 차원에서 유튜브를 본격적으로 시작했다.

    ... 더 보기

    재능보다 중요한 세가지 능력

    n.news.naver.com

    재능보다 중요한 세가지 능력

    사이드 프로젝트 34개를 만들고 느낀점 10가지

    1️⃣ 아이디어의 가치는 실행했을 때 비로소 생긴다.

    ... 더 보기

     • 

    저장 122 • 조회 4,169


    박람회

    

    ... 더 보기

    가장 훌륭한 경비절감 방법은 ‘몰입’이다. 가장 훌륭한 생산성 향상 방법도 ‘몰입’이다. 이는 많은 경영학자들이 연구를 통해 증명한 사실이다.

    ... 더 보기

    [백진기 칼럼]그래 한번 미쳐보자?(110편)

    메디칼타임즈

    [백진기 칼럼]그래 한번 미쳐보자?(110편)