AI의 학습을 위해 인간이 만든 데이터를 사용하는 방법으로는 질과 양에 한계가 있으며, 데이터의 편향으로 LLM의 편향이 생길 수 있음은 익히 알려진 사실인데요.


이를 해결하기 위해 구글의 딥마인드에서 LLM이 스스로 고품질의 훈련 데이터를 생성하고 학습하는 방법인 “자가 학습"(Self-Training) 방법을 개발했습니다.


Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models: https://arxiv.org/abs/2312.06585


딥마인드답게 강화학습을 사용하여 보상 함수를 학습하는 형태로, 수학 문제의 경우 답안의 정확도를, 코드 생성의 경우 코드 실행 결과를 바탕으로 간단한 0/1 이진 보상 함수를 정의하여 사용하였습니다.


이 방식을 사용해 학습한 모델이 인간이 생성한 데이터로 미세조정한 모델보다 월등히 높은 성능 향상을 보였고, 모델의 규모가 커질수록 성능 향상이 더 크게 나타났다고 합니다.


또한 이렇게 학습을 시켰더니 학습시킨 태스크 외에 다른 태스크의 성능도 더 좋아졌다고 하는데요. Problem Solving, Reasoning 능력이 전반적으로 좋아지면서 다른 태스크에도 영향을 준 것 같습니다.


지금도 많은 모델들이 암암리에 GPT-4가 생성한 데이터를 사용해 학습하고 있지만, 그래도 아직은 이 역시 인간이 생성한 데이터의 범주 안의 데이터로 학습을 하는 것인데요.


이 논문에서 제시한 방법처럼, 인간이 만든 데이터를 사용하지 않고도, 스스로 직접 데이터를 생성하고 평가하는 방법으로 더 넓은 영역에 대해 자가학습이 가능해진다면 그 때는 정말로 특이점이 왔다고 해도 무방하지 않을까 싶습니다.


루머로 떠도는 OpenAI의 Q*도 그렇고, 다음 레벨의 AI를 위해 풀어야 할 문제를 데이터 부족과 논리적인 문제 풀이로 보고, 이를 강화학습으로 해결하는 것이 당분간 대세가 될 것 같은데요.


과연 이를 통해 만들어질 다음 단계의 AI는 어떤 모습이 될 지 너무너무 궁금합니다. 지금 추세로 봐선 1년만 자고 일어나면 나와 있을 것 같은데, 누가 동면 기술 좀 먼저 어떻게 안될까요? 😎

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 12월 12일 오후 3:48

 • 

저장 19조회 3,186

댓글 0

    함께 읽은 게시물

    [2025 원티드 하이파이브 후기]

    ... 더 보기

    2025 원티드 HIGH FIVE 후기

    Brunch Story

    2025 원티드 HIGH FIVE 후기