DeepSeek R1이 이뤄낸 진보가 대단한 건 맞음. 비용/가격이 아니라 기술로써. 그에 대한 초딩도 알 수 있는 간단한 설명.


기존에는 사람이 문제 풀이와 공부하는 방법을 어느정도 알려주고 훈련(학습)을 했음. 그런데 DeepSeek R1(Zero)는 가이드 없이 답이 맞는지 틀린지만 알려주고, 풀이는 지가 이렇게 저렇게 해 보면서 스스로 발견해 나가는 방법을 사용함.


이는 예전 알파고와 알파고 제로와 같은 관계로, 처음 이세돌과 대국한 알파고는 인간의 기보를 학습한 아이지만, 이후 나온 알파고 제로는 인간의 기보 없이 바닥부터 스스로 대국을 둬가며 바둑의 묘리를 깨우쳤고, 이전의 이세돌을 이긴 알파고를 압도함.


DeepSeek R1도 마찬가지. 이는 AI 훈련에 있어, 인간의 가이드 없이 AI가 스스로 학습하는 것이 성능 향상에 더 유리하다는 증거를 다시 한 번 보여준 것이라고 할 수 있음.


즉, 인간의 결과물에는 인간의 편향과 잘못이 담겨 있기 때문에, 일정 수준 이상의 성능을 넘기 위해서는 인간의 경험을 배제하고 훈련을 해야 한다는 것임.


쉬운 설명을 위해 약간의 왜곡이 들어가긴 했지만, 결론적으로 인간의 지능을 넘는 초지능을 달성하는데는 결국 인간이 한계로 작용 할 수 밖에 없기 때문에 분명히 다른 방법을 써야할 것이며, 온전히 스스로 배우는 단순한 강화학습이 그 돌파구를 열 수 있을 것으로 보인다는 것이 DeepSeek R1의 이루어 낸 성과.


참고로 GPT에 사용하여 유명해진 RLHF는 그 과정에서 인간이 관여하므로 진정한 RL이 아니어서, Alignment나 유려함을 만드는데는 유리하나, 추론 능력등의 성능 향상에는 큰 효과가 없거나 오히려 제약을 만든다고 알려져있음.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 1월 28일 오전 8:36

댓글 2