LLM이 생성한 데이터를 LLM 학습에 이용하면?
www.linkedin.com
영국의 주요대학(옥스포드, 임피리얼 컬리지 런던, 캠브릿지) 과학자들이 공동으로 수행한 연구 결과가 "해시태그#AI models 해시태그#collapse when trained on 해시태그#recursively 해시태그#generated 해시태그#data"라는 제목의 논문으로 네이처(해시태그#Nature)에 2024년 7월 25일자로 게재 되었어요. 📘
연구의 핵심 주장은 실제 Real-world의 데이터 주입 없이 AI가 생성한 데이터만으로 모델을 계속 학습시키면, 몇 세대 만에 모델의 품질이 현저히 떨어진다는 내용이예요. 📉
Sutskever가 최근에 언급했던 "The End of Pre-training: AI Reaches 'Peak Data'"와도 연관된 내용이라고 생각해요. 🧠 Peak Data 를 극복하기 위한 방법으로 LLM이 생성한 데이터를 학습에 이용하는 것은 모델의 성능 개선에 큰 도움이 안될꺼 같아요. 🚧
오픈AI, 구글, 아마존, 메타, xAI 등에서 LLM 모델을 개발하는 연구자가 아닌 이상, Pre-training 모델의 데이터를 어떻게 쓸지 고민할 필요는 없을꺼 같아요. 🤔 하지만, 앞으로 이러한 글로벌 AI 리더 기업들이 데이터 한계를 어떻게 극복해 나가는지 방향성을 제시할때 옳은 방향으로 나아가는지 판단하기 위한 지식 쌓기로 알아두면 좋을 법한 내용이라고 생각해요. 🌍
https://www.linkedin.com/pulse/llm%EC%9D%B4-%EC%83%9D%EC%84%B1%ED%95%9C-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A5%BC-llm-%ED%95%99%EC%8A%B5%EC%97%90-%EC%9D%B4%EC%9A%A9%ED%95%98%EB%A9%B4-sunghyon-kyeong-ngdlc/?trackingId=zyAepJIdQAK8Mq4JGUSMhw%3D%3D
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 1월 5일 오전 3:04
A
... 더 보기답
... 더 보기