LLM이 생성한 데이터를 LLM 학습에 이용하면?

영국의 주요대학(옥스포드, 임피리얼 컬리지 런던, 캠브릿지) 과학자들이 공동으로 수행한 연구 결과가 "해시태그#AI models 해시태그#collapse when trained on 해시태그#recursively 해시태그#generated 해시태그#data"라는 제목의 논문으로 네이처(해시태그#Nature)에 2024년 7월 25일자로 게재 되었어요. 📘

연구의 핵심 주장은 실제 Real-world의 데이터 주입 없이 AI가 생성한 데이터만으로 모델을 계속 학습시키면, 몇 세대 만에 모델의 품질이 현저히 떨어진다는 내용이예요. 📉
Sutskever가 최근에 언급했던 "The End of Pre-training: AI Reaches 'Peak Data'"와도 연관된 내용이라고 생각해요. 🧠 Peak Data 를 극복하기 위한 방법으로 LLM이 생성한 데이터를 학습에 이용하는 것은 모델의 성능 개선에 큰 도움이 안될꺼 같아요. 🚧

오픈AI, 구글, 아마존, 메타, xAI 등에서 LLM 모델을 개발하는 연구자가 아닌 이상, Pre-training 모델의 데이터를 어떻게 쓸지 고민할 필요는 없을꺼 같아요. 🤔 하지만, 앞으로 이러한 글로벌 AI 리더 기업들이 데이터 한계를 어떻게 극복해 나가는지 방향성을 제시할때 옳은 방향으로 나아가는지 판단하기 위한 지식 쌓기로 알아두면 좋을 법한 내용이라고 생각해요. 🌍


https://www.linkedin.com/pulse/llm%EC%9D%B4-%EC%83%9D%EC%84%B1%ED%95%9C-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A5%BC-llm-%ED%95%99%EC%8A%B5%EC%97%90-%EC%9D%B4%EC%9A%A9%ED%95%98%EB%A9%B4-sunghyon-kyeong-ngdlc/?trackingId=zyAepJIdQAK8Mq4JGUSMhw%3D%3D

LLM이 생성한 데이터를 LLM 학습에 이용하면?

www.linkedin.com

LLM이 생성한 데이터를 LLM 학습에 이용하면?

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 1월 5일 오전 3:04

댓글 0

    함께 읽은 게시물

    데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

    ... 더 보기

    - YouTube

    www.youtube.com

     - YouTube

    < 보여서 걷는 게 아니라, 걷다 보니 길 >

    1

    ... 더 보기

    나는 종종 생산성을 올리기 위한 각종 개발 툴은 물론, 라이브러리나 소스 코드를 구매하기도 한다.


    소스 코드의 경우 실제로 써먹지 못하는 경우도 상당수 되긴 하지만, 그래도 구성이나 코드를 보면서 배우는게 있기 때문에 학습 비용이라고 생각하고 가끔 구매하는 편이다.


    ... 더 보기

    앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코드를 주고 설명을 하라는 것이 유효할 것이다.


    내 경우는 이미 그렇게 하고 있는데, 요구사항을 주고 개발을 요청. 결과물이 요구사항대로 개발이 잘 되었다면, 다음 단계로 제출한 코드를 리뷰하며 설명을 요청한다.


    ... 더 보기

     • 

    댓글 2 • 저장 21 • 조회 3,547