Augmentia

Dataa Scientist | AI-powered | PhD

LLM이 생성한 데이터를 LLM 학습에 이용하면?

영국의 주요대학(옥스포드, 임피리얼 컬리지 런던, 캠브릿지) 과학자들이 공동으로 수행한 연구 결과가 "해시태그#AI models 해시태그#collapse when trained on 해시태그#recursively 해시태그#generated 해시태그#data"라는 제목의 논문으로 네이처(해시태그#Nature)에 2024년 7월 25일자로 게재 되었어요. 📘

연구의 핵심 주장은 실제 Real-world의 데이터 주입 없이 AI가 생성한 데이터만으로 모델을 계속 학습시키면, 몇 세대 만에 모델의 품질이 현저히 떨어진다는 내용이예요. 📉
Sutskever가 최근에 언급했던 "The End of Pre-training: AI Reaches 'Peak Data'"와도 연관된 내용이라고 생각해요. 🧠 Peak Data 를 극복하기 위한 방법으로 LLM이 생성한 데이터를 학습에 이용하는 것은 모델의 성능 개선에 큰 도움이 안될꺼 같아요. 🚧

오픈AI, 구글, 아마존, 메타, xAI 등에서 LLM 모델을 개발하는 연구자가 아닌 이상, Pre-training 모델의 데이터를 어떻게 쓸지 고민할 필요는 없을꺼 같아요. 🤔 하지만, 앞으로 이러한 글로벌 AI 리더 기업들이 데이터 한계를 어떻게 극복해 나가는지 방향성을 제시할때 옳은 방향으로 나아가는지 판단하기 위한 지식 쌓기로 알아두면 좋을 법한 내용이라고 생각해요. 🌍

https://www.linkedin.com/pulse/llm%EC%9D%B4-%EC%83%9D%EC%84%B1%ED%95%9C-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A5%BC-llm-%ED%95%99%EC%8A%B5%EC%97%90-%EC%9D%B4%EC%9A%A9%ED%95%98%EB%A9%B4-sunghyon-kyeong-ngdlc/?trackingId=zyAepJIdQAK8Mq4JGUSMhw%3D%3D

www.linkedin.com

다음 내용이 궁금하다면?

이미 회원이신가요?

2025년 1월 5일 오전 3:04

저장 7 • 조회 1,316

함께 읽은 게시물

데이터리안

Data Analyst

하루 전

데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

데

- YouTube

www.youtube.com

저장 4 • 조회 581

장홍석

스페이스오디티 부대표/CPO

2일 전

< 보여서 걷는 게 아니라, 걷다 보니 길 >

댓글 1 • 저장 4 • 조회 669

골빈해커

Chief Maker

2일 전

나는 종종 생산성을 올리기 위한 각종 개발 툴은 물론, 라이브러리나 소스 코드를 구매하기도 한다.

소스 코드의 경우 실제로 써먹지 못하는 경우도 상당수 되긴 하지만, 그래도 구성이나 코드를 보면서 배우는게 있기 때문에 학습 비용이라고 생각하고 가끔 구매하는 편이다.

저장 3 • 조회 1,581

골빈해커

Chief Maker

7월 28일

앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코드를 주고 설명을 하라는 것이 유효할 것이다.

내 경우는 이미 그렇게 하고 있는데, 요구사항을 주고 개발을 요청. 결과물이 요구사항대로 개발이 잘 되었다면, 다음 단계로 제출한 코드를 리뷰하며 설명을 요청한다.

•

댓글 2 • 저장 21 • 조회 3,547

비슷한 게시물

Augmentia Dataa Scientist | AI-powered | PhD

Illy Sutskever, 학습 데이터의 고갈에 대한 이야기...

서진호 sr. Presales Solution Architect, HPC&AI

<데이터브릭스, DBRX 범용 모델 소스로 공개>

김선호 여기어때컴퍼니 / User Behavior Team Lead

Open AI, 타임지 콘텐츠 학습할 예정

조성래 Seonglae Cho

Sonnet이 GPT4 성능을 따라잡은 이유??

서진호 sr. Presales Solution Architect, HPC&AI

<생성형 AI 개발 프로세스는?>

김문수 토스 데이터 엔지니어 | ex-뱅크샐러드

보통 기업의 AI 전략 - 데이터, 데이터, 데이터

주간 인기 TOP 10

골빈해커 Chief Maker

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?”

김의중 프론트엔드 개발자

Claude Code 실전 가이드: AI 네이티브 개발자로 가는

Arawn Park Senior Engineer & Engineering Lead

넷플릭스는 왜 WebFlux를 사용하지 않을까?

psmon 블룸에이아이 서버 엔지니어

카프카를 우아하게 사용하기 -코틀린편

달레 Apollo GraphQL Software Engineer

알아 알아 알아! 🤣

장홍석 스페이스오디티 부대표/CPO

< 몇 번 졌는지는 중요하지 않다, 인생은 결국 득실차다 >

황경찬(Boaz) P.E.C CEO

"AI가 코드를 짜는 시대, 개발자의 가치는 무엇일까요?" 최근

정종윤 네이버 프론트엔드 개발자

👻 클라이언트에서 안전한 소셜 로그인 구현을 위한 OIDC와 PK

박승규 카카오계열사에서 이것저것 만드는 개발자

책이 출판되기 전 마지막 교정을 하고 있는데... GPT5가 출시

석민 커리어 코치

백엔드 개발자 이력서 고민

LLM이 생성한 데이터를 LLM 학습에 이용하면?

댓글 0

함께 읽은 게시물

데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

< 보여서 걷는 게 아니라, 걷다 보니 길 >

비슷한 게시물

주간 인기 TOP 10

추천 프로필