LLM 지속적인 모델 개선의 길: 커스텀트레이닝데이터/합성데이터

사람들이 LLM의 능력, 특히 앞으로 얼마나 더 개선될 수 있을지에 대해 추론하려고 할 때 종종 오해를 하는 것을 봅니다. LLM은 대부분 인터넷 게시물로 훈련받기 때문에 인터넷 시뮬레이터에 불과합니다. '인터넷 시뮬레이터'라는 개념은 GPT-5와 그 이후의 작동 방식을 예측하는 데 유용한 방법이 아닙니다. 새로운 모델들은 이미 이 정의를 뛰어넘고 있으며 변화는 이제 시작에 불과합니다. 데이터 벽(Data Wall) * OpenAI GPT 학습 * 2020년에 OpenAI의 GPT-3 논문에서 학습 데이터 세트에 대해 자세히 설명했습니다. GPT-3는 기본적으로 인터넷에서 학습되었습니다. * 2022년까지 LLM은 맞춤형 인간 피드백을 사용하여 지시를 따르도록 훈련되었습니다. 그 이후로 OpenAI와 같은 프론티어 모델 연구소는 훈련 데이터 세트에 무엇을 추가할지 매우 조심스러워졌습니다. * 소라나 GPT-5는 말할 것도 없고, GPT-4o가 무엇을 학습했는지도 알 수 없습니다. 하지만 우리는 그것이 인터넷만이 아니라는 것을 알고 있습니다. * 데이터 벽(Data Wall) * 일반적으로 데이터가 많을수록 모델 학습이 향상되지만, OpenAI는 이미 웹에 있는 거의 모든 데이터를 보유하고 있으며, 심지어 유튜브 동영상 트랜스크립션과 같이 접근하기 어려운 데이터도 보유하고 있습니다. * 데이터 벽(Data Wall) 개선 방안 * 인터넷 데이터로 더 큰 규모의 모델을 훈련 or 돈이 있는 연구소라면 비공개 데이터를 확보하고 생성 or 기존 학습 데이터를 더 유용하게 만들거나 or 기존의 비공개 데이터를 학습 풀에 추가 * 주석 및 필터링: 좋은 주석을 사용하면 가장 가치가 높은 데이터에 LLM 학습을 집중할 수 있어 더 나은(또는 더 작은) 모델을 만들 수 있음 * RLHF: 사람이 모델 결과물을 평가하는 데이터. 이 데이터를 사용하여 모델을 미세 조정하고, 지시를 따르거나 불쾌한 말을 거부하는 등의 유용한 행동을 장려 * 사용 데이터: ChatGPT는 더 강력한 GPT-4o 모델을 무료 사용자에게 공개하기 전에도 하루에 약 100억 개의 토큰 데이터를 생성하고 있음 * 데이터 수집: 이메일, 채팅 로그, 독점 매뉴얼 및 절차, JIRA 티켓, 전화 녹음, 내부 보고서, 계약서 등 ** 하지만 이러한 기술 중 어느 것도 현재 모델의 유명한 약점인 "LLM은 기존 데이터처럼 보이지 않는 결과물을 생성하는 데 서툴다"는 문제에 대한 완전한 해결책은 아닙니다. * LLM이 잘하지 못하는 몇 가지 사항 * 답변에 의심이나 불확실성을 표현하는 경우 * 문구를 반복하거나 반복하지 않고 긴 대화를 하는 경우 * LLM 에이전트가 추구해야 할 높은 수준의 계획 세우기 * 방대한 레거시 코드베이스에 대해 수석 엔지니어처럼 추론하기 * 매우 길거나 복잡한 프롬프트를 안정적으로 따르기 ** 아키텍처 개선과 더 많은 매개변수가 이러한 한계에 도움이 될 수도 있지만, OpenAI, Meta, Google 및/또는 Microsoft는 이러한 격차 중 일부를 더 간단한 방법으로 메우기 위해 큰 돈을 지불하고 있습니다: 훈련할 새로운 예제를 만드는 것입니다. 이제 사용자 지정 데이터(고품질 합성데이터)로 학습하는 LLM * 커스텀 데이터의 부상을 보여주는 최근 사례로는 4월에 발표된 Microsoft의 Phi-3 기술 보고서가 있습니다. * Phi-3-mini는 LLM 용어로 보면 38억 개의 파라미터에 불과하지만 인상적이지만 훨씬 무거운 Mixtral 모델과 경쟁할 수 있는 성능을 자랑합니다. * 이 논문에서는 이러한 개선의 일부가 대규모 LLM에서 생성된 고품질 합성 데이터를 학습 데이터에 포함했기 때문이라고 설명합니다. 합성 데이터를 사용하면 인터넷에서 얻은 데이터의 부족한 부분을 채울 수 있고, 주어진 크기에 맞게 모델 성능을 개선할 수 있습니다. * 단, 현재 합성 데이터는 자체 출력으로 LLM을 훈련시킬 수 있는 한계는 아직 명확하지 않습니다. * 하지만 최소한 합성 데이터는 단순히 "인터넷 시뮬레이터"처럼 작동하는 LLM에서 발생하는 종류의 격차를 메우는 데 도움이 될 것입니다. * 하지만 LLM으로 훌륭한 합성 데이터를 생성하는 것은 어려운 문제이며 한계가 있습니다. 그렇기 때문에 인터넷이 아닌 데이터의 마지막 거대한 원천이 있습니다: 바로 사람입니다. 연간 10억 달러로 얼마나 많은 데이터를 만들 수 있을까요? * 'AI를 위한 데이터 파운드리'를 표방하는 Scale.ai는 연구소가 사람에게 돈을 주고 데이터를 만들어주는 서비스를 운영하고 있습니다. * AI 기업들은 이미 Scale의 서비스에 연간 10억 달러 이상을 지불하고 있다고 합니다. 이 중 일부는 웹이나 LLM에서 가져온 데이터에 주석을 달고 등급을 매기는 데 사용되지만, 새로운 학습 데이터를 통째로 생성하기도 합니다: * 박사급 학자, 변호사, 회계사, 시인, 작가, 특정 언어에 능통한 사람 등 보다 고도로 전문화된 인력에 초점을 맞추고 있습니다. * OpenAI, Cohere, Anthropic, Google 등 여러 회사의 모델을 훈련하고 테스트하는 데 도움을 주는 이러한 인력은 주로 아웃라이어라는 또 다른 Scale 자회사를 통해 일하지만 더 높은 시간당 임금을 받습니다. * OpenAI와 같은 회사는 전문가에게 돈을 주고 인터넷에서 얻은 데이터의 부족한 부분을 채우는 새롭고 좋은 데이터를 만들게 할 수 있을 뿐만 아니라, 그 데이터를 보관하여 후속 모델을 훈련할 수 있습니다. => 커스텀 트레이닝 데이터의 규모와 영향력이 커짐에 따라 LLM은 '인터넷 시뮬레이션'을 크게 뛰어넘을 것으로 예상됩니다. 특히 인터넷에는 없지만 10억 달러 이상의 맞춤형 데이터 생성에서 입증할 수 있는 것들을 계속해서 개선해 나갈 것입니다. ** source: https://allenpike.com/2024/llms-trained-on-internet

LLM 지속적인 모델 개선의 길: 커스텀트레이닝데이터/합성데이터

알림