1만 단어도 거뜬히 출력해내는 LongWriter-9B 등장!

LLM이 이해할 수 있는 컨텍스트의 길이를 늘리기 위해서 무수히 많은 리서치들이 이뤄졌고 그 덕분에 이제 128K 토큰도 input으로 받아낼 수 있는 LLM을 사용할 수 있게 되었습니다.


하지만, 그런 LLM들도 2000 단어 이상의 output은 출력하지 못했습니다. 그 이유가 무엇일까요? 사실 이유는 단순합니다. 그 모델들을 학습할 때 사용한 데이터셋의 output length들이 2000 단어를 넘지 않았기 때문입니다.


그렇다면 솔루션도 사실 간단하다는 걸 알 수 있습니다. 1만 단어 이상을 output으로 가지는 데이터셋을 구성하면 되겠죠. 하지만 평범하게 LLM을 통해 데이터셋을 생성해서는 2천 단어 이상의 output을 만들기 어려웠기에 저자들은 AgentWrite라는 과정(사진 참고!) 과 GPT-4o를 활용해 평균 6000 단어 output이 있는 dataset, LongWriter-6k를 만들었습니다.


그 데이터셋으로 GLM-4-9B를 fine-tuning하여 LongWriter-9B를 만들었다고 하네요.


이 논문을 읽으면서 다시 한번 데이터의 중요성을 상기해볼 수 있었네요! 얼마나 좋은 데이터를 먹여주냐에 따라 모델 성능의 upper bound가 정해지는 느낌이네요.


논문 링크: https://arxiv.org/abs/2408.07055

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 31일 오후 1:55

 • 

저장 2조회 811

댓글 0