https://arxiv.org/pdf/2310.08754.pdf


- 단일 언어 토크나이저를 기반으로 개발된 LLM의 다국어 성능이 비교적 낮은 점, 코딩 특화 토크나이저를 이용한 LLM의 코딩 능력을 개선한 점 등의 사례를 통해 토크나이저가 LLM의 성능에 큰 영향을 미친다는 것이 다시금 확인 되었습니다.

- 토크나이저의 vocab size는 무작정 늘리는 것이 좋다기보단 추론 속도와 메모리 사용량을 종합적으로 고려해 최적의 값을 찾는 게 중요합니다.

- 토크나이저 자체를 평가하는 지표(fertility, parity)와 LLM의 성능 지표 간에 강한 관계는 없는 것으로 나타났습니다.

- 50B 이상의 모델들을 파인튜닝할 때는 토크나이저를 바꾸는 것이 LLM의 성능에 영향을 주지 않았다고 합니다.


(Abstract translated with Claude Opus)

- 토큰화는 현대 LLM의 과소 연구되고 종종 간과되는 구성 요소입니다. 대부분의 발표된 연구는 토큰화를 최적화하기 위한 절제(ablation)나 분석을 수행하지 않고, 종종 다른 모델에서 차용한 단일 토크나이저를 모든 실험에 사용합니다. 또한, 기본 모델을 fine-tuning할 때 토크나이저는 일반적으로 변경되지 않은 상태로 유지됩니다.

- 이 논문에서는 토크나이저의 크기, 사전 토큰화 정규 표현식 및 학습 데이터가 모델의 생성 속도, 유효 컨텍스트 크기, 메모리 사용량 및 다운스트림 성능에 상당한 영향을 미칠 수 있음을 보여줍니다.

- 우리는 전문화된 Byte-Pair Encoding 코드 토크나이저를 학습시키고, HumanEval 및 MBPP와 같은 코드 생성 작업에 대한 LLM의 성능에 미치는 토크나이저 설계의 영향에 대해 광범위한 절제(ablation)를 수행하며, 토크나이저 하이퍼 파라미터 선택 및 사전 학습된 LLM에서의 토크나이저 전환에 대한 권장 사항을 제공합니다.

- 우리는 처음부터 학습한 모델과 사전 학습된 모델에서 실험을 수행하여 광범위한 사용 사례에 대한 적용 가능성을 검증합니다. 우리는 500억 개 이상의 토큰으로 fine-tuning할 때, 사전 학습된 LLM의 토크나이저를 전문화하여 생성 속도와 유효 컨텍스트 크기에서 큰 이득을 얻을 수 있다는 것을 발견했습니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 3월 30일 오후 2:57

댓글 0

    함께 읽은 게시물

    < 애플을 구한 건 스티브 잡스의 '두 번째 버전'이었다 >

    1. 20대의 스티브 잡스가 했던 행동과 50대에 그가 보여주었던 효율적인 리더십을 혼동하면 안 된다.

    ... 더 보기

    이력서 코칭인데, 타로 보는 줄… 이 코칭 미쳤다

    ... 더 보기

    < 매일을 휴가 전날 기분으로 살면, 짧은 시간에도 성과가 터진다 >

    1. 파킨슨의 법칙에 따르면 어떤 일이든 주어진 시간이 모두 소진될 때까지 늘어진다고 한다.

    ... 더 보기


    UX 포트폴리오에서 ‘UT’라고 일반화 하지 않기

    'UT’라는 표현으로 테스트를 전부 표기하는 경우가 많은데, 두 가지를 구분해서 써야 합니다.

    ... 더 보기

    ❓회사가 또 혁신안을 내놓았습니다. 이번에도 조직개편 중심의 혁신안을 내놓았지만, 사실 예전에도 시간이 지나며 흐지부지 되었습니다. 혁신이 필요하지 않다고 생각하는 건 아닙니다. 제대로 혁신해서 회사가 발전하기를 간절히 바랍니다. 그런 길이 있다면 적극 동참하고 싶습니다. 혁신은 어떻게 해야 하는 걸까요?

    ... 더 보기

    과거의 성공체험이 혁신의 걸림돌이 되지 않으려면

    한겨레

    과거의 성공체험이 혁신의 걸림돌이 되지 않으려면

    조회 260