Tokenizer 비교: Cluade3 vs GPT4

Claude3와 GPT4의 tokenizer를 비교해볼 수 있는 huggingface space가 있어 영어와 한국어를 기준으로 비교해봤습니다.

https://huggingface.co/.../Xenova/the-tokenizer-playground


영어에 비해 한국어의 토큰값이 커 한국어 답변이 평균적으로 더 짧고, 동일한 내용을 출력하기 위해서는 더 많은 비용이 든다는 사실은 이미 많이 알려져 있죠. 실험에서도 100% 이상 차이가 나는 것을 볼 수 있습니다.

그런데 동일한 텍스트에 대해, Claude3의 토큰값이 평균적으로 더 크게 나오네요. 영어의 경우에는 5%, 한국어는 약 10% 정도 더 크게 나오네요.

물론 api pricing을 보면 Claude3가 GPT4보다 마냥 비싸다라고 할 수는 없겠습니다만, 모델과 언어마다 tokenizer의 성능이 다른 것은 고려해야겠습니다.

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 3월 12일 오후 12:47

댓글 0