Tokenizer 비교: Cluade3 vs GPT4

Claude3와 GPT4의 tokenizer를 비교해볼 수 있는 huggingface space가 있어 영어와 한국어를 기준으로 비교해봤습니다.

https://huggingface.co/.../Xenova/the-tokenizer-playground


영어에 비해 한국어의 토큰값이 커 한국어 답변이 평균적으로 더 짧고, 동일한 내용을 출력하기 위해서는 더 많은 비용이 든다는 사실은 이미 많이 알려져 있죠. 실험에서도 100% 이상 차이가 나는 것을 볼 수 있습니다.

그런데 동일한 텍스트에 대해, Claude3의 토큰값이 평균적으로 더 크게 나오네요. 영어의 경우에는 5%, 한국어는 약 10% 정도 더 크게 나오네요.

물론 api pricing을 보면 Claude3가 GPT4보다 마냥 비싸다라고 할 수는 없겠습니다만, 모델과 언어마다 tokenizer의 성능이 다른 것은 고려해야겠습니다.

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 3월 12일 오후 12:47

댓글 0

    함께 읽은 게시물

    우선순위에 대한 고민

    SI,협약기반,셀프 서비스를 하면서 느끼는 커스터머및 장애 이슈대응

    ... 더 보기


    📰 OpenAI가 ChatGPT의 커넥터 기능을 업데이트하면서 MCP 지원을 추가했네요.

    ... 더 보기

    < 서비스를 중독성 있게 만드는 결정적 원리 >

    1. 진통제이면서 비타민이어야 한다.

    ... 더 보기

    더불어민주당에선 대통령실 비서실장으로 지명된 강훈식 의원이 '경영권과 무관하게 상장사 지분 25% 이상을 확보할 경우 잔여 주식을 모두 공개매수해야 한다'는 내용의 자본시장법 개정안을 지난해 6월 발의했다. 대통령령으로 예외를 두겠다는 단서 조항을 달았지만 사실상 100% 의무공개매수를 도입을 추진하고 있다. 지난 정부가 추진한 '50%+1주 의무공개매수' 대비 한발 더 나간 제도라는 평가가 나온다.

    ... 더 보기

    '100% 의무공개매수' 도입 가능성에 긴장하는 PEF들 [이재명號 출범]

    n.news.naver.com

    '100% 의무공개매수' 도입 가능성에 긴장하는 PEF들 [이재명號 출범]

    < 네이버는 왜 아이폰 쓰던 직원들에게 안드로이드폰을 사줬을까? >

    1. 2010년경 네이버에서의 일이다. 스마트폰이 처음 나왔을 무렵이다. 아이폰이 먼저 나왔다. 이어서 다양한 안드로이드 폰이 나오며 시장 점유율이 늘기 시작했다. 더 많은 사람들이 안드로이드 폰을 쓰기 시작했다. 시장이 열리니 그에 맞는 모바일 전략과 서비스

    ... 더 보기