📝 GPT-3.5 Turbo 의 크기는 7B

공개되지 않은 모델의 상당수의 비공개 정보를 API 질의만으로 알아낼 수 있다는 논문입니다.


API 출력만으로 임베딩 크기 추정, 전체 어휘 획득, 모델 업데이트 탐지 및 유형 구분, 은닉 프롬프트 변경 식별 및 복원, LoRA 업데이트 감지, 전체 미세조정 업데이트 감지 등 굉장한 분량의 비공개 정보를 알아낼 수 있다고 하는데요.


GPT-3.5 Turbo의 경우 임베딩의 크기는 약 4,096 차원으로 추정되며, 이 추정치를 바탕으로 했을 때 전체 파라미터수는 약 7B 정도로 추정된다고 합니다.


또한 단일 전체 출력만으로도 해당 출력이 GPT-3.5 Turbo 모델에서 생성된 것인지 정확히 구별할 수 있었다고 합니다.


GPT-3.5 Turbo의 경우 약 $1,000 정도의 비용으로 이러한 정보들을 알아낼 수 있다고 합니다.


이런 방법을 알아낸 것도 대단하지만, 아무래도 눈에 띄는 것은 GPT-3.5 Turbo의 파라미터수를 7B 정도로 추정했다는 것인데요.


어느정도 작을 것으로 예상되긴 했지만 7B 수준이라는 건 꽤 놀랍네요. 경량화 기술을 연구하면서 성능은 최대한 유지하되 모델 사이즈를 계속 줄여온 것이 아닐까 싶습니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 3월 15일 오후 10:57

 • 

저장 14조회 2,578

댓글 2

함께 읽은 게시물

[광고] 다음 직무 채용 예정입니다.


- 프러덕트/사업 기획 1인

- 프러덕트 디자인 1인

... 더 보기

👋 디자이너도 앱을 만들 수 있을까?

... 더 보기

디자이너도 앱을 만들 수 있을까?

Brunch Story

디자이너도 앱을 만들 수 있을까?

데이터 드리븐 리포트 (1)

책 [데이터 드리븐 리포트]를 읽고 757

... 더 보기

IT 회사의 업무에서, 지금까지는 디자이너와 특히 개발자가 병목이었는데, 대 AI 시대에는 기획자가 병목이 될 수도 있겠다. 조금이라도 규모가 있는 기업에서의 가장 큰 병목은 보통 의사결정자라는 것을 생각해보면 그렇다.


즉, 실무보다 의사결정을 AI에게 맡기는 것이 병목을 해소할 수 있는 가장 확실한 방법이며, 그러므로 부장님과 사장님을 AI로 대체하는 것이야말로 인류의 번영을 위한 가장 빠른 지름길이다. (아님. 아니 맞나?!)

 • 

저장 1 • 조회 2,144


< 애플을 구한 건 스티브 잡스의 '두 번째 버전'이었다 >

1. 20대의 스티브 잡스가 했던 행동과 50대에 그가 보여주었던 효율적인 리더십을 혼동하면 안 된다.

... 더 보기

< 뛰어난 리더는 '시간'을 가장 까다롭게 쓴다 >

1. 관리자 업무 중 상당한 부분을 차지하는 일은 인력, 돈, 자본 등의 자원을 할당하는 것이다.

... 더 보기