Jonas Kim

데이터 과학자, ML 엔지니어

24GB 일반 GPU에서 RLHF로 20B LLM 미세 조정하기

요즘 허깅페이스에서 개발하는 라이브러리와 작성하는 블로그 글들이 굉장히 트렌디하고 내용이 알차네요. 👍 본문 링크(https://huggingface.co/blog/trl-peft)입니다. ✔️ 수많은 ChatGPT 분석 글처럼, LLM을 RLHF으로 훈련하는 방법은 ① 명령 프롬프트와 레이블로 LLM 미세 조정 ② 출력 결과 순위 정해주는 보상 모델 훈련 ③ RL(PPO) 통해 프롬프트와 보상 모델로 LLM 추가 미세 조정하는 순. ✔️ 현재까지 '명령으로 미세 조정된 버전의 오픈소스 최고 LLM'은 BLOOMZ, Flan-T5, Flan-UL2, OPT-IML 정도. (LLaMA는 뛰어난 잠재력이 있지만 아직 천연의 아이인 셈이라고요, ChatGPT 같지 않다고 욕하지 마시길! 😌) ✔️ 허깅페이스 TRL = RL로 LM 미세 조정하는 걸 지원하는 라이브러리. 근데 RL 미세 조정 시에는 액티브 모델이 원래 동작 또는 분포에서 많이 벗어나는 걸 막기 위해 레퍼런스 모델 로짓 값 필요함, 결국 이는 GPU 당 모델 사본이 2개 필요하다는 얘기, 메모리 문제. ✔️파라미터 1B 당 float32 정밀도 = GPU 메모리 4GB, float16 = 2GB, int8 = 1GB, AdamW 옵티마이저 사용할 경우 8GB 필요 (공식처럼 외워라! 😌) ✔️ 대형 모델 훈련을 위해서는 당연히 병렬 처리 패러다임 적용이 필요, 데이터 병렬의 경우 TRL이 지원해 주는데 모델 병렬은 통신 프로토콜 등의 문제로 Megatron-DeepSpeed, Nemo 같은 프레임워크 별도 필요함. ✔️ 일단 데이터 병렬 처리에 국한하여 효율화해 볼까? (1) 8비트 행렬 곱셈: 은닉 상태 값의 이상치는 float16, 정상 값은 int8로 연산 수행하자. (2) LoRA: 사전 훈련 가중치 동결하고 Q, V 어텐션 행렬의 낮은 랭크 버전을 생성하여 미세 조정하자. 이로써 적은 파라미터 학습, 적은 GPU 메모리 소모, 대신에 순방향, 역방향 연산이 2배 정도 느림. ✔️ 허깅페이스 PEFT = LLM의 어댑터 생성과 미세 조정을 지원하는 라이브러리. ✔️ 24GB 단일 GPU에서 20B 파라미터 모델을 미세 조정하려면? ① 액티브 모델을 int8로 로딩 ② PEFT 이용해서 액티브 모델에 어댑터 (LoRA) 추가 ③ 필요시 어댑터 끌 수 있으므로 모델 사본 2개 필요 없이 같은 모델로 PPO에 대한 액티브 및 레퍼런스 모델 로짓을 구할 수 있음. ✔️ 예시로 GPT-NeoX (20B)에 대해 IMDB 영화 리뷰와 긍정 및 부정 레이블 데이터셋으로 LoRA 미세 조정 → 적응된 가중치 결합하고 허브에 저장 → LoRA 다시 추가하여 RL로 미세 조정 (이때, IMDB 감성 분류 모델을 보상 모델로 사용) (https://huggingface.co/docs/trl/main/en/sentiment_tuning_peft)

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 3월 14일 오전 6:34

저장 19 • 조회 3,293

함께 읽은 게시물

골빈해커

Chief Maker

2일 전

소프트웨어 개발 방법론의 역사

조회 1,276

석민

커리어 코치

하루 전

전략적 입사 지원

전

저장 11 • 조회 506

양승화

딜라이트룸 Data Lead

18시간 전

[조직의 성과를 바꾸는 3가지 방법]

최

스타트업 다이어리 : 네이버 블로그

blog.naver.com

조회 242

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

5일 전

세상이 제정신이 아니다. 멀쩡한 남의 나라를 침공해 무고한 사람들의 희생을 불사하는 양심없는 대통령, 천적을 제거하며 장기 집권하는 염치없는 대통령, 자국의 이익만 강요하는 품위없는 대통령, 국민을 버리고 비자금을 챙겨 야반도주한 대통령, 야밤에 무력으로 민주주의를 훼손하는 정신나간 대통령.

(금요아침) 준비된 리더를 기다리며

전기신문

저장 1 • 조회 388

한성규

'지금 써보러 갑니다' '팁스터 뉴스레터' 운영자

5월 30일

👋 프로세스를 촘촘하게 만드는 사람

쿠

프로세스를 촘촘하게 만드는 사람

기억보단 기록을

저장 5 • 조회 706

달레

Apollo GraphQL Software Engineer

2일 전

스토리북 9 출시 소식

드

Storybook 9

Storybook Blog

저장 4 • 조회 1,530

비슷한 게시물

이명진 한국레드햇 솔루션 아키텍트

CUDA를 사용한 GPU 프로그래밍 이해하기

한상훈 중소SI회사 딥러닝 응용프로그램 개발자

ubuntu 서버에서 안전하게 nvidia 그래픽 드라이버 설치하기

골빈해커 Chief Maker

개발을 모르시는 분들도 GPT-3.5 Turbo를 파인튜닝 해 보실 수 있게, Colab으로 작성 해 보았습니다.

골빈해커 Chief Maker

GPT API의 추론 속도를 이용해 모델 사이즈를 유추할 수 있다는 아이디어로 각 GPT 모델들의 사이즈를 유추해봤습니다. (@tomgoldsteincs)

골빈해커 Chief Maker

ChatGPT에 드디어 올 것이 왔군요.

소성은 Gen AI Field Solution Architect @ Google

LLM inference 속도를 높여주는 vLLM

주간 인기 TOP 10

골빈해커 Chief Maker

[광고] 다음 직무 채용 예정입니다. - 프러덕트/사업 기획 1

김의중 프론트엔드 개발자

Next.js 프로젝트를 AWS EKS에 배포하며 배운 것들

달레 Apollo GraphQL Software Engineer

🌎 해외에서 일하면 뭐가 좋을까요❓

K리그 프로그래머 커피한잔 개발자

앱 개발 개척시대

psmon 웹노리라이터

서버엔지니어의 시대적 고민

장홍석 스페이스오디티 부대표/CPO

< 서비스를 중독성 있게 만드는 결정적 원리 >

레드버스백맨 리서처 앤 라이터

⟪UX 디자이너가 사라지고 있다⟫

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

하나부터 열까지 리더가 상세히 설명해 주기를 바라는 구성원이 있습

평비 LGCNS 백엔드 개발자

개발자 교양 팟캐스트

조찬우 Coupang Sr. iOS Engineer

iOS 19가 아니라 이제 iOS 26?

24GB 일반 GPU에서 RLHF로 20B LLM 미세 조정하기

댓글 0

함께 읽은 게시물

전략적 입사 지원

[조직의 성과를 바꾸는 3가지 방법]

👋 프로세스를 촘촘하게 만드는 사람

스토리북 9 출시 소식

비슷한 게시물

주간 인기 TOP 10

추천 프로필