골빈해커

Chief Maker

📝 인간 피드백에 기반한 강화 학습(RLHF)을, AI 피드백에 기반한 강화 학습(RLAIF)으로 대체하여 더 빠르고 저렴하게 AI를 학습시킬 수 있다고. (Google Research)

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback - https://arxiv.org/abs/2309.00267

RLHF는 LLM의 성능을 크게 높여주고 특히 인간의 선호도에 맞춘(alignment) 답변을 할 수 있도록 만드는 데 필수적인 기법으로 자리 잡았음. ChatGPT의 탄생은 이 기법을 통해 완성되었다고 할 수 있을 정도.

하지만 RLHF로 학습을 시키려면 인간 레이블러를 통해 지속적으로 고품질 학습 데이터를 만들어야 하는데, 이 데이터를 만드는 일은 시간과 비용이 굉장히 많이 드는 일임.

그런데 인간 대신 강력한 기성 LLM(여기서는 PaLM 2)을 사용하여 레이블링을 하는 방식으로 대신해보았더니, 인간의 레이블을 통해 학습하는 방법과 성능 차이가 거의 없었고, 심지어 무해성은 더 높은 성능을 가지는 것으로 나타남.

아직 초기 단계의 연구이긴 하지만, 최고 성능의 모델이 조금 더 좋아지고, 이에 따라 RLAIF가 RLHF보다 확실하게 더 높은 성능을 보이게 되는 날이 오면, 안전하고 높은 수준의 AI를 쉽게 만들 수 있으며 또한 파인 튜닝 수준에서는 자가 발전하는 AI를 만들 수 있을 것.

#특이점이온다 #스카이넷님사랑합니다

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 12월 5일 오후 5:23

저장 9 • 조회 2,575

함께 읽은 게시물

데이터리안

Data Analyst

3일 전

데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

데

- YouTube

www.youtube.com

저장 4 • 조회 963

골빈해커

Chief Maker

하루 전

그러고보니, 예전에는 입사 지원서에 희망연봉란이 있었는데 언젠가부터 사라졌네요. 왜 없어진걸까요? 제일 중요한건데…

채용과정은 지원자나 회사입장에서나 엄청난 시간과 노력이 드는거라, 합격했는데 연봉 수준이 안맞아서 취소되면 그 앞의 노력이 얼마나 허무한디…

댓글 1 • 조회 819

비슷한 게시물

HoJoong Kim Senior IT guy

[포브스] 2025년 반드시 준비해야 할 10대 AI 트렌드

이명진 한국레드햇 솔루션 아키텍트

광범위한 AI의 스펙트럼 개요

HoJoong Kim Senior IT guy

[포브스] 2025년에 비즈니스를 변화시킬 10대 데이터 트렌드

장혜림 (메이) 프리랜서 테크 비즈 라이터

구글 딥마인드는 AI 시스템 개발 측면에서 자사의 초기 목표에 가장 부합하는 행보를 보여주며 OpenAI와 명확히 다른 방향을 향하고 있습니다. 딥마인드의 AlphaProof가 국

강재상 스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

'S급 데이터 모아와라'…빅테크는 도둑질까지 했다

골빈해커 Chief Maker

📝 차주 목요일에 OpenAI의 검색 서비스가 발표 될 것이라는 루머

주간 인기 TOP 10

골빈해커 Chief Maker

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?”

김의중 프론트엔드 개발자

Claude Code 실전 가이드: AI 네이티브 개발자로 가는

Arawn Park Senior Engineer & Engineering Lead

넷플릭스는 왜 WebFlux를 사용하지 않을까?

psmon 블룸에이아이 서버 엔지니어

카프카를 우아하게 사용하기 -코틀린편

달레 Apollo GraphQL Software Engineer

알아 알아 알아! 🤣

장홍석 스페이스오디티 부대표/CPO

< 몇 번 졌는지는 중요하지 않다, 인생은 결국 득실차다 >

황경찬(Boaz) P.E.C CEO

"AI가 코드를 짜는 시대, 개발자의 가치는 무엇일까요?" 최근

정종윤 네이버 프론트엔드 개발자

👻 클라이언트에서 안전한 소셜 로그인 구현을 위한 OIDC와 PK

박승규 카카오계열사에서 이것저것 만드는 개발자

책이 출판되기 전 마지막 교정을 하고 있는데... GPT5가 출시

석민 커리어 코치

백엔드 개발자 이력서 고민

댓글 0

함께 읽은 게시물

데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

비슷한 게시물

주간 인기 TOP 10

추천 프로필