LLM의 선호도를 끌어내어 내적 보상 모델을 구축하고, 이를 통해 강화 학습으로 에이전트를 훈련시키는 Motif.


NetHack 게임으로 실험을 했는데, 내적 보상을 극대화하도록 학습한 방법이, 점수 자체를 극대화하는 방법보다 높은 게임 점수를 달성했다고 하네요.


AI의 내적 선호도를 이용하는 보상 모델이라니.. 이건 좀.. 위험할지도..? 😬


https://arxiv.org/abs/2310.00166

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2023년 10월 26일 오전 6:57

 • 

저장 17조회 2,790

댓글 0

    함께 읽은 게시물

    데이터 분석가 첫 커리어는 어떤 회사에서 시작해야 할까요? 🤔

    ... 더 보기

    조회 1,323


    🎯 유튜브에 100번째 코딩 테스트 문제 풀이 영상을 올렸습니다!

    ... 더 보기

    달레의 코딩 테스트

    www.youtube.com

    달레의 코딩 테스트


    딥러닝/LLM 모델은 기본적으로는 Stateless한 상태지만, 대부분 프롬프트와 출력을 계속 되먹임하면서 작업을 이어가기 때문에 여러 턴으로 이루어진 태스크에서는 Stateful 하다고 볼 수 있습니다.


    이런 것을 In-context learning 이라고 합니다.


    ... 더 보기


    React 면접 전 살펴보기 위한 Q&A 40가지 (2024년 ver)

    1. R

    ... 더 보기

    Top 40 ReactJS Interview Questions and Answers in 2024 | Simplilearn

    Simplilearn.com

    Top 40 ReactJS Interview Questions and Answers in 2024 | Simplilearn

     • 

    댓글 1 • 저장 218 • 조회 11,576