달레의 코딩 테스트
www.youtube.com
NetHack 게임으로 실험을 했는데, 내적 보상을 극대화하도록 학습한 방법이, 점수 자체를 극대화하는 방법보다 높은 게임 점수를 달성했다고 하네요.
AI의 내적 선호도를 이용하는 보상 모델이라니.. 이건 좀.. 위험할지도..? 😬
https://arxiv.org/abs/2310.00166
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2023년 10월 26일 오전 6:57
지
... 더 보기딥러닝/LLM 모델은 기본적으로는 Stateless한 상태지만, 대부분 프롬프트와 출력을 계속 되먹임하면서 작업을 이어가기 때문에 여러 턴으로 이루어진 태스크에서는 Stateful 하다고 볼 수 있습니다.
이런 것을 In-context learning 이라고 합니다.
R