LLM의 선호도를 끌어내어 내적 보상 모델을 구축하고, 이를 통해 강화 학습으로 에이전트를 훈련시키는 Motif. NetHack 게임으로 실험을 했는데, 내적 보상을 극대화하도록 학습한 방법이,
LLM의 선호도를 끌어내어 내적 보상 모델을 구축하고, 이를 통해 강화 학습으로 에이전트를 훈련시키는 Motif. NetHack 게임으로 실험을 했는데, 내적 보상을 극대화하도록 학습한 방법이, 점수 자체를 극대화하는 방법보다 높은 게임 점수를 달성했다고 하네요. AI의 내적 선호도를 이용하는 보상 모델이라니.. 이건 좀.. 위험할지도..? 😬 https://arxiv.org/abs/2310.00166