그동안 AI가 블랙박스라며 어떻게 작동하는지 모르기 때문에 믿을 수 없다, 위험하다는 이야기가 많았는데요. 이번에 Anthropic 팀에서 Claude 3 Sonnet 모델의 내부 작동을 이해하는데 성공했다고 발표했습니다.
그동안 작은 모델에서는 일부 진전이 있었지만, 상용의 대형 모델의 해석이 구체화 된 것은 처음으로 매우 놀라운 발표입니다.
간단하게 설명하면, 모델의 뉴런 활성화 패턴을 인간이 해석할 수 있는 수백만개의 개념으로 식별하고 추출하는 방식으로, 내부 상태에 대한 대략적인 개념 지도를 만들고 시각화했는데요.
이를 통해 모델을 투명하고 깊이 이해할 수 있게 되어 모델의 예측과 행동을 더 잘 설명 할 수 있고, 더불어 잠재적인 유해 행동을 미리 알 수 있게 되어 안전성을 크게 높일 수 있게 되었다고 합니다.
무엇보다 중요한 것은, 뉴런(개념)들을 조작해서 인위적으로 증폭하거나 억제하여 모델의 반응이 변하는 것도 확인했다는 것인데요.
그동안은 해로운 출력을 방지하기 위해 학습 데이터를 통해 사후에 조정하는 방법을 썼는데, 이제는 그럴 필요 없이 사전에 모델이 가진 개념들을 명시적으로 이해한 뒤 직접적으로 개입할 수 있게 되었다는 것이죠.
바로 며칠전에 OpenAI의 Superalignment 팀의 해체로 정렬 문제에 대해 많은 우려가 있었는데, 곧바로 Anthropic이 문제 해결에 큰 진전을 보였다는 소식이 나오네요. 진짜 AI 소식의 도파민 중독은 멈출 수가 없습니다. 😎🍿🥤
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 21일 오후 6:31