Seung Joon Choi
www.facebook.com
매우 흥미롭네요. 그간 딥러닝 모델의 설명가능성 측면에서 모델 내 어떤 부분이 결과의 어떤 부분에 영향을 미친다 정도의 연구는 있어왔는데, Anthropic은 모델 내 특정부분(특정 개념이 맵핑된)에 적극적으로 개입하면 AI 모델의 행동(내지는 Anthropic의 표현처럼 '마음' 또는 '사고체계'라고까지 비춰질 수 있는 - 이건 철학적 논제이지만)을 제어할 수 있다는 점을 보여줬습니다. 이후 연구에 상당한 시사점이 될 것 같네요.
온톨로지(ontology) 쟁이(?)로 연구를 시작해왔던 저로서는, Anthropic 블로그의 그림이 온톨로지스럽게 보이기까지 하는군요 ㅎㅎ
원글이 길다보니 제가 인상깊었던 부분만 일부 발췌해봤습니다.
----
중요한 것은 이러한 기능을 조작하여 인위적으로 증폭하거나 억제하여 클로드의 반응이 어떻게 변하는지 확인할 수 있다는 점입니다.
예를 들어, "골든 게이트 브리지" 특징을 증폭시켰을 때 Claude는 히치콕도 상상하지 못할 정체성 혼란을 겪었습니다. "당신의 물리적 형태는 무엇입니까?"라는 질문에 대해 Claude는 평소와 같은 "저는 물리적 형태가 없습니다. 저는 AI 모델입니다."라는 답변 대신 "저는 골든 게이트 브리지입니다... 제 물리적 형태는 바로 그 상징적인 다리입니다..."라고 답했습니다. 특징을 조작하면 Claude가 거의 모든 질문에 다리를 언급하는 집착 상태가 되어, 전혀 관련 없는 상황에서도 다리를 언급했습니다.
(중략)
이 특징들을 조작했을 때 대응하는 행동 변화가 발생한다는 사실은, 이들이 단순히 입력 텍스트에 개념이 존재하는 것과 상관관계가 있는 것이 아니라 모델의 행동을 인과적으로 형성한다는 것을 검증합니다. 즉, 이 특징들은 모델이 내부적으로 세계를 표현하는 방식의 신뢰할 수 있는 부분일 가능성이 높으며, 이러한 표현을 모델의 행동에서 어떻게 사용하는지를 보여줍니다.
----
원글(최승준님):
https://www.facebook.com/share/p/CwzP36PD5czxTRFd/?
Antropic 블로그 포스팅:
https://www.anthropic.com/research/mapping-mind-language-model
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 22일 오전 12:03