[지금 무료]F-Lab 기술 인사이트, 플러그인 강의 | DEV-CLUB - 인프런
인프런
* 아주 정확한 설명은 아닙니다. 저 같은 일반인을 위한 개념 이해를 위한 설명이에요.
LLM을 포함한 AI는 언어나 특정 표현의 의미와 개념을 인간이 이해 할 수 없는 수준의 고차원 공간에 맵핑하고, 입력 값을 주면 그 공간 어딘가에서 의미와 개념을 가져와서 결과를 출력하는 것이 기본 개념입니다.
그런데 지금까지는 AI 모델에 어떤 의미들이 포함되어 있으며, 또 그 공간이 어딘지를 몰랐습니다. 학습 데이터와 방식을 통해 그런 결과가 왜 나오는지를 이해를 하긴 하는데, 실제 작동시의 작동 방식을 모르기 때문에 블랙박스라고 하였던 것이죠.
예를 들면 전자렌지에 음식을 돌리면 따뜻해지는데, 그게 왜 그런지는 모른다는 것인데요. 마이크로파를 쏘는 것 까지는 알겠는데 음식이 왜 따뜻해지는거야. 는 몰랐던 것 입니다.
그런데 이번 발표는 그러한 작동 방식을 규명하고, 더불어 학습을 통하지 않고, AI 모델을 직접 조작해서 결과를 바꿀 수도 있었다는 것 입니다.
전자렌지로 따지면 마이크로파에 의해 물분자가 진동하게 되면서 발생하는 마찰열로 인해 음식이 가열되는 원리를 알아냈다는 것 입니다. 그리고 이걸 알면 더 빠르게 가열하는 방법도 알 수 있고, 마이크로파를 차단하는 금속망을 붙여 안전하게 만든다거나, 어떤 물건은 넣지 마세요. 라고 할 수 있게 되는 것이죠.
LLM은 수백억개의 뉴런이 연결되어 있고, 그 연결들이 활성화 되면서(다른 뉴런들로 신호를 전달) 결과를 내는데, 마인드 맵핑 연구는 이 수백억개의 뉴런 중에서 어떤 뉴런들의 연결되어 어떤 의미를 가지는지를 알게 되었다는 것인데요.
즉, AI 모델 내에 어떤 의미와 개념들이 존재하고, 또 그 의미들이 어떤 뉴런들의 연결에 의해 존재하는 것인지를 알게 되었다는 것 입니다.
예를 들면, LLM 모델은 보통 인종차별 발언을 하지 않도록 학습(Alignment, 정렬) 시키는데, 이 특징을 가지는 뉴런의 연결이 어떤 것인지 확인하고 그 부분을 활성화 시켰더니 인종차별 발언을 하기 시작했다고 합니다.
더 재미난 점은, 인종차별 발언을 하지 않도록 학습된 모델이어서 그런지 해당 발언을 한 후 자기혐오 발언이 이어지는 일종의 내부 갈등이 있었다고 합니다. (이 말은 경멸적인 봇이 한 말로 (이 봇은) 인터넷에서 제거되어야 합니다.)
결과적으로, AI의 내부를 이해하고 직접 제어 할 수 있게 되면서 AI의 안전성에 대한 큰 진보를 이룰 수 있게 되었음은 물론, 성능 향상을 위한 방법에도 큰 진전을 이룰 수 있는 단서를 발견 한 것 입니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 22일 오전 5:42
에
... 더 보기최
... 더 보기M
... 더 보기잘
... 더 보기