AI 모델은 항상 환각을 일으키는가?

최근 호주의 한 시장은 ChatGPT가 자신이 주요 뇌물 스캔들에서 유죄를 인정했다고 잘못 주장했다는 이유로 OpenAI를 고소하겠다고 위협했습니다. 연구원들은 LLM 환각이 의심하지 않는 소프트웨어 개발자에게 악성 코드 패키지를 배포하는 데 악용될 수 있다는 사실을 발견했습니다. 또한 LLM은 와인을 마시면 "암을 예방할 수 있다"는 등 정신 건강 및 의학적으로 좋지 않은 조언을 하는 경우가 많습니다. 이러한 '사실'을 만들어내는 경향을 환각이라고 하며, 오늘날의 LLM을 비롯한 모든 생성형 AI 모델이 개발되고 학습되는 방식 때문에 이러한 현상이 발생합니다. > 학습 모델 생성형 AI 모델은 실제 지능이 없으며 단어, 이미지, 음성, 음악 또는 기타 데이터를 예측하는 통계 시스템일 뿐입니다. 일반적으로 퍼블릭 웹에서 제공되는 방대한 수의 예제를 통해 AI 모델은 주변 데이터의 컨텍스트를 포함한 패턴을 기반으로 데이터가 발생할 가능성을 학습합니다. 예를 들어, "기대에 부응하여..."라는 문장으로 끝나는 일반적인 이메일이 있을 경우, LLM은 학습된 수많은 이메일의 패턴에 따라 "... 답장을 기다립니다"로 이메일을 완성할 수 있습니다. 그렇다고 해서 LLM이 어떤 것을 기대하고 있다는 의미는 아닙니다. 런던 퀸메리 대학교의 세바스찬 번스 박사는 테크크런치와의 이메일 인터뷰에서 "현재 LLM을 훈련하는 프레임워크는 문맥을 위해 이전 단어를 숨기거나 '마스킹'하고, 모델이 숨긴 단어를 대체할 단어를 예측하도록 하는 것"이라고 설명했습니다. "이는 iOS에서 예측 텍스트를 사용하고 제안된 다음 단어 중 하나를 계속 누르는 것과 개념적으로 유사합니다." 이 확률 기반 접근 방식은 대부분의 경우 대규모에서 놀라울 정도로 잘 작동합니다. 하지만 단어의 범위와 확률을 고려하면 의미 있는 텍스트를 생성할 가능성이 높지만 확실하지는 않습니다. LLM은 악의가 없습니다. 이들에게는 악의가 없으며 참과 거짓의 개념은 의미가 없습니다. 그들은 단지 특정 단어나 문구를 특정 개념과 연관시키는 법을 배웠을 뿐이며, 그 연관성이 정확하지 않더라도 마찬가지입니다. 번스는 "'환각'은 LLM이 자신의 예측의 불확실성을 추정할 수 없다는 것과 관련이 있습니다."라고 말합니다. "LLM은 일반적으로 입력이 학습 데이터와 매우 다른 경우에도 항상 출력을 생성하도록 학습됩니다. 표준 LLM은 쿼리에 안정적으로 응답하거나 예측을 할 수 있는지 알 수 있는 방법이 없습니다." > 환각 문제 해결 문제는 환각을 해결할 수 있을까요? "해결"의 의미가 무엇인지에 따라 다릅니다. 앨런 인공지능 연구소의 응용 연구원이자 엔지니어인 부 하(Vu Ha)는 LLM은 "항상 환각을 경험하고 있고 앞으로도 그럴 것"이라고 주장합니다. 하지만 그는 LLM을 어떻게 훈련하고 배치하느냐에 따라 환각을 완전히 없앨 수는 없지만 줄일 수 있는 구체적인 방법이 있다고 믿습니다. "질문 답변 시스템을 생각해 보세요."라고 하가 이메일을 통해 말했습니다. "질문과 답변으로 구성된 고품질 지식 베이스를 큐레이션하고, 이 지식 베이스를 LLM과 연결하여 검색과 같은 프로세스를 통해 정확한 답변을 제공함으로써 높은 정확도를 갖도록 설계할 수 있습니다." 하 대표는 '고품질' 지식 베이스를 기반으로 하는 LLM과 데이터 큐레이션이 제대로 이루어지지 않은 LLM의 차이를 예로 들어 설명했습니다. 그는 "Toolformer 논문의 저자는 누구인가?"라는 질문(Toolformer는 Meta로 학습된 AI 모델입니다)을 Microsoft의 LLM 기반 Bing Chat과 Google의 Bard를 통해 실행했습니다. Bing Chat은 8명의 메타 공동 저자를 모두 올바르게 나열한 반면, Bard는 해당 논문의 저자를 Google과 Hugging Face의 연구원으로 잘못 표기했습니다. "배포된 모든 LLM 기반 시스템은 환각을 일으킬 것입니다. 진짜 문제는 환각으로 인한 부정적인 결과보다 이점이 더 크냐는 것입니다."라고 하가 말했습니다. 즉, 모델이 가끔 날짜나 이름을 틀리게 하는 등 명백한 해악이 없지만 다른 측면에서 도움이 된다면 그 정도는 감수할 가치가 있을 수 있습니다. "AI의 기대 효용을 극대화하는 것이 문제입니다."라고 그는 덧붙였습니다. 번스는 LLM에서 환각을 줄이기 위해 어느 정도 성공을 거둔 또 다른 기술인 인간 피드백을 통한 강화 학습(RLHF)을 지적했습니다. 2017년 OpenAI가 도입한 RLHF는 LLM을 학습시킨 다음 추가 정보를 수집하여 '보상' 모델을 학습시키고 강화 학습을 통해 보상 모델을 사용하여 LLM을 미세 조정하는 과정을 포함합니다. RLHF에서는 사전 정의된 데이터 세트의 일련의 프롬프트가 전달됩니다. RLHF에서는 사전 정의된 데이터 세트의 프롬프트 세트가 LLM을 통과하여 새로운 텍스트를 생성합니다. 그런 다음, 인간 어노테이터가 보상 모델을 학습하는 데 사용되는 데이터인 전반적인 '유용성'을 기준으로 LLM의 출력에 순위를 매기는 데 사용됩니다. 이 시점에서 보상 모델은 어떤 텍스트를 입력받아 사람이 얼마나 잘 인식하는지에 대한 점수를 부여할 수 있으며, 이 점수를 바탕으로 LLM에서 생성된 응답을 미세 조정하는 데 사용됩니다. OpenAI는 RLHF를 활용하여 GPT-4를 비롯한 여러 모델을 학습시켰습니다. 하지만 번스는 RLHF도 완벽하지는 않다고 경고했습니다. 번스는 "LLM을 RLHF에 완전히 '정렬'하기에는 가능성의 공간이 너무 크다고 생각합니다."라고 말합니다. "RLHF 환경에서 종종 수행되는 작업은 주로 인간의 도메인 지식에 의존하여 모델이 자체 도메인 지식으로 일반화하기를 바라면서 까다로운 질문에 대해 '모르겠다'는 답변을 생성하도록 모델을 훈련하는 것입니다. 종종 그렇게 되지만 약간 까다로울 수 있습니다." > 대안적인 철학 환각은 적어도 오늘날의 LLM으로는 해결할 수 없다고 가정하면 나쁜 것일까요? 번스는 그렇게 생각하지 않습니다. 환각 모델은 '공동 창작 파트너'의 역할을 함으로써 창의성을 촉진할 수 있으며, 전적으로 사실이 아닐 수도 있지만 그럼에도 불구하고 유용한 실마리가 담긴 결과물을 제공할 수 있다고 그는 주장합니다. 환각을 창의적으로 활용하면 대부분의 사람들이 생각하지 못하는 결과물이나 아이디어의 조합을 만들어낼 수 있습니다. "'환각'은 생성된 진술이 사실과 다르거나 일반적인 인간, 사회 또는 특정 문화적 가치에 위배되는 경우 문제가 됩니다."라고 그는 말합니다. "하지만 창의적이거나 예술적인 작업에서는 예상치 못한 결과물을 내놓을 수 있는 능력이 가치가 있을 수 있습니다. 질문을 받은 사람이 예상치 못한 답변에 놀라면서 특정 방향으로 생각이 쏠리고, 그 결과 새로운 아이디어가 연결될 수 있기 때문이죠." 하 교수는 인간은 기억을 잘못하거나 진실을 왜곡할 때 '환각'이라는 불합리한 기준을 적용하고 있다고 주장했습니다. 하지만 LLM은 겉보기에는 그럴듯해 보이지만 자세히 살펴보면 오류가 있는 결과물을 생성하기 때문에 인지 부조화를 경험한다고 그는 말합니다. "간단히 말해, 다른 AI 기술과 마찬가지로 LLM도 불완전하기 때문에 실수를 할 수 있습니다."라고 그는 말합니다. "전통적으로 우리는 불완전성을 예상하고 받아들이기 때문에 AI 시스템이 실수를 해도 괜찮습니다. 하지만 머신러닝이 실수를 할 때는 좀 더 미묘한 차이가 있습니다." 사실 답은 기술 수준에서 제너레이티브 AI 모델이 작동하는 방식에 있지 않을 수도 있습니다. 오늘날 환각에 대한 '해결책'이 있는 한, 모델의 예측을 회의적인 시각으로 대하는 것이 최선의 접근 방식인 것 같습니다. 번역: DeepL.com/Translator

Are AI models doomed to always hallucinate? | TechCrunch

TechCrunch

Are AI models doomed to always hallucinate? | TechCrunch

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 9월 5일 오후 3:38

 • 

저장 6조회 2,077

댓글 0

    함께 읽은 게시물

    📝무신사 글로벌 전략, 핵심만 쏙 정리했어요!

    ... 더 보기

    무신사 글로벌 전략, 핵심만 쏙 정리했어요

    www.openads.co.kr

    무신사 글로벌 전략, 핵심만 쏙 정리했어요

    《Simple Truth》

    ... 더 보기

    구성원들이 의욕적으로 협력하고 열정과 에너지가 느껴지는 팀과 조직이 있는 반면, 서로의 일에 무관심하고 타성과 매너리즘에 빠져 무기력하게 하루를 보내는 조직이 있다. 이렇게 차이가 나는 이유는 뭘까? 그것은 근본적으로 팀과 조직을 이끌어가는 리더의 에너지 상태가 다르기 때문이다.

    ... 더 보기

    저성장기, 팀과 조직에 긍정에너지를 불어넣는 에너자이징 리더십이 요구된다 - 포브스코리아(Forbes Korea)

    포브스코리아(Forbes Korea)

    저성장기, 팀과 조직에 긍정에너지를 불어넣는 에너자이징 리더십이 요구된다 - 포브스코리아(Forbes Korea)

    '케이팝 데몬 헌터스'는 한국은 물론, 미국, 영국, 호주, 프랑스, 독일, 홍콩, 인도, 이탈리아, 일본, 멕시코 등 총 22개국에서 1위를 차지했다.

    ... 더 보기

    '케이팝 데몬 헌터스', 전 세계 휩쓸었다..넷플릭스 글로벌 1위 [스타이슈] | 스타뉴스

    스타뉴스

    '케이팝 데몬 헌터스', 전 세계 휩쓸었다..넷플릭스 글로벌 1위 [스타이슈] | 스타뉴스

    < '시간이 없다'는 세상에서 가장 흔한 거짓말 >

    1. 오랜만에 만난 사람은 늘 어색하다. 뭔가 말을 건네야 한다. 인사 없이 지나가긴 애매하다. 하지만 대화 주제는 많지 않다. 날씨, 뉴스 얘기 몇 마디는 어떻게 해본다. 하지만 가장 어려운 건 마무리다.

    ... 더 보기

    공식적으로 뭐하는 회사인지는 모르지만 일단 100억달러 기업가치

    ... 더 보기

    무라티의 싱킹 머신즈, 20억달러 투자 유치..."실리콘 밸리 사상 최대 시드 투자"

    AI타임스

    무라티의 싱킹 머신즈, 20억달러 투자 유치..."실리콘 밸리 사상 최대 시드 투자"

    조회 370