Community

LLM의 저작권 침해, 합리적으로 접근해야

출처: https://www.patronus.ai/blog/introducing-copyright-catcher 최근 한 스타트업에서 LLM의 답변 중 저작권을 침해하는 내용이 얼마나 자주 등장하는지 조사한 결과를 발표했습니다. 이들은 '특정 창작물의 첫 문단 작성'과 '발췌문 이어쓰기'라는 두 가지 프롬프트를 사용해 실험했는데요. 그 결과 gpt4는 26%/60%, claude2.1는 0%/16%, mixtral-8x7B는 38%/6%, llama2-70B는 10%/10%의 경우 원문을 그대로 답했다고 합니다. LLM의 학습 과정에 개인정보나 저작물이 포함되어 있다면, 생성 단계에서도 원문이 노출될 가능성이 있습니다. 하지만 이를 문제 삼으려면 좀 더 신중할 필요가 있어 보입니다. 일반적인 대화 맥락과 무관하게 개인정보나 저작물을 그대로 답하거나, 출처를 밝히지 않고 마치 AI가 창작한 것처럼 답변한다면 문제가 될 수 있겠죠. 하지만 위 실험은 LLM에게 저작권 침해를 유도한 뒤 문제를 제기하는 방식입니다. 검색 엔진을 통해서도 저작권이 있는 콘텐츠 원문에 접근할 수 있듯이, LLM도 프롬프트에 따라 유사한 결과를 보일 수밖에 없습니다. 중요한 건 일상적인 대화 상황에서 저작권 침해가 얼마나 발생하는지를 살피는 거겠죠. 물론 LLM에 적절한 가드레일을 적용하는 것도 필요합니다. 하지만 그에 앞서 이 기술을 어떻게 활용할 것인지, 어떤 문제에 주목해야 할지 숙고해 봐야 할 것 같네요.

알림

알림이 없습니다