Patronus AI | Introducing CopyrightCatcher, the first Copyright Detection API for LLMs
Patronus
출처: https://www.patronus.ai/blog/introducing-copyright-catcher
최근 한 스타트업에서 LLM의 답변 중 저작권을 침해하는 내용이 얼마나 자주 등장하는지 조사한 결과를 발표했습니다.
이들은 '특정 창작물의 첫 문단 작성'과 '발췌문 이어쓰기'라는 두 가지 프롬프트를 사용해 실험했는데요. 그 결과 gpt4는 26%/60%, claude2.1는 0%/16%, mixtral-8x7B는 38%/6%, llama2-70B는 10%/10%의 경우 원문을 그대로 답했다고 합니다.
LLM의 학습 과정에 개인정보나 저작물이 포함되어 있다면, 생성 단계에서도 원문이 노출될 가능성이 있습니다. 하지만 이를 문제 삼으려면 좀 더 신중할 필요가 있어 보입니다.
일반적인 대화 맥락과 무관하게 개인정보나 저작물을 그대로 답하거나, 출처를 밝히지 않고 마치 AI가 창작한 것처럼 답변한다면 문제가 될 수 있겠죠. 하지만 위 실험은 LLM에게 저작권 침해를 유도한 뒤 문제를 제기하는 방식입니다.
검색 엔진을 통해서도 저작권이 있는 콘텐츠 원문에 접근할 수 있듯이, LLM도 프롬프트에 따라 유사한 결과를 보일 수밖에 없습니다. 중요한 건 일상적인 대화 상황에서 저작권 침해가 얼마나 발생하는지를 살피는 거겠죠.
물론 LLM에 적절한 가드레일을 적용하는 것도 필요합니다. 하지만 그에 앞서 이 기술을 어떻게 활용할 것인지, 어떤 문제에 주목해야 할지 숙고해 봐야 할 것 같네요.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 3월 16일 오전 8:08
아기유니콘 사업을 주관한 중기부는 F사가 성인 콘텐츠 사업을 영위하고 있는 것에 대해 충분히 인지하지 못했다는 입장이다. 중기부 관계자는 “해당 F사의 사업 계획서 내용과 조금 다른 부분이 있었던 것 같다”면서 “아직 협약 체결을 하지 않은 상태이기 때문에, 관련 사안을 더욱 면밀히 파악하고 최종 협약 여부를 결정하겠다"라고 말했다.
... 더 보기A 회사가 구설에 올랐다. 직장인 익명 커뮤니티에 올라온 글에 따르면 내부 분위기가 매우 좋지 않다고 한다. 과거 A사는 사업을 다양하게 벌인 것에 비해, 돈은 별로 벌지 못했다고 한다. 이때 경영진은 고통을 다 같이 나누자며 모든 직원의 연봉 인상을 제한하고 성과급도 소액만 주었다.
... 더 보기1. 누군가가 화려한 단어나 두루뭉술한 개념을 많이 사용한다면 아마 자신이 무슨 말을 하는지도 모를 것이다.
지비지오는 지난해 5월 서비스 출시 후 월평균 거래액이 45%씩 성장했다. 지난 3월 100억원의 시리즈A 투자도 유치했다. 데이터 기반으로 경쟁력을 키운 게 주효했다. 일례로 인스타그램에서 댓글을 달면 DM으로 구매 링크를 자동 발송하는 기능을 자체 개발해 무료로 배포했다. 다이렉트 메시지(DM)을 활용하는 인플루언서의 실적이 더 높다는 데이터를 확인했기 때문이다.
... 더 보기누
... 더 보기