What Happens When Most Content Online Becomes AI-Generated?
Medium
우리는 생성형AI(Generative AI) 시대에 살고 있습니다😃
생성형AI가 대부분의 온라인 인터넷 콘텐츠를 생성한다면 우리 세상에는 어떤 일들이 생길까요? 'Medium'이라는 온라인 매거진의 관련 기사 공유합니다.
<대부분의 온라인 콘텐츠를 AI가 생성하면 어떤 일들이 일어날까요?>
최근의 생성형AI의 능력은 무궁무진합니다. 이제는 생성형AI를 통해 매우 현실적이고 복잡한 텍스트, 이미지 및 사운드를 생성할 수 있습니다.
생성형AI는 인터넷 상의 인간이 생성한 콘텐츠를 스크랩한 대규모 데이터 세트를 기반으로 학습되었는데요, 점점 더 많은 AI가 생성한 콘텐츠가 학습 데이터의 주요 소스인 인터넷에 게시될 정도로 사회에서 널리 알려지고 빠르게 채택되고 있습니다.
이로인해 생성 모델은 필연적으로 인간이 아닌 생성형 AI가 생성한 합성 데이터를 학습하게 되는데요, 이런 일이 발생하면 모델은 어떻게 작동할까요?
"The Curse of Recursion: Training on Generated Data Makes Models Forget (I. Shumailov et al., 2023)", Self-Consuming Generative Models Go MAD (S. Alemohammad et al., 2023)의 논문에 따르면 생성 모델은 자신이 생성하는 콘텐츠에 대해 주로 교육을 받을 때 성능이 저하되는 경향이 있습니다. 즉, 인간이 생성한 콘텐츠가 부족해지면 생성 모델이 AI가 생성 콘텐츠에 노출되게 되고, 이는 심각한 문제를 야기할 수 있습니다.
이를 예방하기 위해서는 첫번째, 인간이 AI 도구 없이 콘텐츠 제작을 장려하여 이러한 추세에 대응해야 하며, 두번째, AI가 생성한 데이터를 감지하고 모델 학습 프로세스에는 이를 필터링하는 방법을 개발해야 합니다.
💌 AI가 생성한 데이터 찾아내는 방법
1️⃣ 워터마킹(Watermarking)
~ 인간이 생성한 데이터와 AI가 생성한 데이터를 구별하기 위해 문헌에서 논의된 주요 접근 방식은 워터마킹입니다. 워터마킹은 인간에게는 보이지 않지만 알고리즘으로는 감지할 수 있는 숨겨진 신호를 데이터에 추가하는 과정입니다.
~ 워터마킹을 사용하면 AI 생성 데이터를 쉽게 감지할 수 있지만 생성형AI 제공업체가 이를 제품에 추가하는 경우에만 작동할 수 있겠죠.
2️⃣ ML 분류기(classifiers) 사용
~ 워터마킹의 대안으로 콘텐츠가 AI 생성인지 인간 생성인지 레이블을 지정하는 방법을 학습하는 기계 학습 분류기를 학습하는 방법을 생각해 볼 수 있습니다.
~ 이 작업을 수행하는 시스템은 GPTzero와 같이 이미 존재합니다. 그러나 오류율이 높고 강력한 솔루션을 제공하지 못합니다. AI 생성 데이터를 감지하는 것은 기계 학습 모델의 경우에도 어려운 작업임이 입증되었다고 하네요.
3️⃣ 제로샷(zero-shot) 접근 방식
~ DetectGPT: 'DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature (E. Mitchell et al., 2023)'에서 논의된 또 다른 접근 방식은 학습이 필요하지 않으며 LLM의 로그 확률 함수 곡률(curvature) 관찰(observing)을 기반으로 합니다.
~ 확장성에 대해서는 의문이 있을 수 있지만 모델에 구애받지 않으며(콘텐츠가 특정 LLM이 아닌 특정 LLM에 의해 생성되었는지 감지) 모델의 로그 확률에 액세스해야 한다고 하네요.
원본 기사 링크는 아래와 같습니다. 감사합니다🙏
[Source Link] https://towardsdatascience.com/what-happens-when-most-content-online-becomes-ai-generated-684dde2a150d
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 10월 26일 오전 8:05
직장인으로서 10년 정도 일하게 되면 피할 수 없는 순간이 바로 조직에서 리더의 역할을 받게 되는 인사발령이다. 팀원이었을 때는 내게 주어진 업무를 내가 가진 능력과 주변 동료들의 도움으로 해결하고, 그에 합당한 평가와 보상을 기다리며, 나쁘지 않는 리워드와 내 위치에 안도하며 또 새해를 맞이하고 하루하루를 버텨나가는 과정에 큰 어려움이 없다.
... 더 보기1. 엔터테인먼트 프로덕트의 본질은 콘텐츠다. 사용자는 콘텐츠를 소비하며 감정을 느낀다. 재미, 감동, 공포, 희열. 인간의 다양한 감정이 콘텐츠를 통해 꺼내진다.