모든 인터넷 콘텐츠를 AI가 생성한다면?

우리는 생성형AI(Generative AI) 시대에 살고 있습니다😃 생성형AI가 대부분의 온라인 인터넷 콘텐츠를 생성한다면 우리 세상에는 어떤 일들이 생길까요? 'Medium'이라는 온라인 매거진의 관련 기사 공유합니다. * 최근의 생성형AI의 능력은 무궁무진합니다. 이제는 생성형AI를 통해 매우 현실적이고 복잡한 텍스트, 이미지 및 사운드를 생성할 수 있습니다. * 생성형AI는 인터넷 상의 인간이 생성한 콘텐츠를 스크랩한 대규모 데이터 세트를 기반으로 학습되었는데요, 점점 더 많은 AI가 생성한 콘텐츠가 학습 데이터의 주요 소스인 인터넷에 게시될 정도로 사회에서 널리 알려지고 빠르게 채택되고 있습니다. * 이로인해 생성 모델은 필연적으로 인간이 아닌 생성형 AI가 생성한 합성 데이터를 학습하게 되는데요, 이런 일이 발생하면 모델은 어떻게 작동할까요? * "The Curse of Recursion: Training on Generated Data Makes Models Forget (I. Shumailov et al., 2023)", Self-Consuming Generative Models Go MAD (S. Alemohammad et al., 2023)의 논문에 따르면 생성 모델은 자신이 생성하는 콘텐츠에 대해 주로 교육을 받을 때 성능이 저하되는 경향이 있습니다. 즉, 인간이 생성한 콘텐츠가 부족해지면 생성 모델이 AI가 생성 콘텐츠에 노출되게 되고, 이는 심각한 문제를 야기할 수 있습니다. * 이를 예방하기 위해서는 첫번째, 인간이 AI 도구 없이 콘텐츠 제작을 장려하여 이러한 추세에 대응해야 하며, 두번째, AI가 생성한 데이터를 감지하고 모델 학습 프로세스에는 이를 필터링하는 방법을 개발해야 합니다. 💌 AI가 생성한 데이터 찾아내는 방법 1️⃣ 워터마킹(Watermarking) ~ 인간이 생성한 데이터와 AI가 생성한 데이터를 구별하기 위해 문헌에서 논의된 주요 접근 방식은 워터마킹입니다. 워터마킹은 인간에게는 보이지 않지만 알고리즘으로는 감지할 수 있는 숨겨진 신호를 데이터에 추가하는 과정입니다. ~ 워터마킹을 사용하면 AI 생성 데이터를 쉽게 감지할 수 있지만 생성형AI 제공업체가 이를 제품에 추가하는 경우에만 작동할 수 있겠죠. 2️⃣ ML 분류기(classifiers) 사용 ~ 워터마킹의 대안으로 콘텐츠가 AI 생성인지 인간 생성인지 레이블을 지정하는 방법을 학습하는 기계 학습 분류기를 학습하는 방법을 생각해 볼 수 있습니다. ~ 이 작업을 수행하는 시스템은 GPTzero와 같이 이미 존재합니다. 그러나 오류율이 높고 강력한 솔루션을 제공하지 못합니다. AI 생성 데이터를 감지하는 것은 기계 학습 모델의 경우에도 어려운 작업임이 입증되었다고 하네요. 3️⃣ 제로샷(zero-shot) 접근 방식 ~ DetectGPT: 'DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature (E. Mitchell et al., 2023)'에서 논의된 또 다른 접근 방식은 학습이 필요하지 않으며 LLM의 로그 확률 함수 곡률(curvature) 관찰(observing)을 기반으로 합니다. ~ 확장성에 대해서는 의문이 있을 수 있지만 모델에 구애받지 않으며(콘텐츠가 특정 LLM이 아닌 특정 LLM에 의해 생성되었는지 감지) 모델의 로그 확률에 액세스해야 한다고 하네요. 원본 기사 링크는 아래와 같습니다. 감사합니다🙏 [Source Link] https://towardsdatascience.com/what-happens-when-most-content-online-becomes-ai-generated-684dde2a150d

모든 인터넷 콘텐츠를 AI가 생성한다면?

알림