모든 인터넷 콘텐츠를 AI가 생성한다면?

우리는 생성형AI(Generative AI) 시대에 살고 있습니다😃

생성형AI가 대부분의 온라인 인터넷 콘텐츠를 생성한다면 우리 세상에는 어떤 일들이 생길까요? 'Medium'이라는 온라인 매거진의 관련 기사 공유합니다.


<대부분의 온라인 콘텐츠를 AI가 생성하면 어떤 일들이 일어날까요?>

  • 최근의 생성형AI의 능력은 무궁무진합니다. 이제는 생성형AI를 통해 매우 현실적이고 복잡한 텍스트, 이미지 및 사운드를 생성할 수 있습니다.

  • 생성형AI는 인터넷 상의 인간이 생성한 콘텐츠를 스크랩한 대규모 데이터 세트를 기반으로 학습되었는데요, 점점 더 많은 AI가 생성한 콘텐츠가 학습 데이터의 주요 소스인 인터넷에 게시될 정도로 사회에서 널리 알려지고 빠르게 채택되고 있습니다.

  • 이로인해 생성 모델은 필연적으로 인간이 아닌 생성형 AI가 생성한 합성 데이터를 학습하게 되는데요, 이런 일이 발생하면 모델은 어떻게 작동할까요?

  • "The Curse of Recursion: Training on Generated Data Makes Models Forget (I. Shumailov et al., 2023)", Self-Consuming Generative Models Go MAD (S. Alemohammad et al., 2023)의 논문에 따르면 생성 모델은 자신이 생성하는 콘텐츠에 대해 주로 교육을 받을 때 성능이 저하되는 경향이 있습니다. 즉, 인간이 생성한 콘텐츠가 부족해지면 생성 모델이 AI가 생성 콘텐츠에 노출되게 되고, 이는 심각한 문제를 야기할 수 있습니다.

  • 이를 예방하기 위해서는 첫번째, 인간이 AI 도구 없이 콘텐츠 제작을 장려하여 이러한 추세에 대응해야 하며, 두번째, AI가 생성한 데이터를 감지하고 모델 학습 프로세스에는 이를 필터링하는 방법을 개발해야 합니다.


💌 AI가 생성한 데이터 찾아내는 방법

1️⃣ 워터마킹(Watermarking)

~ 인간이 생성한 데이터와 AI가 생성한 데이터를 구별하기 위해 문헌에서 논의된 주요 접근 방식은 워터마킹입니다. 워터마킹은 인간에게는 보이지 않지만 알고리즘으로는 감지할 수 있는 숨겨진 신호를 데이터에 추가하는 과정입니다.


~ 워터마킹을 사용하면 AI 생성 데이터를 쉽게 감지할 수 있지만 생성형AI 제공업체가 이를 제품에 추가하는 경우에만 작동할 수 있겠죠.


2️⃣ ML 분류기(classifiers) 사용

~ 워터마킹의 대안으로 콘텐츠가 AI 생성인지 인간 생성인지 레이블을 지정하는 방법을 학습하는 기계 학습 분류기를 학습하는 방법을 생각해 볼 수 있습니다.

~ 이 작업을 수행하는 시스템은 GPTzero와 같이 이미 존재합니다. 그러나 오류율이 높고 강력한 솔루션을 제공하지 못합니다. AI 생성 데이터를 감지하는 것은 기계 학습 모델의 경우에도 어려운 작업임이 입증되었다고 하네요.


3️⃣ 제로샷(zero-shot) 접근 방식

~ DetectGPT: 'DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature (E. Mitchell et al., 2023)'에서 논의된 또 다른 접근 방식은 학습이 필요하지 않으며 LLM의 로그 확률 함수 곡률(curvature) 관찰(observing)을 기반으로 합니다.

~ 확장성에 대해서는 의문이 있을 수 있지만 모델에 구애받지 않으며(콘텐츠가 특정 LLM이 아닌 특정 LLM에 의해 생성되었는지 감지) 모델의 로그 확률에 액세스해야 한다고 하네요.


원본 기사 링크는 아래와 같습니다. 감사합니다🙏

[Source Link] https://towardsdatascience.com/what-happens-when-most-content-online-becomes-ai-generated-684dde2a150d

What Happens When Most Content Online Becomes AI-Generated?

Medium

What Happens When Most Content Online Becomes AI-Generated?

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 10월 26일 오전 8:05

댓글 0

    함께 읽은 게시물

    👉테헤란로 소진언니 인터뷰, 김소진이 만난 사람 l MZ 프로일잘러!

    ... 더 보기

    MZ는 퇴사 원해 X세대는 버틴다 누가 회사에 남나?

    M

    ... 더 보기

    < 쿠팡의 창업자를 직접 보며 배운 것: 리더의 크기가 전부다 >

    1

    ... 더 보기

     • 

    댓글 1 • 저장 17 • 조회 1,493


    직장인으로서 10년 정도 일하게 되면 피할 수 없는 순간이 바로 조직에서 리더의 역할을 받게 되는 인사발령이다. 팀원이었을 때는 내게 주어진 업무를 내가 가진 능력과 주변 동료들의 도움으로 해결하고, 그에 합당한 평가와 보상을 기다리며, 나쁘지 않는 리워드와 내 위치에 안도하며 또 새해를 맞이하고 하루하루를 버텨나가는 과정에 큰 어려움이 없다.

    ... 더 보기

     • 

    저장 3 • 조회 336


    < 스포티파이와 멜론, 같은 음악인데 왜 경험은 다를까? >

    1. 엔터테인먼트 프로덕트의 본질은 콘텐츠다. 사용자는 콘텐츠를 소비하며 감정을 느낀다. 재미, 감동, 공포, 희열. 인간의 다양한 감정이 콘텐츠를 통해 꺼내진다.

    ... 더 보기

    이력서에 쓰는 경험

    

    ... 더 보기