앞으로 텍스트 콘텐츠는 돈이 됩니다

1. 지난 3월 미국 증시에 상장된 인터넷 커뮤니티 ‘레딧’의 주가가 연일 고공행진 중이다.

2. (특히) 최근 레딧이 ChatGPT 개발사 오픈AI와 자사 웹사이트에 게시된 데이터를 AI 학습에 사용할 수 있도록 계약했다고 발표하자, 주가는 15% 급등했다.

3. (이처럼 앞으로의 세상에서) 데이터는 돈이 된다. AI가 똑똑해지려면 데이터라는 밥을 잘 먹어야 해서다. 고품질 데이터가 AI의 주식(主食)이다.

4. (요즘) 스타트업부터 빅테크까지 ‘우리 AI’ 밥 챙기지 못해 안달이다. ‘오일머니’ 대신 ‘데이터머니’가 새로운 헤게모니가 될 것이란 전망이 허황된 얘기가 아니다.

5. (게다가) 더욱 똑똑해져야 하는 임무를 띤 생성형 AI는 요즘 공부할 데이터가 없어서 문제다. (그래서 요즘) 기업들은 (데이터를 구하기 위해) 백방으로 나서고 있다.

6. (그렇다고) 아무거나 먹을 순 없다. (AI 학습에) 중요한 건 ‘다양성’과 ‘품질’이다. 여러 질문에 음성으로 답하고 그림도 그려주는 ‘팔방미인’, 즉 ‘멀티모달 AI’ 개발을 위해선 더 다양한 데이터를 학습해야 한다. (또한) 신뢰할 만한 AI 모델을 만들려면 인터넷에 떠도는 데이터를 마구잡이로 학습해선 안 된다.

7. AI 기업이 데이터를 구하는 방법은 가지각색이다. 가공되지 않은 데이터(Raw Data)는 대체로 돈 주고 산다. 예컨대 비식별화한 보험 가입자 정보, 신용카드 소비 통계 등은 각 보험사나 카드사에서 구한다. 1분당 3달러에 영상 데이터를 사는 어도비처럼 이용자에게 직접 데이터를 사기도 한다.

8. 과거 인터넷상 데이터를 몰래 긁어(=크롤링) 가져가기도 했다. 뉴욕타임즈는 오픈AI와 구글 등이 저작권법을 무시하고 유튜브에 게재된 영상을 녹취록으로 바꿔 자사의 AI 모델 학습에 사용했다고 복수의 내부 관계자를 인용해 보도했다. AI ‘밥’이 모자란다는 얘기가 나오자 도둑질까지 했다는 거다.

9. (지금도 학습시킬 데이터가 부족한 상황이라서, AI 경쟁이 더 치열해질수록 양질의 콘텐츠와 데이터를 확보하기 위한 움직임은 더 커질 수 있는 셈)

'S급 데이터 모아와라'...빅테크는 도둑질까지 했다

n.news.naver.com

'S급 데이터 모아와라'...빅테크는 도둑질까지 했다

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 6월 6일 오전 1:05

댓글 0