'S급 데이터 모아와라'...빅테크는 도둑질까지 했다
n.news.naver.com
지난 5월 16일 레딧이 챗GPT 개발사 오픈AI와 자사 웹사이트에 게시된 데이터를 인공지능(AI) 학습에 사용할 수 있도록 계약했다고 발표하자 주가가 62달러로 15% 급등했다. 데이터는 돈이 된다. AI도 똑똑해지려면 밥을 잘 먹어야 해서다. 고품질 다양한 데이터가 AI의 주식(主食)이다. 스타트업부터 빅테크까지 ‘우리 AI’ 밥 챙기지 못해 안달이다. ‘오일머니’ 대신 ‘데이터머니’가 새로운 헤게모니가 될 것이란 전망이 허황된 얘기가 아니다. 석유에 버금가는 자원을 만들어낼 데이터 산업을 들여다본다.
배고프다고 아무거나 먹을 순 없다. 중요한 건 ‘다양성’과 ‘품질’이다. “중복되지 않고 철자 오류와 문법 오류가 없으며 일관성 있는 정보가 ‘고품질 데이터’"이며 “고품질 데이터를 문서 단위로 대량 학습해야 생성 AI가 전체 문맥을 잘 이해할 수 있다"
데이터 가공 특화 기업이 주목 받으며 시장도 쑥쑥 성장했다. 컨설팅기업 IDC에 따르면 글로벌 데이터 시장 규모는 2020년 3885억 달러(약 524조2800억원) 규모에서 지난해 6018억 달러(812조1300억 달러)로 두 배 가까이 성장한 것으로 추정된다.
3, 데이터브릭스는 따로따로 저장되는 정형데이터 (숫자 등으로 표현되는 정보)와 비정형데이터
(이미지·비디오·글자 등의 데이터)를 구분 없이 저장하고 편리하게 활용할 수 있는 서비스를
내세워 아마존·구글·MS 등으로부터 투자받았다. 2021년 기준 누적 투자액은 36억 달러(약
4조6500억원)다.
4. 한국도 2010년대 중반부터 크라우드소싱 (기업 활동에 소비자가 참여하는 행위) 방식의
데이터 라벨링 기업이 나타나기 시작했다. LLM 시대가 열리면서 이들의 몸값은 수직으로
상승하고 있다.
https://n.news.naver.com/mnews/article/025/0003364664?sid=105
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 6월 6일 오전 6:40