a16z, 데이터 전문가 5인의 말말말
https://a16z.com/2023/05/16/5-founders-on-the-future-of-data/ ‘바야흐로 AI 시대, 데이터의 중요성을 반드시 언급해야 한다’며 a16z가 5명의 관련 기업 창업가들에게 데이터의 미래를 물었습니다. 더 나은 AI 모델을 교육하기 위해 새로운 데이터 소스를 추가하든, AI 워크로드를 지원하기 위해 데이터 인프라를 구축하든, 더 강력한 하드웨어를 활용하든 데이터와 인프라의 역할이 매우 큰데요. 그 중요성이 AI 서비스를 향한 열광에 미치지 못한다면서요. 배리 맥카델(Barry McCardel) 헥스(Hex) 공동창업자 겸 CEO “데이터 분야에서만 내내 커리어를 쌓았는데요. 데이터 실무자라는 키워드를 떠올렸을 때 ‘창조적, 창의적’이라는 표현이 떠오릅니다. 의외죠. 보통 예술가 등에게 붙는 수식어인데요. 하지만 데이터 과학자들이 각자의 시대에 무엇을 하는지 생각해 보세요. 그들은 질문을 하고 가설을 세우고 새로운 것을 테스트하고 내러티브를 구축하고 위험을 감수합니다. 이는 예술이자 과학이며 인간의 시간을 잘 활용하는 일이라고 생각합니다. 물론 데이터 관련 작업은 정말 지루할 수 있어요. 보일러플레이트를 작성하고 종속성을 고정하고 수정하며 쿼리에서 누락된 괄호를 추적하는 데 많은 시간을 보내니까요. 그런데 최근에 (AI로) 이런 작업을 더 잘 자동화할 기회를 발견하고 있기 때문에 컴퓨터와 인간이 창의적인 작업에서 어떻게 협업할 수 있을지 기대가 됩니다.” 코디 콜먼(Cody Coleman) 코액티브(Coactive) 공동창업자 겸 CEO “AI가 우리 콘텐츠에서 더 많은 가치를 창출하는 힘이 될 텐데, 그렇게 하기는 매우 어렵습니다. 공짜 점심은 없으니까요. 특히 확장성 측면에서 앞으로도 어려움을 겪을 것으로 예상합니다. 구조화되지 않는 텍스트, 시각 데이터의 경우 지금의 빅데이터 규모보다 훨씬 더 커질 것입니다. AI 콘텐츠를 통해, 상황에 맞고 가치 있는 정보와 결과물을 생산하기 위해서는 이를 처리할 도구와 인프라를 만들어야 합니다. AI 콘텐츠 사용 규모와 비교해서 지금의 데이터 양과 규모를 반드시 고려해야 할 것입니다” 조던 타이가니(Jordan Tigani) 마더덕(MotherDuck) 공동창업자 겸 CEO “구글이 맵리듀스 논문을 발표한 뒤 스케일업은 모두 싫어하는 단어가 된 것 같습니다. 모두 대규모 분산 시스템을 구축하려 하는데요. 하지만 실제로는 데이터를 깨끗이 정리해야만 스케일업이 잘 작동할 수 있습니다. 데이터 위생만 잘 신경써도 상당한 성과를 거둘 거예요. 또 더 작은 데이터의 경우 사용자에게 푸시를 해도 된다는 말입니다. 예전에는 노트북이 ‘저전력’의 대명사였지만 지금은 아니기 때문입니다” 저스틴 보그만(Justin Borgman) 스타버스트(Starburst) 공동창업자 겸 CEO “매년 새로운 데이터 소스와 새로운 애플리케이션이 캄브리아기의 폭발 마냥 우후죽순 등장합니다. 그리고 이는 데이터 사일로를 초래합니다. 이제 다양한 데이터베이스 시스템 중 많은 시스템이 실질적으로 독점이기 때문에 공급업체에 종속되는 현상이 발생합니다. 즉 특정 시스템을 통해서만 어떤 데이터에 액세스할 수 있다는 말입니다. 하지만 락인은 너무 비용이 많이 듭니다. 그래서 테라데이터의 데이터베이스가 아무리 좋아도(심지어 스노우플레이크보다) 시장의 흐름은 그들에게 등을 지고 있습니다. 너무 비싸고 고객이 락인된다고 느끼기 때문입니다. 따라서 데이터를 중앙집중화 해야 한다는 생각은 사실이 아니며 불가능합니다. 대신 데이터를 분산하는 데 최적화해야 합니다” 마일 오트(Myle Ott) 캐릭터.ai(character.ai) 공동창업자 겸 CTO “오늘날 훈련되고 있는 대부분의 AI 시스템은 이러한 공개 데이터 세트, 대부분 웹에서 크롤링된 데이터에서 훈련됩니다. 그리고 저는 실제로 여전히 상당한 양의 공개 데이터를 사용할 수 있다고 생각합니다. 예를 들어 텍스트의 한계에 도달하더라도 사람들이 탐색하기 시작한 오디오, 비디오, 이미지와 같은 다른 양식이 있습니다. 웹에는 여전히 풍부한 데이터 소스가 많이 있다고 생각합니다. 이중 ‘정적 데이터 세트(static datasets)’가 있는데요. 이제 우리는 AI로 구축되는 데이터 세트를 만들기 시작하고 있습니다. 피드백을 대화형으로 주고받으면서 말이죠. 이는 AI 시스템을 더 잘 만들 수 있도록, 완벽한 데이터를 생성하는 방법이라고 생각합니다”