Is Open Source the Best Path Towards AI Democratization?
Medium
오픈 소스 소프트웨어는 폐쇄형(Closed) 소프트웨어에 비해 소프트웨어 개발과 발전에 많은 기여를 하였습니다. 그렇다면 AI의 경우에도 오픈 소스가 보편화에 기여하는 최선의 방법일까요? 관련해서 좋은 기사 공유합니다.😃 (출처: Toward Data Science)
<오픈 소스가 AI 보편화(Democratization)를 향한 최선의 길인가요?>
OpenAI는 처음에는 오랫동안 오픈 소스 커뮤니티로써 기여하였으나, 기본 ChatGPT 모델은 API만 어느 정도 공개된 폐쇄형(Closed) 시스템입니다.
Meta LLaMA와 Google BERT는 둘 다 "오픈 소스 AI"로 마케팅되었지만, "오픈 소스 AI"로 태그를 지정하면 법적 면제를 받을 수 있는 경우가 있으므로 기업이 이를 남용할 위험이 있습니다. 오픈 소스 운동(movement)이 AI를 보편화(democratize)하고 이 기술을 더욱 투명하게 만드는 가장 좋은 방법입니까?
오픈 소스 소프트웨어 vs 오픈 소스 AI
오픈 소스 소프트웨어는 코드가 다른 사람의 공동 작업 및 수정을 위해 공개적으로 제공되는 분산형 개발 프로세스를 의미합니다. OSI는 무료 재배포 및 비차별부터 무제한 라이센스에 이르기까지 오픈 소스 정의에 대한 명확한 규칙 세트를 개발했습니다. 그러나 이러한 원칙을 AI 분야에 쉽게 적용할 수 없는 데에는 몇 가지 타당한 이유가 있습니다.
대부분의 AI 시스템은 방대한 학습 데이터 세트를 기반으로 구축되었으며, 이 데이터에는 저작권 및 개인 정보 보호부터 영업 비밀 및 다양한 기밀 유지 조치에 이르기까지 다양한 법적 체제가 적용됩니다. 따라서 학습 데이터를 공개하는 것은 법적 결과를 초래할 위험이 있습니다. 현재 라이선스 체계는 다양한 소스에서 얻은 대량의 데이터를 활용하는 소프트웨어와 함께 작동하도록 설계되지 않았습니다. 그러나 데이터를 닫아두면 학습 데이터를 엿볼 수 없이 알고리즘 아키텍처로 할 수 있는 사람이 거의 없기 때문에 AI 시스템은 오픈 소스가 아닌 오픈 액세스가 됩니다.
AI 시스템 개발 및 배포에 참여하는 기여자의 수는 회사가 하나만 있을 수 있는 소프트웨어 개발의 수보다 훨씬 많습니다. AI의 경우, 다양한 기여자가 AI 시스템의 다양한 부분과 출력에 대해 책임을 질 수 있습니다. 그러나 서로 다른 오픈 소스 기여자 간에 책임을 분배하는 방법을 결정하는 것은 어렵습니다. 오픈 소스 모델을 기반으로 한 AI 시스템이 정서적으로 괴로워하는 사람들이 자해를 하도록 유도하는 출력을 환각한다면 책임이 있는 사람은 누구입니까?
오픈의 위험성
OSI는 AI 모델을 일부 수정하려면 기본 아키텍처, 학습 코드, 문서, 가중치, 데이터 전처리 논리 및 데이터 자체에 대한 액세스가 필요하다는 주장에 기반을 두고 있습니다. 따라서 진정한 오픈 시스템은 시스템을 사용하고 수정할 수 있는 완전한 자유를 허용해야 하며, 이는 누구나 기술 개발에 참여할 수 있음을 의미합니다.
최근 OpenAI는 오용 및 가속화를 포함한 모든 위험을 주의 깊게 평가하지 않는 한 강력한 생성 AI 시스템을 오픈 소스로 출시하는 것이 불편하다는 점을 인정했습니다.
오픈 소스는 경쟁의 장을 균등화하여 소규모 주체가 AI 혁신의 혜택을 누리고 이를 더욱 발전시킬 수 있도록 허용하지만 AI 결과를 덜 공정하고 정확하게 만드는 고유한 위험도 안고 있습니다.
오픈소스 모델의 사용과 남용
널리 정의된 오픈 소스 모델이 대부분 데이터인 AI에 어떻게 심각한 위험을 초래하지 않고 적용될 수 있을지는 아직 불분명합니다. AI 시스템을 오픈하려면 개발자가 자신의 작업이 비윤리적이거나 무책임하게 사용되는 것을 방지할 수 있는 RAIL(Responsible AI License)과 같은 새로운 법적 프레임워크가 필요합니다.
새로 발표된 EU AI 법(최초의 포괄적인 AI 개발 규정)을 보면 AI법은 오픈 소스 GPAI(General-Purpose AI) 모델에 대한 명시적인 예외를 제공하여 투명성과 문서화 요구 사항을 완화합니다. 이는 ChatGPT와 같은 최신 소비자 중심 생성형 AI 제품을 구동하는 모델입니다. 모델이 "시스템적 위험"을 감수하거나 이익 지향적인 경우에만 면제가 적용되지 않습니다.
시스템이 아닌 데이터의 보편화(Democratizing)
법적인 목적의 사용을 위해서는 명확한 정의가 필요한 만큼, 널리 정의된 오픈 소스 접근 방식이 예상되는 기술 발전을 가져오고 공평한 경쟁의 장을 가져올 수 있는지 여부는 여전히 의심스럽습니다. AI 시스템은 대부분 데이터를 기반으로 구축되며 이를 대규모로 확보하기 어렵다는 점은 컴퓨팅 파워와 함께 빅테크의 가장 강력한 경쟁 우위를 갖는 이유입니다.
AI를 오픈 소스로 만든다고 해서 소규모 플레이어가 직면하는 모든 구조적 장벽이 제거되는 것은 아닙니다. 시스템을 수정하고 추가로 학습하려면 지속적인 데이터 유입, 적절한 컴퓨팅 성능, 고도로 숙련된 개발자 및 데이터 과학자가 여전히 필요합니다.
모든 사람이 액세스할 수 있는 오픈 인터넷과 오픈 웹 데이터를 보존하는 것은 오픈 소스 의제를 추진하는 것보다 AI 민주화를 추구하는 데 더 중요한 임무일 수 있습니다. 상충되거나 시대에 뒤떨어진 법적 체제로 인해 오늘날 인터넷 데이터는 단편화되어 혁신을 방해하고 있습니다. 따라서 정부와 규제 기관은 저작권 보호와 같은 분야의 균형을 재조정하여 공공 데이터를 더 쉽게 획득할 수 있는 방법을 찾는 것이 중요합니다.
원본 기사 링크는 아래와 같습니다. 감사합니다.🙏
[Source Link] https://towardsdatascience.com/is-open-source-the-best-path-towards-ai-democratization-b62a1153dcd4
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 6월 29일 오후 11:52
d
... 더 보기당
... 더 보기두 가지 목표가 있다. 어떤 목표가 학습 동기를 높인다고 생각하는가?
... 더 보기