[Infoworld] 오픈 워싱과 AI 개방성에 대한 환상(?)

현재 많은 AI 업체들이 오픈해서 제공한다고 하는 많은 모델들이나 내용들이 결국은 그들의 영향력을 확대하기 위한 마케팅 전략일수도 있다는 냉철한 비판적인 측면의 오픈 워싱(Open-washing) 글입니다. 참고하시기 바랍니다~


< 배경 >

  • AI 골드러시에서 특이한 경향이 나타나고 있다: OpenAI부터 Google, Microsoft에 이르기까지 이 분야의 주요 업체들이 자사의 AI 모델을 “개방형”이라고 대대적으로 마케팅하곤 한다. 이러한 기업들은 오픈 소스 소프트웨어와 관련된 투명성, 협업, 공유 발전이라는 개념에 맞춰 '개방형 AI'와 같은 용어를 사용하고 있다. 그러나 자세히 살펴보면 이러한 “개방성”의 수용은 대부분 성과에 따른 것으로, 현재는 “오픈 워싱”이라는 개념으로 불린다.

  • 실제

    • 기업들은 자신들의 생성형 AI와 대규모 언어 모델(LLM)이 모든 사람에게 개방되어 있다고 주장하지만, 실제로는 이러한 시스템이 특정 기업이 통제하는 프레임워크에 갇혀 있는 것이 현실

    • 이러한 전략은 진정한 개방성을 촉진하기보다는 소수의 권력 집중을 공고히 하는 경우가 많다. 즉, 겉으로는 민주적이고 협력적인 것처럼 보이지만 실제로는 통제권을 영구화하기 위한 정교한 마케팅 전략에 불과합니다.

    • 이러한 개방형 모델 중 상당수가 클라우드 제공업체에 존재하고 클라우드 제공업체가 구축 및 판매한다는 점을 고려하면 이는 전적으로 클라우드 컴퓨팅과 관련이 있다.


< AI에서 오픈워싱 >

  • AI에서 오픈 워싱이란 무엇인가?

    • AI 회사들은 종종 자사 모델의 오픈 소스 접근성을 선전합니다. 하지만 자세히 들여다보면 데이터 세트, 인프라, 학습 방법, 심지어 LLM의 실제 사용까지 이러한 시스템의 중요한 측면이 엄격하게 보호되고 있다는 것을 알 수 있다. 이러한 요소는 사소한 구성 요소가 아니라 제너레이티브 AI 시스템의 기능, 혁신 잠재력, 확장성을 이끄는 핵심 요소이다.

    • 기업들은 파이프라인의 특정 부분을 개방형으로 제시함으로써 지적 재산의 우위를 유지하는 동시에 생태계의 대부분을 통제하고 도구를 커스터마이징하거나 확장하려는 사용자로부터 가치를 창출한다.

    • 이는 특히 경험이 부족한 개발자나 스타트업에게는 AI를 대중화하는 것처럼 보일 수 있다. 그러나 이러한 모델은 완전한 학습 데이터 세트나 모델을 처음부터 복제하는 데 필요한 계산 능력과 같은 중요한 기능에 대한 액세스를 배제하는 경우가 많다.


< 잘못된 인식 >

  • 오픈 워싱의 핵심에는 개방성, 투명성, 재사용성이라는 원칙이 왜곡되어 있다.

    • AI의 투명성은 모델이 어떻게 개발, 학습, 미세 조정 및 배포되는지 공개적으로 문서화하는 것을 수반한다. 여기에는 모델 구축과 관련된 데이터 세트, 가중치, 아키텍처 및 의사 결정 프로세스에 대한 전체 액세스가 포함된다.

    • 그러나, 대부분의 AI 기업은 이러한 수준의 투명성에 미치지 못한다. 이들은 모델의 일부를 선택적으로 공개함으로써(종종 핵심적인 세부 정보가 제거된 채로) 개방성이라는 환상을 심어준다.

  • 개방성의 또 다른 축인 재사용 가능성도 마찬가지이다.

    • 기업들은 API나 다운로드 가능한 가벼운 버전을 통해 모델에 대한 액세스를 허용하지만, 사용법을 독점적인 에코시스템에 묶어 의미 있는 적응을 막는다.

    • 이 부분 릴리스는 경쟁사의 리스크를 최소화하면서 빅 클라우드의 가치 추출을 극대화하는 계산된 수준의 재사용성을 제공한다

  • 예를 들어, OpenAI의 GPT 모델은 액세스할 수 있지만 통합은 항상 특정 웹 클라이언트, 유지 관리 라이브러리 및 회사 소유의 애플리케이션에 묶여 있다.

    • 기업 개발자는 이러한 모델을 자유롭게 조정, 수정 또는 재배포할 수 없으며, 이는 라이선스 계약에 위배된다.


< 집중된 AI 역량 >

  • 생성형 AI의 개발은 방대한 데이터 세트, 컴퓨팅 파워, 전문 프레임워크 등 막대한 리소스에 필요하다. 즉, 최첨단 LLM을 훈련하려면 계산 에너지와 하드웨어 리소스가 필요하다. 대부분의 기업이 계획대로 LLM을 구축하지 않는 데에는 이유가 있다: 바로 감당할 여력이 없기 때문이다. 따라서, LLM은 원격 리소스가 될 것이며, 아마도 앞으로도 그렇게 될 것입니다.

  • Meta의 Llama 3 허용적 라이선스 모델

    • 라마3도 배포 또는 적용 방법을 제한하는 제한적인 조건이 있다. 이러한 선택적 투명성으로 인해 소규모 조직은 이러한 기업의 생태계에 계속 의존하게 되어 힘의 불균형이 고착화된다.

  • 게다가 데이터 세트를 큐레이팅하고, 라벨을 붙이고, 조정하는 노동 집약적인 프로세스는 종종 가려져 있다. 민주화라는 수사에도 불구하고, 이러한 기업들은 전 세계의 노동력을 착취하고 중요한 데이터 세트를 사일로에 보관하고 있다.이로 인해 복제가 거의 불가능하다.


< 이것이 기업에게 의미하는 바는 무엇일까? >

  • 기업 리더는 누군가가 자사의 AI 모델이 “개방형”이라고 말할 때 어려운 질문을 던져야 한다. 제한 사항이 있을 가능성이 높다.

    • 정확히 무엇을 수정할 수 있나요?

    • 전체 문서는 어디에 있나요?

    • 원하는 곳 어디에서나 사용할 수 있나요?

    • 제한 사항이 있을 가능성이 높습니다.

  • 궁지에 몰리면 제공업체는 자선 단체가 아니라 기업이라는 사실을 상기시켜 줄 것이다. 여러분은 가치에 대한 대가를 지불해야 한다.

  • 많은 기업에서 클라우드 AI 계획을 추진하고 있다. 당연히 우려도 있다. 대형 클라우드 서비스 업체라면 LLM이나 기타 AI 기술을 훨씬 간단한 방식으로 판매하는 업체를 선호하는 흐름에 주목할 필요가 있다.

  • 오픈 워싱 과대 광고에 휘말리지 말자. AI 도구가 제약 조건 내에서 비즈니스에 어떤 도움을 줄지에 집중하라. 지나치게 개방적인 것은 사실 그 반대일 가능성이 높다는 점을 기억하자.


  • 참고: https://www.theregister.com/2024/10/25/opinion_open_washing/

  • 출처: https://www.infoworld.com/article/3615678/open-washing-and-the-illusion-of-ai-openness.html

Open-washing and the illusion of AI openness

InfoWorld

Open-washing and the illusion of AI openness

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 12월 11일 오후 2:35

댓글 0