Why trust open source AI?
www.redhat.com
오픈소스가 대세인 시대이고, AI에 있어서도 다양한 오프소스 모델과 도구들이 활용되고 있습니다. 오픈소스 AI가 주목받고 신뢰할 수 있는 이유에 대한 기사 공유합니다. (출처: Red Hat Blog)
<오픈소스 AI를 신뢰하는 이유는 무엇입니까?>
오픈소스 라이선스
오픈소스 운동(movement)의 기본은 사용자에게 독립성과 제어권을 부여하는 라이선스에 따라 소프트웨어 코드를 게시하여 제한 없이 코드를 검사, 수정 및 재배포할 수 있는 권한을 부여하는 것이 포함됩니다. Apache 2.0 및 MIT와 같은 OSI 승인 라이센스는 전 세계적인 공동 개발, 선택의 자유 및 가속화된 발전을 가능하게 하는 핵심이었습니다.
IBM Granite 모델 및 그 변형과 같은 여러 모델은 허용되는 Apache 2.0 라이센스에 따라 출시됩니다. 퍼미시브(permissive) 라이선스로 출시되는 여러 AI 모델이 있지만 여러 가지 과제에 직면해 있습니다.
오픈 라이선스는 보안과 안전에 어떻게 도움이 되나요?
이는 오픈소스의 핵심 원칙과 관련이 있는데요, 퍼미시브 라이센스를 사용하면 더 많은 사용자가 모델을 사용하고 실험할 수 있습니다. 이 퍼미시브 라이센스는 더 많은 보안 및 안전 문제를 발견하고 보고하며 대부분의 경우 수정할 수 있음을 의미합니다.
오픈 데이터
"대형 언어 모델"(LLM)에서 "대형(Large)"이라는 용어는 모델을 구성하는 많은 매개변수 외에도 모델을 학습하는 데 필요한 대량의 데이터를 나타냅니다. 모델 효율성은 데이터를 학습하는 데 사용되는 입력 토큰의 수(좋은 모델의 경우 수조개에 달하는 경우가 많음)로 측정되는 경우가 많습니다.
대부분의 폐쇄형(closed) 모델의 경우 모델을 pre-train하고 미세조정(fine-tune)하는 데 사용된 데이터 소스는 비밀이며 다른 회사에서 만든 유사 제품과의 차별화 기반을 형성합니다. 우리는 AI 모델이 진정한 오픈 소스가 되려면 해당 모델을 pre-train하고 미세조정하는 데 사용되는 데이터를 공개하는 것이 중요하다고 믿습니다.
Granite 기반 모델을 학습하는 데 사용되는 데이터 모음은 학습 파이프라인으로 전송되기 전에 데이터에 적용되는 거버넌스 및 안전 워크플로와 함께 자세히 문서화됩니다.
오픈 데이터는 보안과 안전에 어떻게 도움이 되나요?
추론 중에 대규모 언어 모델에 의해 생성되는 데이터의 종류는 모델이 학습된 데이터에 따라 달라집니다. 오픈 데이터는 커뮤니티 구성원이 모델 학습에 사용된 데이터를 검사하고 파이프라인에 위험한 데이터가 사용되지 않았는지 확인할 수 있는 방법을 제공합니다. 또한 오픈 거버넌스 관행은 사전 훈련 단계 자체에서 편향을 식별하고 제거할 수 있다는 점에서 모델 편향을 줄이는 데 도움이 됩니다.
수정 및 공유의 자유
퍼미시브 라이선스로 출시된 모델에는 다음과 같은 문제가 발생합니다.
모델이 생성되고 배포될 때 학습 데이터가 공개되지 않아 모델 자체에 직접적으로 기여하는 것은 불가능합니다. 그렇기 때문에 이러한 커뮤니티 기여는 원래 모델의 포크로 표시됩니다. 이로 인해 소비자는 쉽게 확장할 수 없는 "최적의" 모델을 선택하게 되며 이러한 포크는 모델 작성자가 유지 관리하는 데 비용이 많이 듭니다.
대부분의 사람들은 AI 및 머신러닝(ML) 기술에 대한 지식이 부족하기 때문에 모델을 포크하고 학습하고 개선하는 데 어려움을 겪습니다.
포크된 모델의 검토, 선별 및 배포에 대한 커뮤니티 거버넌스 또는 모범 사례가 부족합니다.
Red Hat과 IBM은 LLM에 기여하는 프로세스를 단순화하는 모델 독립적 오픈 소스 AI 프로젝트인 InstructLab을 출시했습니다. 이 기술은 충분한 인프라 리소스를 갖춘 모델 업스트림에 오픈 소스 라이선스 모델의 정기적인 빌드를 생성할 수 있는 기능을 제공합니다.
InstructLab은 전체 모델을 재구축하고 재교육하는 데 사용되는 것이 아니라 새로운 기술과 지식을 추가하여 해당 모델을 개선하는 데 사용됩니다. 이러한 프로젝트는 이러한 개선 사항에 대한 풀 요청을 수락하고 이를 다음 빌드에 포함할 수 있습니다.
간단히 말해서 InstructLab을 사용하면 커뮤니티가 AI 모델을 포크하지 않고도 AI 모델에 기여할 수 있습니다. 이러한 기여는 "업스트림"으로 전송될 수 있으며, 이를 통해 개발자는 새로운 분류법으로 원래 모델을 다시 구축할 수 있으며 이를 다른 사용자 및 기여자와 추가로 공유할 수 있습니다.
수정하고 공유할 수 있는 자유가 보안과 안전에 어떻게 도움이 될까요?
커뮤니티 구성원은 신뢰할 수 있는 방식으로 기본 모델에 자신의 데이터를 추가할 수 있습니다. 또한 안전 가드레일을 추가하는 분류법을 사용하여 모델의 안전 매개변수를 미세 조정할 수도 있습니다. 커뮤니티는 또한 비용과 시간이 많이 소요되는 pre-train을 반복하지 않고도 모델의 보안 및 안전 태세를 향상시킬 수 있습니다.
IBM과 Red Hat은 거버넌스, 프로세스, 실행 측면에서 업계 규모로 오픈 소스 AI가 무엇을 의미하는지 정의하고자 하는 AI Alliance의 일원입니다.
개방적이고 투명하며 책임감 있는 AI는 AI 안전을 향상시켜 개발자와 연구자로 구성된 오픈 커뮤니티에 AI의 중대한 위험을 해결하고 가장 적절한 솔루션으로 이를 완화할 수 있는 능력을 제공합니다.
원본 기사 링크는 아래와 같습니다. 감사합니다.🙏
[Source Link] https://www.redhat.com/en/blog/why-trust-open-source-ai
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 6월 29일 오후 2:12
당근마켓 별도 기준으로 2024년 매출은 1891억 원을 기록하며 전년 대비 48% 증가했다. 영업이익은 376억 원으로 전년 대비 3.8배 증가하며 2년 연속 흑자를 기록, 가파른 성장세를 보였다.
... 더 보기오
... 더 보기퇴
... 더 보기VIG파트너스는 카카오모빌리티 소수 지분 투자를 위한 투자자 모집을 진행 중이다. VIG 측은 TPG(29.04%), 칼라일(6.18%), 한국투자증권·오릭스PE(5.35%) 등 카카오모빌리티 기존 투자자들이 보유 중인 지분 약 40% 이상을 인수하는 거래를 추진하고 있다.
... 더 보기