오픈소스 AI를 신뢰하는 이유

오픈소스가 대세인 시대이고, AI에 있어서도 다양한 오프소스 모델과 도구들이 활용되고 있습니다. 오픈소스 AI가 주목받고 신뢰할 수 있는 이유에 대한 기사 공유합니다. (출처: Red Hat Blog)


<오픈소스 AI를 신뢰하는 이유는 무엇입니까?>


오픈소스 라이선스

  • 오픈소스 운동(movement)의 기본은 사용자에게 독립성과 제어권을 부여하는 라이선스에 따라 소프트웨어 코드를 게시하여 제한 없이 코드를 검사, 수정 및 재배포할 수 있는 권한을 부여하는 것이 포함됩니다. Apache 2.0 및 MIT와 같은 OSI 승인 라이센스는 전 세계적인 공동 개발, 선택의 자유 및 가속화된 발전을 가능하게 하는 핵심이었습니다.

  • IBM Granite 모델 및 그 변형과 같은 여러 모델은 허용되는 Apache 2.0 라이센스에 따라 출시됩니다. 퍼미시브(permissive) 라이선스로 출시되는 여러 AI 모델이 있지만 여러 가지 과제에 직면해 있습니다.


  • 오픈 라이선스는 보안과 안전에 어떻게 도움이 되나요?

    • 이는 오픈소스의 핵심 원칙과 관련이 있는데요, 퍼미시브 라이센스를 사용하면 더 많은 사용자가 모델을 사용하고 실험할 수 있습니다. 이 퍼미시브 라이센스는 더 많은 보안 및 안전 문제를 발견하고 보고하며 대부분의 경우 수정할 수 있음을 의미합니다.


오픈 데이터

  • "대형 언어 모델"(LLM)에서 "대형(Large)"이라는 용어는 모델을 구성하는 많은 매개변수 외에도 모델을 학습하는 데 필요한 대량의 데이터를 나타냅니다. 모델 효율성은 데이터를 학습하는 데 사용되는 입력 토큰의 수(좋은 모델의 경우 수조개에 달하는 경우가 많음)로 측정되는 경우가 많습니다.

  • 대부분의 폐쇄형(closed) 모델의 경우 모델을 pre-train하고 미세조정(fine-tune)하는 데 사용된 데이터 소스는 비밀이며 다른 회사에서 만든 유사 제품과의 차별화 기반을 형성합니다. 우리는 AI 모델이 진정한 오픈 소스가 되려면 해당 모델을 pre-train하고 미세조정하는 데 사용되는 데이터를 공개하는 것이 중요하다고 믿습니다.

  • Granite 기반 모델을 학습하는 데 사용되는 데이터 모음은 학습 파이프라인으로 전송되기 전에 데이터에 적용되는 거버넌스 및 안전 워크플로와 함께 자세히 문서화됩니다.


  • 오픈 데이터는 보안과 안전에 어떻게 도움이 되나요?

    • 추론 중에 대규모 언어 모델에 의해 생성되는 데이터의 종류는 모델이 학습된 데이터에 따라 달라집니다. 오픈 데이터는 커뮤니티 구성원이 모델 학습에 사용된 데이터를 검사하고 파이프라인에 위험한 데이터가 사용되지 않았는지 확인할 수 있는 방법을 제공합니다. 또한 오픈 거버넌스 관행은 사전 훈련 단계 자체에서 편향을 식별하고 제거할 수 있다는 점에서 모델 편향을 줄이는 데 도움이 됩니다.


수정 및 공유의 자유

  • 퍼미시브 라이선스로 출시된 모델에는 다음과 같은 문제가 발생합니다.

    • 모델이 생성되고 배포될 때 학습 데이터가 공개되지 않아 모델 자체에 직접적으로 기여하는 것은 불가능합니다. 그렇기 때문에 이러한 커뮤니티 기여는 원래 모델의 포크로 표시됩니다. 이로 인해 소비자는 쉽게 확장할 수 없는 "최적의" 모델을 선택하게 되며 이러한 포크는 모델 작성자가 유지 관리하는 데 비용이 많이 듭니다.

    • 대부분의 사람들은 AI 및 머신러닝(ML) 기술에 대한 지식이 부족하기 때문에 모델을 포크하고 학습하고 개선하는 데 어려움을 겪습니다.

    • 포크된 모델의 검토, 선별 및 배포에 대한 커뮤니티 거버넌스 또는 모범 사례가 부족합니다.


  • Red Hat과 IBM은 LLM에 기여하는 프로세스를 단순화하는 모델 독립적 오픈 소스 AI 프로젝트인 InstructLab을 출시했습니다. 이 기술은 충분한 인프라 리소스를 갖춘 모델 업스트림에 오픈 소스 라이선스 모델의 정기적인 빌드를 생성할 수 있는 기능을 제공합니다.


  • InstructLab은 전체 모델을 재구축하고 재교육하는 데 사용되는 것이 아니라 새로운 기술과 지식을 추가하여 해당 모델을 개선하는 데 사용됩니다. 이러한 프로젝트는 이러한 개선 사항에 대한 풀 요청을 수락하고 이를 다음 빌드에 포함할 수 있습니다.


  • 간단히 말해서 InstructLab을 사용하면 커뮤니티가 AI 모델을 포크하지 않고도 AI 모델에 기여할 수 있습니다. 이러한 기여는 "업스트림"으로 전송될 수 있으며, 이를 통해 개발자는 새로운 분류법으로 원래 모델을 다시 구축할 수 있으며 이를 다른 사용자 및 기여자와 추가로 공유할 수 있습니다.


  • 수정하고 공유할 수 있는 자유가 보안과 안전에 어떻게 도움이 될까요?

    • 커뮤니티 구성원은 신뢰할 수 있는 방식으로 기본 모델에 자신의 데이터를 추가할 수 있습니다. 또한 안전 가드레일을 추가하는 분류법을 사용하여 모델의 안전 매개변수를 미세 조정할 수도 있습니다. 커뮤니티는 또한 비용과 시간이 많이 소요되는 pre-train을 반복하지 않고도 모델의 보안 및 안전 태세를 향상시킬 수 있습니다.


  • IBM과 Red Hat은 거버넌스, 프로세스, 실행 측면에서 업계 규모로 오픈 소스 AI가 무엇을 의미하는지 정의하고자 하는 AI Alliance의 일원입니다.


  • 개방적이고 투명하며 책임감 있는 AI는 AI 안전을 향상시켜 개발자와 연구자로 구성된 오픈 커뮤니티에 AI의 중대한 위험을 해결하고 가장 적절한 솔루션으로 이를 완화할 수 있는 능력을 제공합니다.


원본 기사 링크는 아래와 같습니다. 감사합니다.🙏

[Source Link] https://www.redhat.com/en/blog/why-trust-open-source-ai

Why trust open source AI?

www.redhat.com

Why trust open source AI?

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 6월 29일 오후 2:12

댓글 0

    함께 읽은 게시물

    당근마켓 별도 기준으로 2024년 매출은 1891억 원을 기록하며 전년 대비 48% 증가했다. 영업이익은 376억 원으로 전년 대비 3.8배 증가하며 2년 연속 흑자를 기록, 가파른 성장세를 보였다.

    ... 더 보기

    당근, 지난해 매출 1891억 원…광고매출 48% 증가 - 매일경제

    매일경제

    당근, 지난해 매출 1891억 원…광고매출 48% 증가 - 매일경제

    유저 리서치와 AI, 실무자 인사이트 엿보기 : 레드버스백맨

    ... 더 보기

    🎙️ 유저 리서치와 AI, 실무자 인사이트 엿보기 : 레드버스백맨

    팁스터

    🎙️ 유저 리서치와 AI, 실무자 인사이트 엿보기 : 레드버스백맨

     • 

    댓글 2 • 저장 4 • 조회 516


    퇴사 후 재취업, 이렇게 취업 했어요 #퇴사 #퇴직 #재취업

    ... 더 보기

    - YouTube

    alie.kr

     - YouTube

    감정의 늪에서 벗어나야 재취업 문이 열린다! #재취업

    h

    ... 더 보기

    - YouTube

    www.youtube.com

     - YouTube

    브랜드 이미지

    ... 더 보기

    VIG파트너스는 카카오모빌리티 소수 지분 투자를 위한 투자자 모집을 진행 중이다. VIG 측은 TPG(29.04%), 칼라일(6.18%), 한국투자증권·오릭스PE(5.35%) 등 카카오모빌리티 기존 투자자들이 보유 중인 지분 약 40% 이상을 인수하는 거래를 추진하고 있다.

    ... 더 보기

    카카오모빌리티 FI 지분 인수 나서는 VIG…국내외 금융사·LP '온도차'

    www.investchosun.com

    카카오모빌리티 FI 지분 인수 나서는 VIG…국내외 금융사·LP '온도차'

    조회 499