[랭코드] LLM 활용의 숨은 위험: 데이터 보안 전략

고객 서비스 프로세스 자동화, 고객사 데이터 분석, 보고서 작성, 데이터 기반 의사 결정 등 다양한 업무에서 대규모 언어 모델(LLM, Large Language Model)의 도입의 효율성과 효과가 검증되고 있다. 하지만, 기업 업무 환경에 도입된 LLM이 처리할 데이터는 기업의 민감 정보와 개인 식별 정보를 포함할 가능성이 높으며, 이러한 정보가 외부로 유출될 경우 기업의 가치 및 신뢰도와 고객의 개인정보 침해 등 막대한 피해를 초래할 수도 있다. 랭코드에서 제시하는 기업 업무 환경에 LLM을 도입할 경우, 필수적으로 고려해야 할 보안 요소들과 그에 따른 보안 전략을 공유해본다. * 기본적인 LLM 보안 요소: LLM 활용 시 대표적으로 보호해야 할 주요 정보 * 기업의 민감 정보: 기밀 문서, 협력 업체 정보, 인사 정보, 기업의 미래 비즈니스 전략, 재무 데이터, 인사 정보, 연구 개발 자료 등 * PII(Personally Identifiable Information, 개인 식별 정보): 임직원 이름, 주소, 개인 전화 번호와 같이 특정 개인을 식별할 수 있는 정보 * 모델의 재학습 방지 * Azure Open AI: Azure Cloud Platform기반의 보안 정책으로 사용자의 입력, AI 모델의 출력, 임베딩 값, 학습 데이터 모두 철저히 보호가 되며, 재학습에 이용되지 않음 * Open AI - ChatGPT Enterprise plan: 사용자의 데이터를 재학습에 사용하지 않으며, 데이터 암호화 및 접근 제어 등 강화된 데이터 보호 기능을 제공 * AWS Bedrock: 사용자의 프롬프트와 응답 데이터를 재학습에 사용하지 않으며, 이러한 데이터를 제 3자와 공유하지 않. 사용자의 데이터는 모델 제공자가 접근할 수 없으며, 모든 사용자 데이터는 AWS Key Management Service를 통해 암호화 함 * 개인 정보 보호 관련 규제 준수 * GDPR(General Data Protection Regulation): EU내 거주하는 개인 정보를 처리하는 모든 조직에 적용되는 포괄적인 데이터 보호 법률로 LLM 관련 솔루션의 GDPR 준수는 개인 정보 보안에 있어 필수적으로 만족해야 할 규제 * CCPA(California Consumer Privacy Act): 2020년 1월 1일에 시행된 캘리포니아주의 개인정보 보호법으로 알 권리, 삭제 요청 권리, 판매 거부 권리, 비차별권을 통해 소비자의 권리를 보장하며, 기업에서 개인정보의 이용이 필요하게 될 때엔 반드시 고지해야 하는 의무 부여 * LLM의 재학습 방지 * Azure Open AI에서 관리하는 GPT 시리즈 모델을 CXP의 기본 LLM으로 제공 * Advanced RAG 구조를 구현하여 기업 내 정보를 학습시키는 방법이 아니라 실시간으로 피드백 정보를 참조만하는 방식으로 기업정보 유출 방지 * 역할 기반 접근 제어(RBAC) * 관리자(시스템 관리자, 공동 관리자), 봇 마스터, 봇 매니저 그리고 일반 사용자의 총 4가지의 권한으로 분류하여 각 권한에 맞는 기능을 제공 * 개인 식별 정보(PII) 감지 * 지식 베이스 구성: 문서 내 모든 텍스트를 검토하여 PII 감지하여 마스킹 처리 * 사용자 쿼리(질문) 처리: 사용자가 입력하고 제출한 모든 자연어 질문 및 기타 요청에 대한 PII 감지 기능 * AI 모델 답변 생성: 기본 연동 LLM 생성시 PII가 없도록 프롬프트 엔지니어링 / 최종 생성된 LLM의 답변을 한 번 더 PII 감지 실시 * 사용자 주도의 데이터 컨트롤 * 잊힐 권리(Right to be forgotten): 언제든 사용자가 자신의 정보를 삭제할 수 있도록 인터페이스를 지원 * 접근 및 이동성 권리: 사용자가 자신의 정보를 이용 및 추출 지원 * 출처: https://langcode.io/insight/881fc635-48a5-4b38-87b8-4cfaa5688880

[랭코드] LLM 활용의 숨은 위험: 데이터 보안 전략

알림