딥시크(DeepSeek)

최근 AI업계의 가장 핫한 딥시크에 대해서 정리해 본 내용입니다. 💻 딥시크(DeepSeek) * 중국의 헤지펀드 매니저 량원평이 하이플라이어 캐피탈을 통해 만든 AI 언어모델 * OpenAI의 모델과 비슷한 성능을 가진 오픈소스 대규모 언어 모델 * 최근 공개 모델: DeepSeek -R1 * 671B 파라미터, 37B 활성 파라미터 * MIT 라이선스 하에 상업적 이용 가능 * 세계 최대 AI 기업인 오픈AI와 클라우드 기업인 아마존 등 주요 기업들이 대형 언어모델 지출 비용의 20분의 1 (or 10분의 1)수준으로 구축했으나, 오픈AI의 o1과 유사한 정확도 및 성능 * 모델 훈련비용: 560만 달러 추정(vs OpenAI의 GPT-4는 1억 달러, vs Anthropic 1억 ~ 10억 달러) * 2025년 1웍25일 주말 사이 애플 북미 무료 앱 다운로드 순위 1위 등극 * 2025년 1월28일 이미지 생성 멀티모달 모델 ‘야누스 프로(Janus-Pro)’를 공개 - 오픈AI의 이미지 생성 모델 ‘달리 3’, 스태빌리티AI의 ‘스테이블 디퓨전 XL(SDXL)’을 능가하는 성능 기록 💻 주요 기술적 특징 1. 효율적인 모델 아키텍처 * Mixture of Experts(MoE) 아키텍처를 채택하여 모델의 효율성을 극대화 * 참고로 MoE는 프랑스의 미스트랄AI가 사용중인 아키텍처 2. 혁신적인 기술 적용 * Multi-Head Latent Attention(MLA): 효율적인 훈련과 추론을 가능하게 하는 아키텍처 * 하이브리드 접근: 강화 학습과 일련의 사고 추론을 결합한 방식 3. 자원 최적화 * 구형 칩 사용: 최신 Nvidia H100 대신 성능이 떨어지는 H800 모델 사용으로 비용 절감 * 에너지 효율성: 클라우드 의존도를 줄이고 전력 소비를 최적화 * 메타 '라마'의 10분의 1에 불과한 557만달러 학습 진행 4. 검색 및 추론 관련 * 이미지, 문서 업로드 지원 * 프럼프팅에 대한 추론 과정을 자세히 다 보여줌(vs. Chatgpt는 부분만 보여줌) * 추론과 웹서칭을 동시에 사용하여 결과 보여줌(유사. Perplexity) * 오픈소스로 공개되어 있기 때문에 자체 AI 검색 서비스 구현 용이 💻 MoE(Mixture-of-Experts) 아키텍처 특징 1. 효율적인 파라미터 활용: DeepSeek-V3는 총 6710억 개의 파라미터. 각 토큰 처리시 단 370억 개의 파라미터만 활성화 >> 이는 계산 비용을 크게 줄이면서도 높은 성능 유지 2. Multi-head Latent Attention (MLA): 이 구조는 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄입니다. 이를 통해 메모리 사용량을 크게 절감하면서도 기존 Multi-Head Attention(MHA)과 유사한 성능을 유지합니다. 3. 혁신적인 부하 균형 전략: DeepSeek-V3는 부가 손실(auxiliary loss) 없이 작업 부하를 균등하게 나누는 새로운 전략을 도입으로 모델의 안정성과 성능을 동시에 향상 4. 멀티 토큰 예측(Multi-Token Prediction, MTP): 한 번에 여러 토큰을 예측하도록 설계되어 데이터 처리 능력 강화 5. DeepSeekMoE: 이 구조는 여러 "전문가(Experts)" 모듈로 구성되어 있으며, 각 데이터 토큰을 처리할 때 가장 적합한 전문가들만을 선택하여 작업 분담 💻 성능 및 시장 영향 1. 벤치마크 성능 * 지식 질문 및 답변, 긴 텍스트 처리, 코드 생성, 수학적 기능 등에서 업계 최고 수준 * MMLU, GPQA 등의 지식 작업에서 Claude-3.5-Sonnet에 근접한 성능 * AIME 2024, CNMO 2024 등의 수학 테스트에서 새로운 기록 수립 2. 시장 경쟁력 * OpenAI의 o1 모델 대비 90% 비용 절감하면서도 우수한 성능 달성 * 생성 속도 200% 향상으로 사용자 경험 개선 * 'DeepSeek 학습 비용이 메타 수석 엔지니어 연봉보다 적다' 3. 글로벌 AI 시장 영향 * Nvidia: 엔비디아 주가 17% 하락으로 846조 증발 - 미국 주식 역사상 가장 큰 하락 기록.(이후 재상승중이기는 하나 엔비디아의 비싸고 공급이 늦어지는 GPU 가치에 대한 재검토 계기) * OpenAI & Microsoft : ChatGPT와 직접적인 경쟁 관계 형성. OpenAI의 AI 모델을 DeepSeek모델에서 학습했는지 조사 중 / 가장 최신 추론모델인 O3-Mini 풀버전 공개 전 사전 무료 공개(1.31) * Google: 별 다른 반응을 내놓지 않고 있는 구글은 코딩과 수학 작업에서 높은 정확성과 강력한 성능을 제공하는 Gemini 2.0 Pro Experimental) 공개(1.30) * Meta: 딥시크 분석을 위한 4개의 태스크포스 팀을 통해 분석. 향후 딥시크의 핵심 기술을 '라마'에 적용 예정 * Apple: 中딥시크 극찬한 팀쿡. 온디바이스AI 전략을 가진 애플은 딥시크의 AI 모델 오픈소스를 활용해 중국에서 AI기능을 탑재한 아이폰 출시 가능성 * Perplexity: 이미 https://www.perplexity.ai에 DeepSeek R1 추론 모델 적용 및 서비스 중 🤔 이슈 및 한계 * 이슈: * https://chat.deepseek.com/를 사용하는 경우, ‘개인정보 보호 정책’을 통해 AI 모델 학습을 위한 이용자의 이름·생년월일·이메일·주소·전화번호 등을 수집 * 그리고, 이용자들이 입력한 키보드 패턴과 오디오, 파일, 채팅 기록 등 콘텐트를 수집하고 회사 재량에 따라 해당 정보를 법 집행기관이나 공공 기관과 공유할 수 있다고 명시 * 모든 데이터는 중국에 있는 딥시크 서버에 저장하는 이슈 * 한계: * 중국정부 검열(?): 시진핑이 나오는 결과내용들은 자동으로 순삭(?)되는 결과를 보여주는 한계 🛠️ 참고 * https://www.deepseek.com/ * https://github.com/deepseek-ai/DeepSeek-R1 * https://openrouter.ai/deepseek/deepseek-r1 * https://apps.apple.com/kr/app/deepseek-ai-%EC%96%B4%EC%8B%9C%EC%8A%A4%ED%84%B4%ED%8A%B8/id6737597349 * DeepSeek: all the news about the startup that’s shaking up AI stocks - https://www.theverge.com/24353060/deepseek-ai-china-nvidia-openai

딥시크(DeepSeek)

알림