딥시크(DeepSeek)

최근 AI업계의 가장 핫한 딥시크에 대해서 정리해 본 내용입니다.


💻 딥시크(DeepSeek)

  • 중국의 헤지펀드 매니저 량원평이 하이플라이어 캐피탈을 통해 만든 AI 언어모델

  •  OpenAI의 모델과 비슷한 성능을 가진 오픈소스 대규모 언어 모델

    • 최근 공개 모델: DeepSeek -R1

    • 671B 파라미터, 37B 활성 파라미터

    • MIT 라이선스 하에 상업적 이용 가능

  • 세계 최대 AI 기업인 오픈AI와 클라우드 기업인 아마존 등 주요 기업들이 대형 언어모델 지출 비용의 20분의 1 (or 10분의 1)수준으로 구축했으나, 오픈AI의 o1과 유사한 정확도 및 성능

    • 모델 훈련비용: 560만 달러 추정(vs OpenAI의 GPT-4는 1억 달러, vs Anthropic 1억 ~ 10억 달러)

  • 2025년 1웍25일 주말 사이 애플 북미 무료 앱 다운로드 순위 1위 등극

  • 2025년 1월28일 이미지 생성 멀티모달 모델 ‘야누스 프로(Janus-Pro)’를 공개 - 오픈AI의 이미지 생성 모델 ‘달리 3’, 스태빌리티AI의 ‘스테이블 디퓨전 XL(SDXL)’을 능가하는 성능 기록


💻 주요 기술적 특징

1. 효율적인 모델 아키텍처

  • Mixture of Experts(MoE) 아키텍처를 채택하여 모델의 효율성을 극대화

  • 참고로 MoE는 프랑스의 미스트랄AI가 사용중인 아키텍처

2. 혁신적인 기술 적용

  • Multi-Head Latent Attention(MLA): 효율적인 훈련과 추론을 가능하게 하는 아키텍처

  • 하이브리드 접근: 강화 학습과 일련의 사고 추론을 결합한 방식

3. 자원 최적화

  • 구형 칩 사용: 최신 Nvidia H100 대신 성능이 떨어지는 H800 모델 사용으로 비용 절감

  • 에너지 효율성: 클라우드 의존도를 줄이고 전력 소비를 최적화

  • 메타 '라마'의 10분의 1에 불과한 557만달러 학습 진행

  1. 검색 및 추론 관련

  • 이미지, 문서 업로드 지원

  • 프럼프팅에 대한 추론 과정을 자세히 다 보여줌(vs. Chatgpt는 부분만 보여줌)

  • 추론과 웹서칭을 동시에 사용하여 결과 보여줌(유사. Perplexity)

  • 오픈소스로 공개되어 있기 때문에 자체 AI 검색 서비스 구현 용이

💻 MoE(Mixture-of-Experts) 아키텍처 특징

  1. 효율적인 파라미터 활용: DeepSeek-V3는 총 6710억 개의 파라미터. 각 토큰 처리시 단 370억 개의 파라미터만 활성화 >> 이는 계산 비용을 크게 줄이면서도 높은 성능 유지

  2. Multi-head Latent Attention (MLA): 이 구조는 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄입니다. 이를 통해 메모리 사용량을 크게 절감하면서도 기존 Multi-Head Attention(MHA)과 유사한 성능을 유지합니다.

  3. 혁신적인 부하 균형 전략: DeepSeek-V3는 부가 손실(auxiliary loss) 없이 작업 부하를 균등하게 나누는 새로운 전략을 도입으로 모델의 안정성과 성능을 동시에 향상

  4. 멀티 토큰 예측(Multi-Token Prediction, MTP): 한 번에 여러 토큰을 예측하도록 설계되어 데이터 처리 능력 강화

  5. DeepSeekMoE: 이 구조는 여러 "전문가(Experts)" 모듈로 구성되어 있으며, 각 데이터 토큰을 처리할 때 가장 적합한 전문가들만을 선택하여 작업 분담


💻 성능 및 시장 영향

1. 벤치마크 성능

  • 지식 질문 및 답변, 긴 텍스트 처리, 코드 생성, 수학적 기능 등에서 업계 최고 수준

  • MMLU, GPQA 등의 지식 작업에서 Claude-3.5-Sonnet에 근접한 성능

  • AIME 2024, CNMO 2024 등의 수학 테스트에서 새로운 기록 수립

2. 시장 경쟁력

  • OpenAI의 o1 모델 대비 90% 비용 절감하면서도 우수한 성능 달성

  • 생성 속도 200% 향상으로 사용자 경험 개선

  • 'DeepSeek 학습 비용이 메타 수석 엔지니어 연봉보다 적다'

3. 글로벌 AI 시장 영향

  • Nvidia: 엔비디아 주가 17% 하락으로 846조 증발 - 미국 주식 역사상 가장 큰 하락 기록.(이후 재상승중이기는 하나 엔비디아의 비싸고 공급이 늦어지는 GPU 가치에 대한 재검토 계기)

  • OpenAI & Microsoft : ChatGPT와 직접적인 경쟁 관계 형성. OpenAI의 AI 모델을 DeepSeek모델에서 학습했는지 조사 중 / 가장 최신 추론모델인 O3-Mini 풀버전 공개 전 사전 무료 공개(1.31)

  • Google: 별 다른 반응을 내놓지 않고 있는 구글은 코딩과 수학 작업에서 높은 정확성과 강력한 성능을 제공하는 Gemini 2.0 Pro Experimental) 공개(1.30)

  • Meta: 딥시크 분석을 위한 4개의 태스크포스 팀을 통해 분석. 향후 딥시크의 핵심 기술을 '라마'에 적용 예정

  • Apple: 中딥시크 극찬한 팀쿡. 온디바이스AI 전략을 가진 애플은 딥시크의 AI 모델 오픈소스를 활용해 중국에서 AI기능을 탑재한 아이폰 출시 가능성

  • Perplexity: 이미 https://www.perplexity.ai에 DeepSeek R1 추론 모델 적용 및 서비스 중


🤔 이슈 및 한계

  • 이슈:

    • https://chat.deepseek.com/를 사용하는 경우, ‘개인정보 보호 정책’을 통해 AI 모델 학습을 위한 이용자의 이름·생년월일·이메일·주소·전화번호 등을 수집

    • 그리고, 이용자들이 입력한 키보드 패턴과 오디오, 파일, 채팅 기록 등 콘텐트를 수집하고 회사 재량에 따라 해당 정보를 법 집행기관이나 공공 기관과 공유할 수 있다고 명시

    • 모든 데이터는 중국에 있는 딥시크 서버에 저장하는 이슈

  • 한계:

    • 중국정부 검열(?): 시진핑이 나오는 결과내용들은 자동으로 순삭(?)되는 결과를 보여주는 한계


🛠️ 참고

  • https://www.deepseek.com/

  • https://github.com/deepseek-ai/DeepSeek-R1

  • https://openrouter.ai/deepseek/deepseek-r1 

  • https://apps.apple.com/kr/app/deepseek-ai-%EC%96%B4%EC%8B%9C%EC%8A%A4%ED%84%B4%ED%8A%B8/id6737597349

  • DeepSeek: all the news about the startup that’s shaking up AI stocks - https://www.theverge.com/24353060/deepseek-ai-china-nvidia-openai

GitHub - deepseek-ai/DeepSeek-R1

GitHub

GitHub - deepseek-ai/DeepSeek-R1

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 1월 28일 오전 11:53

 • 

저장 51조회 4,016

댓글 2

함께 읽은 게시물

< 빠른 실패가 더 큰 성공을 만드는 이유 >

1. 우리가 하는 많은 일이 처음입니다. 외부에서도 경험한 사람이 없는 일입니다.

... 더 보기

퇴근길 지하철에서 중년 사내와 20대 후반의 한 젊은이가 필자의 앞에 나란히 앉아 있었다. “자리가 사람을 만드는 법이지.” 중년 사내가 젊은이에게 건네는 말 한마디가 내 귀에 들려왔다. 그 순간 나는 묘한 추억에 빠져들었다.

... 더 보기

[김인수 기자의 사람이니까 경영이다]자리가 무능한 사람을 만든다는데 - 매일경제

매일경제

[김인수 기자의 사람이니까 경영이다]자리가 무능한 사람을 만든다는데 - 매일경제

클로드 코드 Max 한 달 사용 후기

... 더 보기

클로드 코드 한 달 사용 후기

K리그 프로그래머

클로드 코드 한 달 사용 후기

 • 

댓글 2 • 저장 9 • 조회 3,150


< 1등을 베끼는 당신이 1등이 될 수 없는 이유 >

1. 당신 자신을 믿어라. 결코 모방하지 마라.

... 더 보기

프리미어리그를 비롯한 유럽 축구리그에는 한국에서 뛰는 모든 축구 선수들의 연봉을 합한 것보다 수십 배가 넘는 돈을 버는 선수들이 즐비하다. 이런 일이 왜 가능할까?

... 더 보기

[허연의 책과 지성] 1:99 양극화 사회선 결국 1%도 불행해진다 - 매일경제

매일경제

[허연의 책과 지성] 1:99 양극화 사회선 결국 1%도 불행해진다 - 매일경제

흔히들 브랜딩을 고객 관점에서 생각하지만, 진짜 강력함은 내부에서 시작되고 완성됩니다. 구성원으로부터 시작되는 강력한 브랜드 구축 방법론을 ‘인터널 브랜딩’이라고 하는데요. 여기에는 회사의 가치와 비전, 미션을 직원들의 일상적 행동과 태도로 실천하고 일치시키는 모든 과정이 포함됩니다.

... 더 보기

인터널 브랜딩을 통한 조직 혁신 방법 [휴넷CEO]

네이버 블로그 | 휴넷 공식 블로그

인터널 브랜딩을 통한 조직 혁신 방법 [휴넷CEO]