HoJoong Kim

Senior IT guy

딥시크(DeepSeek)

최근 AI업계의 가장 핫한 딥시크에 대해서 정리해 본 내용입니다.

💻 딥시크(DeepSeek)

중국의 헤지펀드 매니저 량원평이 하이플라이어 캐피탈을 통해 만든 AI 언어모델
OpenAI의 모델과 비슷한 성능을 가진 오픈소스 대규모 언어 모델
- 최근 공개 모델: DeepSeek -R1
- 671B 파라미터, 37B 활성 파라미터
- MIT 라이선스 하에 상업적 이용 가능
세계 최대 AI 기업인 오픈AI와 클라우드 기업인 아마존 등 주요 기업들이 대형 언어모델 지출 비용의 20분의 1 (or 10분의 1)수준으로 구축했으나, 오픈AI의 o1과 유사한 정확도 및 성능
- 모델 훈련비용: 560만 달러 추정(vs OpenAI의 GPT-4는 1억 달러, vs Anthropic 1억 ~ 10억 달러)
2025년 1웍25일 주말 사이 애플 북미 무료 앱 다운로드 순위 1위 등극
2025년 1월28일 이미지 생성 멀티모달 모델 ‘야누스 프로(Janus-Pro)’를 공개 - 오픈AI의 이미지 생성 모델 ‘달리 3’, 스태빌리티AI의 ‘스테이블 디퓨전 XL(SDXL)’을 능가하는 성능 기록

💻 주요 기술적 특징

1. 효율적인 모델 아키텍처

Mixture of Experts(MoE) 아키텍처를 채택하여 모델의 효율성을 극대화
참고로 MoE는 프랑스의 미스트랄AI가 사용중인 아키텍처

2. 혁신적인 기술 적용

Multi-Head Latent Attention(MLA): 효율적인 훈련과 추론을 가능하게 하는 아키텍처
하이브리드 접근: 강화 학습과 일련의 사고 추론을 결합한 방식

3. 자원 최적화

구형 칩 사용: 최신 Nvidia H100 대신 성능이 떨어지는 H800 모델 사용으로 비용 절감
에너지 효율성: 클라우드 의존도를 줄이고 전력 소비를 최적화
메타 '라마'의 10분의 1에 불과한 557만달러 학습 진행

검색 및 추론 관련

이미지, 문서 업로드 지원
프럼프팅에 대한 추론 과정을 자세히 다 보여줌(vs. Chatgpt는 부분만 보여줌)
추론과 웹서칭을 동시에 사용하여 결과 보여줌(유사. Perplexity)
오픈소스로 공개되어 있기 때문에 자체 AI 검색 서비스 구현 용이

💻 MoE(Mixture-of-Experts) 아키텍처 특징

효율적인 파라미터 활용: DeepSeek-V3는 총 6710억 개의 파라미터. 각 토큰 처리시 단 370억 개의 파라미터만 활성화 >> 이는 계산 비용을 크게 줄이면서도 높은 성능 유지
Multi-head Latent Attention (MLA): 이 구조는 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄입니다. 이를 통해 메모리 사용량을 크게 절감하면서도 기존 Multi-Head Attention(MHA)과 유사한 성능을 유지합니다.
혁신적인 부하 균형 전략: DeepSeek-V3는 부가 손실(auxiliary loss) 없이 작업 부하를 균등하게 나누는 새로운 전략을 도입으로 모델의 안정성과 성능을 동시에 향상
멀티 토큰 예측(Multi-Token Prediction, MTP): 한 번에 여러 토큰을 예측하도록 설계되어 데이터 처리 능력 강화
DeepSeekMoE: 이 구조는 여러 "전문가(Experts)" 모듈로 구성되어 있으며, 각 데이터 토큰을 처리할 때 가장 적합한 전문가들만을 선택하여 작업 분담

💻 성능 및 시장 영향

1. 벤치마크 성능

지식 질문 및 답변, 긴 텍스트 처리, 코드 생성, 수학적 기능 등에서 업계 최고 수준
MMLU, GPQA 등의 지식 작업에서 Claude-3.5-Sonnet에 근접한 성능
AIME 2024, CNMO 2024 등의 수학 테스트에서 새로운 기록 수립

2. 시장 경쟁력

OpenAI의 o1 모델 대비 90% 비용 절감하면서도 우수한 성능 달성
생성 속도 200% 향상으로 사용자 경험 개선
'DeepSeek 학습 비용이 메타 수석 엔지니어 연봉보다 적다'

3. 글로벌 AI 시장 영향

Nvidia: 엔비디아 주가 17% 하락으로 846조 증발 - 미국 주식 역사상 가장 큰 하락 기록.(이후 재상승중이기는 하나 엔비디아의 비싸고 공급이 늦어지는 GPU 가치에 대한 재검토 계기)
OpenAI & Microsoft : ChatGPT와 직접적인 경쟁 관계 형성. OpenAI의 AI 모델을 DeepSeek모델에서 학습했는지 조사 중 / 가장 최신 추론모델인 O3-Mini 풀버전 공개 전 사전 무료 공개(1.31)
Google: 별 다른 반응을 내놓지 않고 있는 구글은 코딩과 수학 작업에서 높은 정확성과 강력한 성능을 제공하는 Gemini 2.0 Pro Experimental) 공개(1.30)
Meta: 딥시크 분석을 위한 4개의 태스크포스 팀을 통해 분석. 향후 딥시크의 핵심 기술을 '라마'에 적용 예정
Apple: 中딥시크 극찬한 팀쿡. 온디바이스AI 전략을 가진 애플은 딥시크의 AI 모델 오픈소스를 활용해 중국에서 AI기능을 탑재한 아이폰 출시 가능성
Perplexity: 이미 https://www.perplexity.ai에 DeepSeek R1 추론 모델 적용 및 서비스 중

🤔 이슈 및 한계

이슈:
- https://chat.deepseek.com/를 사용하는 경우, ‘개인정보 보호 정책’을 통해 AI 모델 학습을 위한 이용자의 이름·생년월일·이메일·주소·전화번호 등을 수집
- 그리고, 이용자들이 입력한 키보드 패턴과 오디오, 파일, 채팅 기록 등 콘텐트를 수집하고 회사 재량에 따라 해당 정보를 법 집행기관이나 공공 기관과 공유할 수 있다고 명시
- 모든 데이터는 중국에 있는 딥시크 서버에 저장하는 이슈
한계:
- 중국정부 검열(?): 시진핑이 나오는 결과내용들은 자동으로 순삭(?)되는 결과를 보여주는 한계

🛠️ 참고

https://www.deepseek.com/
https://github.com/deepseek-ai/DeepSeek-R1
https://openrouter.ai/deepseek/deepseek-r1
https://apps.apple.com/kr/app/deepseek-ai-%EC%96%B4%EC%8B%9C%EC%8A%A4%ED%84%B4%ED%8A%B8/id6737597349
DeepSeek: all the news about the startup that’s shaking up AI stocks - https://www.theverge.com/24353060/deepseek-ai-china-nvidia-openai

GitHub - deepseek-ai/DeepSeek-R1

GitHub

다음 내용이 궁금하다면?

이미 회원이신가요?

2025년 1월 28일 오전 11:53

•

저장 51 • 조회 4,016

WONNIE
소만사 매니저 • 1월 30일
아직 초기라 그런지 서비스 안정성은 많이 떨어지고 사용자가 많아서 그런지 속도도 어미어마하게 느린데 이런 단점만 잘 극복하면 좋겠네요.
HoJoong Kim
작성자
Senior IT guy • 1월 30일
@WONNIE 좋은 의견 감사합니다,@wonnie님~^^

함께 읽은 게시물

장홍석

스페이스오디티 부대표/CPO

4일 전

< 빠른 실패가 더 큰 성공을 만드는 이유 >

1. 우리가 하는 많은 일이 처음입니다. 외부에서도 경험한 사람이 없는 일입니다.

댓글 1 • 저장 6 • 조회 783

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

6일 전

퇴근길 지하철에서 중년 사내와 20대 후반의 한 젊은이가 필자의 앞에 나란히 앉아 있었다. “자리가 사람을 만드는 법이지.” 중년 사내가 젊은이에게 건네는 말 한마디가 내 귀에 들려왔다. 그 순간 나는 묘한 추억에 빠져들었다.

[김인수 기자의 사람이니까 경영이다]자리가 무능한 사람을 만든다는데 - 매일경제

매일경제

저장 11 • 조회 917

K리그 프로그래머

커피한잔 개발자

7월 14일

클로드 코드 Max 한 달 사용 후기

클

클로드 코드 한 달 사용 후기

K리그 프로그래머

•

댓글 2 • 저장 9 • 조회 3,150

장홍석

스페이스오디티 부대표/CPO

4일 전

< 1등을 베끼는 당신이 1등이 될 수 없는 이유 >

1. 당신 자신을 믿어라. 결코 모방하지 마라.

댓글 1 • 저장 8 • 조회 913

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

7월 20일

프리미어리그를 비롯한 유럽 축구리그에는 한국에서 뛰는 모든 축구 선수들의 연봉을 합한 것보다 수십 배가 넘는 돈을 버는 선수들이 즐비하다. 이런 일이 왜 가능할까?

[허연의 책과 지성] 1:99 양극화 사회선 결국 1%도 불행해진다 - 매일경제

매일경제

저장 3 • 조회 578

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

7월 20일

흔히들 브랜딩을 고객 관점에서 생각하지만, 진짜 강력함은 내부에서 시작되고 완성됩니다. 구성원으로부터 시작되는 강력한 브랜드 구축 방법론을 ‘인터널 브랜딩’이라고 하는데요. 여기에는 회사의 가치와 비전, 미션을 직원들의 일상적 행동과 태도로 실천하고 일치시키는 모든 과정이 포함됩니다.

인터널 브랜딩을 통한 조직 혁신 방법 [휴넷CEO]

네이버 블로그 | 휴넷 공식 블로그

저장 1 • 조회 625

비슷한 게시물

HoJoong Kim Senior IT guy

OpenAI Text to Video 생성기 소라터보의 경쟁자들

닥터G UX 디자이너 & 리서처

3월 IT뉴스

골빈해커 Chief Maker

OpenAI가 생각하고 있는 인공지능의 발전 단계는 다음과 같은데요.

골빈해커 Chief Maker

OpenAI가 새로운 연구를 발표했는데요. (고급)고성능의 모델을 교육 할 때 약한 모델이 쉽게 확인할 수 있는 텍스트를 생성하도록 한다는 것 입니다.

김영욱 SAP France 프로덕트 매니저

<ChatGPT를 opt-in(동의 서비스)으로 선택한 애플의 현명함 >

닥터G UX 디자이너 & 리서처

4월 둘째주 IT news

주간 인기 TOP 10

강재상 스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

회사 때려치고 사업이나 한번 해볼까?

K리그 프로그래머 커피한잔 개발자

클로드 코드 Max 한 달 사용 후기

전민우 백엔드개발자

회피를 해야 할까요? 방안을 찾아야 할까요?

유용우(요우) NAVER 백엔드 개발자

사용자가 아닌 개발자를 위한 웹 개발의 시대

이양일 NaverCloud 백엔드 개발자

MCP 모르면 대체 얼마나 손해 보는 걸까?🤔

김의중 프론트엔드 개발자

Next.js 앱을 쿠버네티스에 배포하기 (feat. ArgoCD

레드버스백맨 리서처 앤 라이터

⟪토스가 만든 리서치툴, TNS⟫

골빈해커 Chief Maker

‪요 기능의 일부를 바이브 코딩으로 만들려다가 실패했는데요. 그

JOSH 솔로프리너 CEO

국내 바이브코딩 시장을 혼자 독점하고 계신 커서맛피아님을 인터뷰했

이유진 우아한 형제들 프로덕트 디자이너

생산성 수치심 (Productivity Shame) 극복하기 (1

딥시크(DeepSeek)

댓글 2

함께 읽은 게시물

< 빠른 실패가 더 큰 성공을 만드는 이유 >

클로드 코드 Max 한 달 사용 후기

< 1등을 베끼는 당신이 1등이 될 수 없는 이유 >

비슷한 게시물

주간 인기 TOP 10

추천 프로필