DeepSeek 고효율 AI 모델, 미국 AI 인프라 투자에 의구심?

중국 LLM 딥시크의 상당한 존재감에 대해 일찍이 팔로우업해오신 분들이 많으실텐데요

25일 CNBC 딥시크 보도 이후 주말동안 각종 커뮤니티에서 난리가 났네요.

V3 모델은 이미 작년 12/25에 발표되면서 Llama3나 GPT-4의 훈련비용의 1/10 수준인 엄청난 GPU 효율성 (개발 비용 $5.6M 추산)으로 AI 개발이 대규모 칩에 의존할 필요가 없다는 묵직한 한방을 쳤는데

지난 20일에 발표된 DeepSeek-R1 (V3모델 미세조정 버전) 추론 특화 모델에서는 기존 빅테크의 막대한 훈련 비용 대비 훨씬 적은 리소스로 주요 벤치마크에서 o1 보다 우수한 성능을 보였다는 점에서 큰 파장을 주고 있습니다.


이는 AI 인프라에 5천억 달러를 투자를 하겠다는 Stargate 프로젝트가 발표된 와중에 트럼프 정부의 AI 정책 기조에 반향을 일으키기에 충분한듯 합니다.

그래서 그런지? 오늘 데이장에서는 ‘ai 버블’에 대한 의구심으로 폭락중이네요;;


특히 고가의 GPU에 대한 의존도가 낮아질 거란 기대감에 엔비디아에는 악재라는 관점이 많던데

(알려진바에 따르면 딥시크는 엔비 저사양 H800과 AMD의 MI300X로 훈련했다고 하네요)

반대로, 수출 규제 때문에 발표를 못했을 뿐 대규모 고성능 GPU 사용했을 것, 그대로 믿을 수 없는 정보라는 의견도 있네요

또 hw보다 sw 아키텍쳐에 돈이 몰릴 것이라는 관점도 있고.. 다양한 관점 살펴보면 좋을것 같습니다.


사실 이미 딥시크의 가성비 아웃풋이 빠르면 작년 8월 또는 작년말부터 회자된 내용인데, 최근 전세계 언론에서 주목하는 이유가 메리츠증권에 따르면 단순히 신모델 출시 외에도 미국이 중국 AI를 때리기 위한 분위기 조성 때문일 수도 있을것 같습니다. (공교롭게도 R1 발표도 트럼프 취임식인 20일에 했네요..)


How China’s New AI Model DeepSeek Is Threatening U.S. Dominance

https://www.youtube.com/watch?v=WEBiebbeNCA


DeepSeek-R1 테크니컬 리포트

https://huggingface.co/deepseek-ai/DeepSeek-R1


DeepSeek claims its ‘reasoning’ model beats OpenAI’s o1 on certain benchmarks

https://techcrunch.com/2025/01/20/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain-benchmarks/

- YouTube

www.youtube.com

 - YouTube

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 1월 27일 오전 8:42

댓글 0