엔비디아 AI 칩: A100 A800 H100 H800 B200
fibermall.com
DeepSeek-V3모델은 H800으로 훈련을 했는데, H800가진 한계들을 넘어서 OpenAI의 상용모델들과 비슷한 성능을 내주었습니다. 그렇다면 얼마만큼의 차이가 있길래, 사람들이 이렇게 반응하는지 궁금해서 H100과 H800의 성능에 대해서 찾아보았습니다.
컴퓨팅 성능
H100 SXM5 80GB 모델은 66.91 TFLOPS의 FP32 성능을 자랑하는 반면, H800 SXM5는 59.3 TFLOPS를 제공합니다. H100이 높긴하지만 10%정도 높은 정도 입니다.
클럭 속도
기본 클럭과 부스트 클럭 모두에서 H100이 우위를 점하고 있습니다.
H100: 기본 1590 MHz / 부스트 1980 MHz
H800: 기본 1095 MHz / 부스트 1755 MHz
하드웨어 스펙
CUDA 코어 수에서도 차이가 납니다. H100이 16,896개로 H800의 14,592개보다 더 많은 CUDA 코어를 탑재하고 있습니다.
GPU 간 통신 성능
NVLink 대역폭에서도 H100이 우세를 보입니다. H100은 900GB/s의 뛰어난 GPU 간 대역폭을 제공하는 반면, H800은 400GB/s 입니다. 절반이하의 성능을 보여주고 있는데요.
많은 수의 GPU가 동시에 작동해야 하는 대규모 AI학습시에 H100에 비해 효율이 40%정도로 떨어지게 됩니다.
이중 정밀도 성능
H800은 이중 정밀도 컴퓨팅 성능을 크게 감소시켰습니다. 일부 보고에 따르면 H800의 이중 정밀도 성능이 64 TFLOPS에서 1 TFLOPS로 줄어들어 고성능 과학 컴퓨팅(HPC) 분야에서 사실상 사용이 불가능해졌습니다.
전반적인 성능
H100은 FP8 정밀도에서 32 petaFLOPS의 컴퓨팅 성능을 제공하는 반면4, H800은 이보다 낮은 성능을 제공합니다.
찾고보니, GPU의 부족한 부분을 알고리즘으로 뛰어넘은 딥시크 모델을 개발한 AI연구원들에게 존경심이 드네요.
https://www.fibermall.com/ko/blog/nvidia-ai-chip.htm?srsltid=AfmBOoopriraPjnZVDlRPgHQk7JoacBivZJfdLUeoX3oWErd9ivyQmMu
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 1월 31일 오전 2:29