How to Set Up a Multi-GPU Linux Machine for Deep Learning in 2024
Medium
딥러닝을 위해서 싱글 GPU 머신 대신 멀티 GPU 머신을 설정하면 보다 효율적인 데이터 사이언스 업무가 가능한데요, 관련해서 좋은 기사 공유합니다.😃 (출처: TDS)
<2024년 딥러닝을 위한 멀티 GPU 리눅스 머신을 설정하는 방법>
딥러닝을 시작하려면 CUDA 툴킷 및 파이토치(PyTorch)와 같은 필수 라이브러리를 사용하여 다중 GPU Linux 시스템을 설정해야 합니다.
exllamaV2, torchtune 등의 오픈소스 프레임워크를 사용하여 딥러닝을 위한 CUDA 툴킷, PyTorch, 미니콘다(Miniconda)를 설치합니다.
터미널에서 nvidia-smi 명령을 사용하여 머신에 설치된 GPU 수를 확인합니다. 설치된 모든 GPU 목록이 인쇄되어야 합니다. 불일치가 있거나 명령이 작동하지 않으면 먼저 Linux 버전에 맞는 Nvidia 드라이버를 설치해야 합니다.
CUDA 툴킷 설치
usr/local/cuda-xx에서 기존 CUDA 폴더를 확인합니다. 이는 CUDA 버전이 이미 설치되어 있음을 의미합니다.
원하는 PyTorch 라이브러리에 필요한 CUDA 버전을 확인합니다.
CUDA 툴킷 12.1 다운로드로 이동하여 설치합니다.
UDA 툴킷을 설치하는 동안 설치 프로그램에서 커널 업데이트 메시지를 표시할 수 있는데, 커널 업데이트를 위한 팝업이 터미널에 나타나면 esc 버튼을 눌러 취소하세요.
설치 후 Linux 시스템을 다시 시작합니다. PATH에 CUDA 설치를 추가하기 위해 nano 편집기를 사용하여 .bashrc 파일을 엽니다.
터미널을 닫았다가 다시 엽니다.
Miniconda 설치
PyTorch를 설치하기 전에 Miniconda를 설치한 다음 Conda 환경 내에 PyTorch를 설치하는 것이 좋습니다. 각 프로젝트마다 새로운 Conda 환경을 만드는 것도 편리합니다.
터미널을 닫았다가 다시 엽니다.
PyTorch 설치
CUDA 버전에 맞는 PyTorch 라이브러리를 설치합니다.
PyTorch 설치 후 터미널에서 PyTorch에 표시되는 GPU 수를 확인합니다. 그러면 시스템에 설치된 GPU 수가 print되어야 하며 nvidia-smi 명령에 나열된 GPU 수와도 일치해야 합니다.
다중 GPU 설정(LLM)을 활용하는 딥러닝 프로젝트 시작하기
추론(Inferencing, LLM 모델 사용)을 위해 exllamav2를 별도의 환경에 복제하고 설치합니다. 이는 더 빠른 추론을 위해 모든 GPU를 사용합니다.
미세 조정(fine-tuning)이나 학습을 위해 torchtune을 복제하고 설치할 수 있습니다.
원본 기사 링크는 아래와 같습니다. 감사합니다🙏
[Source Link] https://towardsdatascience.com/how-to-setup-a-multi-gpu-linux-machine-for-deep-learning-in-2024-df561a2d3328
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 30일 오전 7:55