HPC 인프라 PoC는 클라우드에서 해야하는 이유
GenAI 모델을 트레이닝하거나 서빙하는 경우, 가장 많이 고민하는 것은 "온프렘 vs 클라우드" 중 어디에 인프라를 구성하냐 입니다. 보통 "비용 관점"에서 비교를 많이 하십니다. 💸 단순 계산을 해보면 온프렘이 가격이 저렴하게 느껴지기 때문입니다. 하지만, 단순하게 비용을 비교하고 온프렘에서 구성하셨다가 크게 후회하는 경우가 종종 발생합니다. 🙈 실제로 여러 GPU를 클러스터로 구성하는 과정에서 네트워크 기술 이슈로 원하는 성능이 나지 않거나, 예상치 못하게 인프라를 추가하거나 줄여야할 경우 구매, 설치, 테스트 등 복잡한 작업을 다시 거치며 프로젝트가 지연되기 때문입니다. 😿 추후에 가장 적합한 선택을 하시더라도 HPC 클러스터 PoC 만큼은 클라우드에서 먼저 해보시기를 추천드립니다. 일단, 비용 리스크가 적고, 실패하더라도 코드만 삭제하면 되기 때문입니다. 👓 https://aws.amazon.com/ko/blogs/tech/hpc_cluster_ec2_2/