Machine Learning Engineering Online Book
대규모 언어 모델과 멀티모달 모델을 학습할 때 겪을 수 있는 문제들과 문제 해결 노하우들을 배울수 있는 repo 공유드립니다. BLOOM-176B, IDEFICS-80B 모델을 만들면서 겪은 일들 위주로, 기초적인 자료들 이라기보다는 실제로 large-scale에서 학습 및 엔지니어링 해본 사람들만이 공유할 수 있는 high level의 귀중한 자료인 것 같습니다. 공감도 많이 가네요 :) 결국엔 아는 만큼 보이기 때문에.. 두고두고 시간이 지나서도 읽어볼 내용들 같습니다. Part 1. Insights 1. The AI Battlefield Engineering - What You Need To Know Part 2. Key Hardware Components 1. Accelerator - the work horses of ML - GPUs, TPUs, IPUs, FPGAs, HPUs, QPUs, RDUs (WIP) 2. Network - intra-node and inter-node connectivity, calculating bandwidth requirements 3. IO - local and distributed disks and filesystems 4. CPU - cpus, affinities (WIP) 5. CPU Memory - how much CPU memory is enough - the shortest chapter ever. Part 3. Performance 1. Fault Tolerance 2. Performance 3. Multi-Node networking 4. Model parallelism Part 4. Operating 1. SLURM 2. Training hyper-parameters and model initializations 3. Instabilities Part 5. Development 1. Debugging software and hardware failures 2. And more debugging 3. Reproducibility 4. Tensor precision / Data types 5. HF Transformers notes - making small models, tokenizers, datasets, and other tips Part 6. Miscellaneous 1. Resources - LLM/VLM chronicles https://github.com/stas00/ml-engineering/tree/master