Yandex에서 LLM 분산 추론/파인튜닝 시스템인 Patals를 공개. 인터넷 상에 연결된 자원을 활용하여 BLOOM-176B 같은 진짜(?) LLM을 누구나 실행 할 수 있고, 이 네트워크에
Yandex에서 LLM 분산 추론/파인튜닝 시스템인 Patals를 공개. 인터넷 상에 연결된 자원을 활용하여 BLOOM-176B 같은 진짜(?) LLM을 누구나 실행 할 수 있고, 이 네트워크에 누구나 자신의 유휴 자원을 붙일 수도 있다고. (프라이빗 네트웍 시스템 구축도 가능) Transformers 라이브러리와 매우 유사하게 설계되어 단 몇 줄만으로 사용 할 수 있으며, 인터넷으로 분산해서 추론하는거라 속도가 느릴 것이라고 생각하지만, LLaMA-65B 추론에 5 tokens/s 정도의 속도가 나온다고. 와.. 이건 뭐.. 배우는 사람 숨 좀 쉽시다;;; https://research.yandex.com/blog/petals-decentralized-inference-and-finetuning-of-large-language-models