๐ Llama 3 ํ๊ตญ์ด ํ ์คํธ on ๋งฅ๋ถ ์์ด M2
Llama 3์ ํ๊ตญ์ด ํ ์คํธ๋ฅผ ๋งฅ๋ถ ์์ด M2, 24G์์ ๊ฐ๋จํ๊ฒ ํด ๋ณด์์ต๋๋ค. ๊ฒฐ๋ก ๋ง ๊ฐ๋จํ๊ฒ ๋งํ๋ฉด ์ฝ๊ฐ์ ํ๊ตญ์ด ๋ฐ์ดํฐ๋ก ์ด์ง๋ง ํ๋ํ๋ฉด ๊ฝค ์ธ๋ง ํ ๊ฒ ๊ฐ์ต๋๋ค. ์ฒจ๋ถ ์์์ 8B-4bit Instruct ๋ชจ๋ธ๋ก ๊ฒฐ๊ณผ๊ฐ ์ ๋์จ ํธ์ธ๋ฐ, ๋ฆฌ๋ ํ ์คํธ๊ฐ ์ฝ๊ฐ๋ง ๋ฌด๋์ ธ๋ ์์ฑ ๊ฒฐ๊ณผ๊ฐ ์ ์ฒด์ ์ผ๋ก ํฌ๊ฒ ๋ฌด๋์ง ์ ๋๋ก ์ฑ๋ฅ ๋ณํ๊ฐ ์ปค์ ์์ ์ฑ์ด ๋ง์ด ๋จ์ด์ง๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ํ์ง๋ง ์์ฃผ ์ ๋๋ดํ๊ฒ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ๋ฉด ์ธ์คํธ๋ญ์ ํ๋์ผ๋ก ์ฝ๊ฒ ํด์ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ์๊ฐ๋๊ณ ์. ๊ทธ๋ฆฌ๊ณ 8B๋ 16bit๊น์ง ๋์๋๊ฐ๋๋ฐ, ์ ๊ธฐ์ค์ผ๋ก ์๋๋ฉด์์ 4bit์ ๋ผ์ผ ์ธ๋งํฉ๋๋ค. 8bit๋ ๋์์ง ์๊ณ ์. ์ฑ๋ฅ์ ์์ฃผ ํฐ ์ฐจ์ด๋ ์์ง๋ง ํ์คํ ๋์ bit์์ ์์ฑ ๊ฒฐ๊ณผ๊ฐ ์ฝ๊ฐ ๋ ์์ ์ ์ธ ๋๋์ ๋๋ค. 70B๋..์๋์๊ฐ๋๋ค. ๐ฅน (์ ์ ์ข.. ๐ฅน) ๊ทธ๋ฆฌ๊ณ llama.cpp๋ ์ ๋๋๋ฐ, mlx-lm์ ๋ญ๊ฐ ์ข ๊ฒฐ๊ณผ๊ฐ ์์ํ๊ฒ ๋์ค๋๊ตฐ์. ์ ๊ฐ ๋ญ ์๋ชปํ ๊ฒ ๊ฐ๊ธดํ๋ฐ.. ๐ค ์ํผ ์ฒซ์ธ์์, ์ฝ๊ฐ ์ ๋งคํ์ง๋ง ํฉ๊ฒฉ ๐ https://x.com/golbin/status/1781374690118004870?s=46