๐งฎ ์๋ํ๋ฅผ ์ํ ์ฝ๋๋ฅผ LLM์ผ๋ก ์์ ํ ๋์ฒดํ๊ฒ ๋ ์์ ์ ์ด๋๋๊ฐ ๋ ๊น?
ํ๊ณ ์๋ ์์ ์ผ๋ก ๋๋ต ๊ณ์ฐํด๋ณด๋ Llama 70B ์์ค์ ๋ชจ๋ธ์ 2,000TPS (token/s) ์ ๋๋ก ์ฌ์ฉ ํ ์ ์์ ์์ ์ผ ๋ฏ.
API์ latency๊ฐ 300ms ์ดํ๋ก ๋จ์ด์ ธ์ผ ๋ณธ๊ฒฉ์ ์ผ๋ก ์ธ ์ ์์ ๊ฒ์ธ๋ฐ, JSON Response๊ฐ ํ๊ท ์ ์ผ๋ก 300~500ํ ํฐ ์ ๋๋ฅผ ์ฌ์ฉ(๋ฌผ๋ก ์ฒ์ฐจ๋ง๋ณ์ด์ง๋ง)ํ๋๊น, 2,000TPS ์ ๋๋ ๋์ด์ผ ์ฒซ๋ฒ์งธ ํ ํฐ์ด ๋์ค๊ธฐ๊น์ง์ ์๋ต์๊ฐ์ ํฌํจํด ์ ์ฒด ์๋ต ์๊ฐ์ด 300ms ์ ํ๊ฐ ๋ ๊ฒ.
๊ทธ๋ฆฌ๊ณ ์๋์ ๊ฐ๊ฒฉ์ด ๊ฑฐ์ ๋น๋กํ๋ฏ๋ก, 1M ํ ํฐ๋น ์ฝ 50~100์ ์ ๋๊ฐ ๋ ์ ์๊ณ , ๊ทธ๋ฌ๋ฉด 1M โAPI ์ฝโ๋น ์ฝ 2~5๋ง์์ผ๋ก ์ด๋์ ๋ ํฉ๋ฆฌ์ ์ธ ๊ฐ๊ฒฉ์ด ๋๋ค.
๋ ๋ง์ ์ฝํ ์ธ ๋ฅผ ๋ณด๊ณ ์ถ๋ค๋ฉด?
์ด๋ฏธ ํ์์ด์ ๊ฐ์?
2024๋ 6์ 4์ผ ์ค์ 11:43
์ธ๊ตญ์ด๋ฅผ ์ฌ์ฉํด์? ๋์ ๋ ๋ง์ด ๋ฒ์ด์? ์๋ก์ด ๊ธฐํ๊ฐ ๋ง์์? ๊ธ๋ก๋ฒ ๊ฒฝ๋ ฅ์ ์์ ์ ์์ด์?
... ๋ ๋ณด๊ธฐ๏ปฟ
... ๋ ๋ณด๊ธฐ