๐งฎ ์๋ํ๋ฅผ ์ํ ์ฝ๋๋ฅผ LLM์ผ๋ก ์์ ํ ๋์ฒดํ๊ฒ ๋ ์์ ์ ์ด๋๋๊ฐ ๋ ๊น? ํ๊ณ ์๋ ์์ ์ผ๋ก ๋๋ต ๊ณ์ฐํด๋ณด๋ Llama 70B ์์ค์ ๋ชจ๋ธ์ 2,000TPS (token/s) ์ ๋๋ก ์ฌ์ฉ
๐งฎ ์๋ํ๋ฅผ ์ํ ์ฝ๋๋ฅผ LLM์ผ๋ก ์์ ํ ๋์ฒดํ๊ฒ ๋ ์์ ์ ์ด๋๋๊ฐ ๋ ๊น? ํ๊ณ ์๋ ์์ ์ผ๋ก ๋๋ต ๊ณ์ฐํด๋ณด๋ Llama 70B ์์ค์ ๋ชจ๋ธ์ 2,000TPS (token/s) ์ ๋๋ก ์ฌ์ฉ ํ ์ ์์ ์์ ์ผ ๋ฏ. API์ latency๊ฐ 300ms ์ดํ๋ก ๋จ์ด์ ธ์ผ ๋ณธ๊ฒฉ์ ์ผ๋ก ์ธ ์ ์์ ๊ฒ์ธ๋ฐ, JSON Response๊ฐ ํ๊ท ์ ์ผ๋ก 300~500ํ ํฐ ์ ๋๋ฅผ ์ฌ์ฉ(๋ฌผ๋ก ์ฒ์ฐจ๋ง๋ณ์ด์ง๋ง)ํ๋๊น, 2,000TPS ์ ๋๋ ๋์ด์ผ ์ฒซ๋ฒ์งธ ํ ํฐ์ด ๋์ค๊ธฐ๊น์ง์ ์๋ต์๊ฐ์ ํฌํจํด ์ ์ฒด ์๋ต ์๊ฐ์ด 300ms ์ ํ๊ฐ ๋ ๊ฒ. ๊ทธ๋ฆฌ๊ณ ์๋์ ๊ฐ๊ฒฉ์ด ๊ฑฐ์ ๋น๋กํ๋ฏ๋ก, 1M ํ ํฐ๋น ์ฝ 50~100์ ์ ๋๊ฐ ๋ ์ ์๊ณ , ๊ทธ๋ฌ๋ฉด 1M โAPI ์ฝโ๋น ์ฝ 2~5๋ง์์ผ๋ก ์ด๋์ ๋ ํฉ๋ฆฌ์ ์ธ ๊ฐ๊ฒฉ์ด ๋๋ค.