๐ฅLLM "ํ๊ฐ" ํํ ๋ฆฌ์ผ ์ ๋ฐ์ดํธ ์๋ฃ! (์ด 14๊ฐ ํ์ผ)๐ฅ
๊ฐ์ฅ ๋ง์ ์์ฒญ์ด ์์๋... ํ๊ฐ๋ฅผ ๋๋์ด ์ค๋ ์ ๋ฐ์ดํธ ํ๋ค๋ ์์์ ๊ณต์ ๋๋ฆฌ๊ฒ ๋์ด ๋๋ฌด๋ ๊ธฐ์ฉ๋๋ค ใ ใ ๋ค๋ฅธ ์ฃผ์ ๋๋น ์ด์ฉ๋ฉด ์์ํ ๋ถ์ผ์ด๊ธฐ๋ ํ "ํ๊ฐ" ๋ฅผ ์ ๋ง ์น์ ํ๊ฒ, ๊ทธ๋ฆฌ๊ณ ๊น์ด์๊ฒ ๋ค๋ฃจ์์ต๋๋ค. ๊ตญ๋ด ์์ ์ด๋ ์์ ๊ทธ ์ด๋์ ๋ด๋์๋ ์๋ถํ ์ ์์๋งํผ ์ ๋ง ๊ณต๋ค์์ต๋๋ค. โญ๏ธ์ฃผ์๋ด์ฉ - RAGAS ๋ฅผ ํ์ฉํ ํฉ์ฑ ๋ฐ์ดํฐ์ ์์ฑ - RAGAS ๋ฅผ ํ์ฉํ ํ๊ฐ(context precision, recall, faithfullness, relevancy ๋ฑ) - ํ๊ฐ์ฉ ๋ฐ์ดํฐ์ ์ ๋ก๋(HuggingFace) - LangSmith ๋ฐ์ดํฐ์ ์์ฑ - LLM-as-judge ์ผ์ด์ค๋ณ(์ง๋ฌธ-๋ต๋ณ, ๋ฌธ๋งฅ-๋ต๋ณ(cot_qa), criteria(์ฌ์ฑ๋นํ, ๋ฒ์ฃ, ์ผ๊ด์ฑ ๋ฑ), labeled_criteria, ์ ์(scoring) - ์๋ฒ ๋ฉ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ๋ต๋ณ ํ๊ฐ - Custom LLM ํ๊ฐ - ํด๋ฆฌ์คํฑ ํ๊ฐ(Rouge, BLEU, METEOR, SemScore) - ์คํ ๋น๊ต - Summary ํ๊ฐ - ํ ๋ฃจ์๋ค์ด์ (Groundedness) ํ๊ฐ - ์คํ ๋์กฐ(Pairwise) ํ๊ฐ - ๋ฐ๋ณต ํ๊ฐ - ์จ๋ผ์ธ ํ๊ฐ๋ฅผ ํ์ฉํ ํ๊ฐ ์๋ํ โ ํํ ๋ฆฌ์ผ ๋งํฌ: https://wikidocs.net/259208 ๐ป ๊นํ ์์ค์ฝ๋: https://github.com/teddylee777/langchain-kr/tree/main/16-Evaluations ์ด๋ฒ์ ์์ ํ๋ฉด์ ์ ๋ง "ํ๊ฐ"์ ์ฌ๋ฏธ์ ํน ๋น ์ก์ต๋๋ค. ๊ทธ๋ผ ์ฆ๊ฑฐ์ด ํ ์ฃผ ๋์ธ์! ๊ฐ์ฌํฉ๋๋ค. #ragas #rag #evaluation #langsmith