<세일즈포스 CRM용 LLM 평가 대시보드 공개>

지난 <LLM의 위치 에너지가 변하고 있다> 포스팅에서 말씀드린 세일즈포스의 LLM 평가 프레임워크가 태블로 대시보드를 통해 공개되었습니다.

아래 링크를 클릭해 보시면 "실제 CRM 데이터를 사용하여 정확성, 비용, 속도, 신뢰 및 안전의 네 가지 주요 영역에서 15개 정도의 LLM, SLM을 평가하는데 꽤 재밌습니다.

저도 시나리오에 기반한 평가결과를 보았는데요. 제 시나리오는 CRM에서 가장 많이 사용하는 "영업활동 관련 메일 내용을 자동으로 요약하는 과정에 대해 ChatGPT-4o, 소형 Llama 3 8B, Gemini Pro 1.5를 '정확도', '비용', '속도', '신뢰/안전도'를 평가표를 보았습니다.

첨부한 화면을 보시면 잘 이해하실 듯 합니다.
정확도에서는 ChatGPT-4o, 신뢰/안전도 에서는 Gemini Pro 1.5가 근소하게 앞서지만, 전체적인 평가에선 소형모델인 Llama 3 8B가 훨씬 비용 대비 효율적(기업에서 가장 선호하는 핵심평가 요소) 입니다. 비싼 비용과 큰 덩치에 따른 상대적 느린 속도를 가진 LLM의 선택에 신중해 진다는 의미입니다.

물론 특정 시나리오 평가 상황임을 염두하시면서 여러분이 직접 평가표를 참고해 보시면 좋을 듯 합니다.

이런 평가 결과는 조직에 큰 가치를 가지며, 이러한 결과를 활용하여 제품 경쟁력과 고객 경험을 개선할 수 있겠지요.

지난 포스팅에서 강조하여 말씀드렸 듯 이런 벤치마크가 중요한 애플리케이션 공급 빅테크에서 지속적으로 나옴에 따라 헤게모니의 무게중심은 빠르게 변하게 될 것으로 예측해 봅니다.

저 글로벌 대표 LLM들 중에 하이퍼클로바 X는 보이지 않습니다. 제대로 국제 리그 평가전을 치뤄봐야 개선점도 나오고 인지도도 생길텐데요. 그냥 한국만 사용하는 네이버 포털, 카카오 톡처럼 되지 않을까 염려가 됩니다.

(세일즈포스의 CRM용 LLM 벤치마크 대시보드: https://public.tableau.com/app/profile/tableausalesstrategy/viz/LLMBenchmarkforCRM/ResultsOverview)

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 6월 22일 오전 9:34

 • 

조회 1,130

댓글 0

    함께 읽은 게시물

    “직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던가, 이 일이 날 성장시킨다던가, 이 일이 좋다던가, 이게 다 여기에 해당합니다.“ 박웅현 TBWA 코리아 조직문화연구소 소장은 직원들을 조직에 남게하는 방법을 이렇게 제안했다.

    ... 더 보기

    박웅현 TBWA 조직문화연구소장 "모든 직원은 고객, '회사 팬' 만들어야" [뉴시스 포럼-10년후 한국]

    뉴시스

    박웅현 TBWA 조직문화연구소장 "모든 직원은 고객, '회사 팬' 만들어야" [뉴시스 포럼-10년후 한국]

    《현실세계 접점으로서 오프라인이 갖는 우위》

    ... 더 보기

    《성공과 성장이 다르고, 확장과 성장도 달랐다》

    ... 더 보기

    🪄 플레이모어와 함께할 동료를 찾습니다

    ... 더 보기

    플레이모어와 함께할 동료를 찾습니다 | Notion

    playmoreai on Notion

    플레이모어와 함께할 동료를 찾습니다 | Notion

     • 

    저장 7 • 조회 2,733


    《재무자본에서 지적자본으로》

    ... 더 보기

    [광고] 다음 직무 채용 예정입니다.


    - 프러덕트/사업 기획 1인

    - 프러덕트 디자인 1인

    ... 더 보기