HoJoong Kim

Senior IT guy

[Neptune.AI]LLMOps의 관측 가능성: 다양한 수준의 규모

통합 가시성은 성공적이고 비용 효율적인 LLMOps의 핵심입니다. 기반 모델을 훈련하는 데는 많은 비용과 시간이 소요되며 인프라 장애가 불가피한 규모에서 발생하므로 세분화된 통합 가시성이 핵심 요구사항이 됩니다.

< LLMOps의 가치 사슬 >

LLMOps를 고려 때 기초 모델 훈련부터 에이전트 네트워크 생성에 이르기까지 전체 가치 사슬을 고려합니다. 각 단계마다 통합 가시성 요구 사항이 다르며 서로 다른 규모의 통합 가시성 도구와 인프라가 필요합니다.
사전 교육은 의심할 여지 없이 가장 비용이 많이 드는 활동입니다. 이러한 사전 교육을 위한 대규모환경에서 통합 가시성을 구현하는 것은 어렵지만 트레이닝과 비즈니스 성공을 위해 필수적입니다.
LLMOps 가치 사슬의 트레이닝 이후 단계에서는 비용이 덜 중요합니다.
- RLHF는 상대적으로 저렴하기 때문에 인프라 및 통합 가시성 도구에 대한 지출 부담이 적습니다.
- LLM을 처음부터 훈련하는 것에 비해 미세 조정에는 훨씬 적은 리소스와 데이터가 필요하므로 통합 가시성에 대한 요구가 낮고 경제적인 활동입니다.
검색 증강 생성(RAG) 시스템에는 벡터 데이터베이스와 임베딩이 추가되며, 여기에는 전용 통합 가시성 도구가 필요합니다. 대규모로 운영될 경우 검색 관련성을 평가하는 데 많은 비용이 소요될 수 있습니다.
LLM 에이전트와 에이전트 네트워크는 여러 검색 및 생성 구성 요소의 상호 작용에 의존하며, 요청을 추적할 수 있으려면 이 모든 요소를 계측하고 모니터링해야 합니다.

< LLM 사전 교육의 확장성 동인 >

기초 모델 훈련은 엄청나게 비용이 많이 듭니다. 3개월 동안 LLM을 훈련하는 데 5억 달러의 비용이 든다고 가정해 보겠습니다. 단 하루만 훈련에 실패해도 무려 5백만 달러 이상의 비용이 발생합니다.
수천 대의 머신에서 수만 대의 GPU를 장시간 실행하면 필연적으로 하드웨어 장애와 네트워크 문제가 발생할 수밖에 없습니다. 이러한 문제를 조기에 식별(또는 이상적으로는 예측)할 수 있을수록 다운타임과 데이터 손실을 더 효과적으로 방지할 수 있습니다.
기초 모델을 훈련하는 데는 오랜 시간이 걸립니다. 리소스를 더 효율적으로 사용할 수 있다면 교육 속도를 높일 수 있습니다. 따라서 우리는 모델의 레이어가 어떻게 진화하는지 추적하고, 이상적으로는 단일 GPU 코어 수준에서 세분화된 GPU 메트릭을 확보하고자 합니다.
병목 현상과 비효율성을 이해하면 시간과 비용을 절약하는 데 도움이 됩니다.

< RAG 통합 가시성 과제 >

검색 증강 생성(RAG)은 오늘날 많은 LLM 애플리케이션의 근간을 이루고 있습니다.
사용자의 쿼리를 임베드하고 벡터 데이터베이스에서 관련 정보를 검색한 다음 이를 컨텍스트로서 LLM에 전달하면 됩니다. 그러나 꽤 많은 구성 요소가 함께 작동해야 하며 임베딩은 사람이 이해하기 어려운 데이터 유형입니다.
요청 추적은 RAG 통합 가시성의 핵심입니다. 이를 통해 임베딩 절차를 관찰하고 쿼리에 어떤 컨텍스트가 어떻게 추가되는지 검사할 수 있습니다. LLM 평가를 활용하여 반환된 문서와 생성된 답변의 검색 성능과 관련성을 분석할 수 있습니다.
확장성과 비용 측면에서 보면 품질이 낮은 결과를 식별하고 이에 최적화 노력을 집중하는 것이 이상적일 것입니다. 하지만 실제로는 검색 결과를 평가하는 데 상당한 시간이 걸리기 때문에 결국 모든 추적을 저장하게 되는 경우가 많습니다.

< 에이전트 네트워크의 통합 가시성을 향해 >

LLM 에이전트에서 관찰 가능성을 확보하려면 지식창고의 쿼리, 메모리 액세스 및 도구 호출을 추적해야 합니다. 그 결과 텔레메트리 데이터의 양은 에이전트의 한 구성 요소에 불과한 RAG 시스템보다 훨씬 더 많습니다.
에이전트 네트워크는 이러한 복잡성을 한 단계 더 발전시킨 것입니다. 여러 에이전트를 그래프로 연결하여 분산 시스템을 만듭니다. 이러한 네트워크를 관찰하려면 추적을 검색할 수 있는 방식으로 에이전트 간의 통신을 추적해야 합니다.

source: https://neptune.ai/blog/observability-in-llmops?utm_source=linkedin&utm_medium=newsletter&utm_campaign=newsletter-august-2024

Observability in LLMOps: Different Levels of Scale

neptune.ai

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 8월 31일 오전 8:29

저장 3 • 조회 1,701

함께 읽은 게시물

Arawn Park

Senior Engineer & Engineering Lead

6일 전

넷플릭스는 왜 WebFlux를 사용하지 않을까?

십

넷플릭스는 왜 WebFlux를 사용하지 않을까?

kr.linkedin.com

저장 14 • 조회 1,728

장홍석

스페이스오디티 부대표/CPO

하루 전

< 혁신의 첫 반응은 '박수'가 아니라 '야유'다 >

댓글 1 • 저장 1 • 조회 342

강재상

스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

7월 31일

초중고딩 어렸을 적 과학시간에 석유와 석탄이 만들어지는 원리와 과정을 배울 때마다 이해가 되지 않아서 그냥 외웠었다. 석유는 공룡을 비롯 동물이 죽어서 만들어지고 석탄은 식물이 죽어서 만들어진다고 배웠는데, 석탄이야 식물이 워낙 많았고 죽으면 자연스럽게 땅에 묻히니 그럴 수도 있겠다 이해가 되었지만, 석유는 아무리 생각해도 말이 안되었다. 동물이 화석이 될 확율이 극도로 낮다는 점을 생각하면 동물이 한꺼번에 같은 장소에서 갑자기 많이 죽어서 결국 석유까지 될 확율은 매장되어 있는 석유량을 볼 때 더 말이 안된다고 생각했기 때문이다. 그래서 배울 때마다 당시 과학선생님들께 이해가 안된다고 질문을 드렸으나 속시원한 답을 들어본 적은 없었다. 그렇게 10대에 그 궁금증을 묻고 지금까지 잊고 살았다. 그러다 우연히 생각나서 찾아보니...

비행기가 나는 과학적 원리와 마찬가지로 과학자들조차 속 시원하게 설명하기 어려운 질문 중 하나라고 한다. 많은 학설 중 다수의 과학자와 전문가들이 동의하는 하나는 바다 미생물 이론인데, 이 이야기는 들으면서 고개가 끄덕여질 정도로 납득이 되더라.

저장 1 • 조회 947

이원형

라인플러스 소프트웨어 엔지니어

7월 26일

인프라 엔지니어의 교과서 개정 2판

근

저장 4 • 조회 2,182

김문수

토스 데이터 엔지니어 | ex-뱅크샐러드

4일 전

토스 데이터 직군 집중 채용 - 면접만 봐도 100만원!

토

토스 DATA·ML 집중채용

toss.im

저장 2 • 조회 1,788

강재상

스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

하루 전

많은 분들이 찾아주시면서 입소문이 났는지 계속 개설 요청이 이어지네요. 지난 3기가 7월 20일경에 끝났는데 개설 요청으로 인해 8월말에 4기를 진행하는 것으로 결정했습니다. 재무재표를 통해 산업과 시장을 읽고, 기업과 사업모델을 파악하고, 나아가 나의 사업

[B라운지] 4주만에 재무제표 기초 정복하기 (4기) : PBR

www.pbr.kr

저장 1 • 조회 310

비슷한 게시물

dmffe 부트캠프 ㅇ

ㄴㅇㄹㄴㅇㄹ

HoJoong Kim Senior IT guy

[LLM Watch] 스스로 발전하고 있는 LLMs

백선환 AWS/ AIML Specialist

RAG 평가 메커니즘을 설계하는 새로운 방법

골빈해커 Chief Maker

📝 LLM 할루시네이션을 10배 감소 시키는 메모리 튜닝

지니 데이터 분석 | 데이터 사이언스

Google summit 2024 Review

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0814]모두에게 전하는 모두연 AI뉴스!

주간 인기 TOP 10

골빈해커 Chief Maker

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?”

김의중 프론트엔드 개발자

Claude Code 실전 가이드: AI 네이티브 개발자로 가는

Arawn Park Senior Engineer & Engineering Lead

넷플릭스는 왜 WebFlux를 사용하지 않을까?

psmon 블룸에이아이 서버 엔지니어

카프카를 우아하게 사용하기 -코틀린편

달레 Apollo GraphQL Software Engineer

알아 알아 알아! 🤣

장홍석 스페이스오디티 부대표/CPO

< 몇 번 졌는지는 중요하지 않다, 인생은 결국 득실차다 >

황경찬(Boaz) P.E.C CEO

"AI가 코드를 짜는 시대, 개발자의 가치는 무엇일까요?" 최근

정종윤 네이버 프론트엔드 개발자

👻 클라이언트에서 안전한 소셜 로그인 구현을 위한 OIDC와 PK

박승규 카카오계열사에서 이것저것 만드는 개발자

책이 출판되기 전 마지막 교정을 하고 있는데... GPT5가 출시

석민 커리어 코치

백엔드 개발자 이력서 고민

[Neptune.AI]LLMOps의 관측 가능성: 다양한 수준의 규모

댓글 0

함께 읽은 게시물

넷플릭스는 왜 WebFlux를 사용하지 않을까?

< 혁신의 첫 반응은 '박수'가 아니라 '야유'다 >

인프라 엔지니어의 교과서 개정 2판

토스 데이터 직군 집중 채용 - 면접만 봐도 100만원!

비슷한 게시물

주간 인기 TOP 10

추천 프로필