[Neptune.AI]LLMOps의 관측 가능성: 다양한 수준의 규모

통합 가시성은 성공적이고 비용 효율적인 LLMOps의 핵심입니다. 기반 모델을 훈련하는 데는 많은 비용과 시간이 소요되며 인프라 장애가 불가피한 규모에서 발생하므로 세분화된 통합 가시성이 핵심 요구사항이 됩니다.


< LLMOps의 가치 사슬 >

  • LLMOps를 고려 때 기초 모델 훈련부터 에이전트 네트워크 생성에 이르기까지 전체 가치 사슬을 고려합니다. 각 단계마다 통합 가시성 요구 사항이 다르며 서로 다른 규모의 통합 가시성 도구와 인프라가 필요합니다.

  • 사전 교육은 의심할 여지 없이 가장 비용이 많이 드는 활동입니다. 이러한 사전 교육을 위한 대규모환경에서 통합 가시성을 구현하는 것은 어렵지만 트레이닝과 비즈니스 성공을 위해 필수적입니다.

  • LLMOps 가치 사슬의 트레이닝 이후 단계에서는 비용이 덜 중요합니다.

    • RLHF는 상대적으로 저렴하기 때문에 인프라 및 통합 가시성 도구에 대한 지출 부담이 적습니다.

    • LLM을 처음부터 훈련하는 것에 비해 미세 조정에는 훨씬 적은 리소스와 데이터가 필요하므로 통합 가시성에 대한 요구가 낮고 경제적인 활동입니다.

  • 검색 증강 생성(RAG) 시스템에는 벡터 데이터베이스와 임베딩이 추가되며, 여기에는 전용 통합 가시성 도구가 필요합니다. 대규모로 운영될 경우 검색 관련성을 평가하는 데 많은 비용이 소요될 수 있습니다.

  • LLM 에이전트와 에이전트 네트워크는 여러 검색 및 생성 구성 요소의 상호 작용에 의존하며, 요청을 추적할 수 있으려면 이 모든 요소를 계측하고 모니터링해야 합니다.


< LLM 사전 교육의 확장성 동인 >

  • 기초 모델 훈련은 엄청나게 비용이 많이 듭니다. 3개월 동안 LLM을 훈련하는 데 5억 달러의 비용이 든다고 가정해 보겠습니다. 단 하루만 훈련에 실패해도 무려 5백만 달러 이상의 비용이 발생합니다.

  • 수천 대의 머신에서 수만 대의 GPU를 장시간 실행하면 필연적으로 하드웨어 장애와 네트워크 문제가 발생할 수밖에 없습니다. 이러한 문제를 조기에 식별(또는 이상적으로는 예측)할 수 있을수록 다운타임과 데이터 손실을 더 효과적으로 방지할 수 있습니다.

  • 기초 모델을 훈련하는 데는 오랜 시간이 걸립니다. 리소스를 더 효율적으로 사용할 수 있다면 교육 속도를 높일 수 있습니다. 따라서 우리는 모델의 레이어가 어떻게 진화하는지 추적하고, 이상적으로는 단일 GPU 코어 수준에서 세분화된 GPU 메트릭을 확보하고자 합니다.

  • 병목 현상과 비효율성을 이해하면 시간과 비용을 절약하는 데 도움이 됩니다.


< RAG 통합 가시성 과제 >

  • 검색 증강 생성(RAG)은 오늘날 많은 LLM 애플리케이션의 근간을 이루고 있습니다.

  • 사용자의 쿼리를 임베드하고 벡터 데이터베이스에서 관련 정보를 검색한 다음 이를 컨텍스트로서 LLM에 전달하면 됩니다. 그러나 꽤 많은 구성 요소가 함께 작동해야 하며 임베딩은 사람이 이해하기 어려운 데이터 유형입니다.

  • 요청 추적은 RAG 통합 가시성의 핵심입니다. 이를 통해 임베딩 절차를 관찰하고 쿼리에 어떤 컨텍스트가 어떻게 추가되는지 검사할 수 있습니다. LLM 평가를 활용하여 반환된 문서와 생성된 답변의 검색 성능과 관련성을 분석할 수 있습니다.

  • 확장성과 비용 측면에서 보면 품질이 낮은 결과를 식별하고 이에 최적화 노력을 집중하는 것이 이상적일 것입니다. 하지만 실제로는 검색 결과를 평가하는 데 상당한 시간이 걸리기 때문에 결국 모든 추적을 저장하게 되는 경우가 많습니다.


< 에이전트 네트워크의 통합 가시성을 향해 >

  • LLM 에이전트에서 관찰 가능성을 확보하려면 지식창고의 쿼리, 메모리 액세스 및 도구 호출을 추적해야 합니다. 그 결과 텔레메트리 데이터의 양은 에이전트의 한 구성 요소에 불과한 RAG 시스템보다 훨씬 더 많습니다.

  • 에이전트 네트워크는 이러한 복잡성을 한 단계 더 발전시킨 것입니다. 여러 에이전트를 그래프로 연결하여 분산 시스템을 만듭니다. 이러한 네트워크를 관찰하려면 추적을 검색할 수 있는 방식으로 에이전트 간의 통신을 추적해야 합니다.


  • source: https://neptune.ai/blog/observability-in-llmops?utm_source=linkedin&utm_medium=newsletter&utm_campaign=newsletter-august-2024

Observability in LLMOps: Different Levels of Scale

neptune.ai

Observability in LLMOps: Different Levels of Scale

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 31일 오전 8:29

댓글 0