인공지능 스타트업 카타네모가 AI 에이전트 구축에 중요한 함수 호출을 가속화하는 LLM을 오픈 소스로 출시했습니다.
아치-함수-1.5B(Arch-Function-1.5B), 아치-함수-3B(Arch-Function-3B), 아치-함수-7B(Arch-Function-3B)로 총 3가지이고 탈옥 시도를 감지하고 거부하는 기능, 사용자 요청을 처리하기 위해 백엔드 API를 지능적으로 호출하는 기능, 중앙 집중화된 방식으로 프롬프트와 LLM 상호작용의 가시성을 관리하는 기능이 포함된다고 하네요.
'GPT-4'와 비교해 아치-함수-3B는 약 12배의 처리량 향상과 44배의 비용 절감을 제공합니다.
Core feature는 아래와 같습니다.
Built on Envoy: Arch runs alongside application servers, and builds on top of Envoy's proven HTTP management and scalability features to handle ingress and egress traffic related to prompts and LLMs.
Function Calling for fast Agentic and RAG apps. Engineered with purpose-built LLMs to handle fast, cost-effective, and accurate prompt-based tasks like function/API calling, and parameter extraction from prompts.
Prompt Guard: Arch centralizes prompt guardrails to prevent jailbreak attempts and ensure safe user interactions without writing a single line of code.
Traffic Management: Arch manages LLM calls, offering smart retries, automatic cutover, and resilient upstream connections for continuous availability.
Standards-based Observability: Arch uses the W3C Trace Context standard to enable complete request tracing across applications, ensuring compatibility with observability tools, and provides metrics to monitor latency, token usage, and error rates, helping optimize AI application performance.
Envoy위에 구축되었고 사용언어는 Rust입니다.
arch는 'Ai Gateway'라는 점을 강조하고 있는데요.
ai 서비스를 사용하는 회사엔 중앙 "Gen AI 팀"이 생겨났습니다. 이 Gen AI 팀은 나머지 회사가 원하는 AI 기능이나 제품을 구축하는 데 사용하는 서비스를 구축합니다.
이러한 서비스를 구축하려면 속도 제한, 액세스 규칙과 같은 기존 API 게이트웨이 기능과 여러 LLM 공급자에 대한 범용 API, 범용 라우팅, 중앙 가드레일, AI 기반 관찰 기능 + 다른 이해 관계자를 위한 중앙 대시보드 등과 같은 AI 전용 기능이 필요한데 이것을 Ai Gateway가 제공합니다.
Langchain/Llamaindex 등의 솔루션도 여기 어딘가에 적합하지만 LLM API의 "운영" 관련 문제에 대한 전담 서비스를 제공하는 것은 많은 조직에서 좋은 관행으로 받아들이고 있는 추세입니다. 관심있는 분은 한번 체험해 보시는 것도 좋을 것 같습니다.
https://github.com/katanemo/arch
https://huggingface.co/katanemo
https://www.aitimes.com/news/articleView.html?idxno=164291