SK하이닉스의 RAG 플랫폼 구축 및 성능 평가/분석 연구 사례

GenAI 응용 분야에서 정확한 응답을 생성/제공하기 위해 지식 데이터를 사용하는 RAG 기술이 점점 더 많이 도입되고 있으며, 사용하는 데이터 크기도 지속적으로 증가할 것으로 예상됩니다. 하이닉스는 AWS Cloud 환경에서 RAG 시스템을 구축하여 성능 평가를 진행해 본 결과 다음과 같은 특징과 고려 사항을 확인하였습니다.


  1. RAG Inference는 기존 LLM 서비스 대비 지식 데이터 검색을 수행해야 하며, 이에 의해서 TTFT(Time-To-First-Token)가 약 30% 증가됩니다. LLM에 의한 응답 생성 성능과 함께 검색 성능도 중요한 요소입니다.


  1. 데이터 셋이 커지게 되면, 벡터 데이터 인덱스를 위한 메모리 사용이 증가할 뿐만 아니라, 검색 시간이 상승하여 TTFT도 동반 상승하게 됩니다.


  1. 특히, 벡터 데이터 인덱스를 위한 메모리 용량이 부족한 경우 스토리지로부터 인덱스를 읽어서 검색 시간이 급격히 증가할 수 있습니다.


실험 결과 데이터 셋이 커지고, 사용자 수가 증가할수록 검색 시간이 상승하여 TTFT 를 포함 전체 성능에 영향을 미치는 것을 확인하였습니다. 이와 같은 상황에서 검색 성능을 보전 또는 개선하기 위해서는 Amazon OpenSearch, 즉 벡터 검색 시스템을 Scale-up 또는 Scale-out 하는 방법이 권장되고 있는데, 이는 비용 상승으로 이어집니다. 단순히 시스템 확장으로만 대응하기보다는 성능과 비용을 고려한 최적화 솔루션에 대한 검토가 필요합니다.


24년 11월에 Amazon OpenSearch에도 Disk-based vector search 알고리즘이 추가되어 실 서비스 중입니다. Disk-based vector search 알고리즘은 In-memory 알고리즘 대비, 비용 및 성능 최적화 관점에서 활용 빈도가 상승 될 것으로 전망되어, 관련 기술에 대한 검토가 함께 필요할 것으로 예상됩니다.


https://aws.amazon.com/ko/blogs/tech/sk-hynix-rag-platfrom-analysis-evaluation/

SK하이닉스의 RAG 플랫폼 구축 및 성능 평가/분석 연구 사례 | Amazon Web Services

Amazon Web Services

SK하이닉스의 RAG 플랫폼 구축 및 성능 평가/분석 연구 사례 | Amazon Web Services

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 2월 24일 오후 2:43

댓글 0