[0905]모두에게 전하는 모두연 AI뉴스!

  • 테이블 증강 생성(TAG): 대규모 언어 모델과 데이터베이스 통합을 통한 자연어 쿼리 처리 혁신

테이블 증강 생성(TAG)은 데이터베이스를 통해 자연어 질문에 답하기 위한 통합된 범용 패러다임으로, 기존의 방법들이 충분히 탐색하지 못한 영역을 다룹니다. TAG는 대규모 언어 모델(LM)의 추론 및 지식 기능을 데이터베이스의 계산 능력과 결합하여, 사용자가 임의의 자연어 질문을 사용자 정의 데이터 소스에 대해 할 수 있도록 합니다. 기존의 Text2SQL 및 RAG 방법의 한계를 넘어, TAG는 LM과 데이터베이스 간의 광범위한 상호작용을 탐구하며 새로운 연구 기회를 제공합니다. 연구 결과, 표준 방법이 쿼리의 20% 이하만 처리할 수 있음을 발견하여 이 분야에 대한 추가 연구가 필요함을 강조합니다.


https://arxiv.org/abs/2408.14717


  • LongCite: 문장 수준 인용을 포함한 장문맥 LLM 성능 개선 및 LongCite-45k 데이터 세트

현재의 장문맥 대규모 언어 모델(LLM)은 광범위한 텍스트 기반 질문 응답에서 뛰어난 성능을 보이지만, 응답에 인용이 부족하여 검증이 어렵고 신뢰성 문제가 있습니다. 이를 해결하기 위해, 세분화된 문장 수준의 인용을 포함한 답변을 생성하는 새로운 접근 방식이 제안되었습니다. 자동화된 벤치마크인 LongBench-Cite를 통해 기존 LLM의 성능을 평가하고, 이를 개선하기 위한 CoF(Coarse to Fine) 파이프라인을 도입하여 LongCite-45k 데이터 세트를 구축했습니다. 이 데이터 세트를 바탕으로 LongCite-8B와 LongCite-9B 모델을 학습하여 정확한 응답과 문장 수준 인용을 동시에 생성할 수 있었습니다. 평가 결과, 이 모델들은 GPT-4o를 비롯한 고급 모델을 능가하는 인용 품질을 달성했습니다.


https://huggingface.co/papers/2409.02897


이론과 실무를 잇-다! 데이터로 비즈니스 가치를 만드는 데이터 사이언티스트 전문 과정 모집 중 : https://bit.ly/3YBFXNf

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 5일 오전 6:01

댓글 0