[1106]모두에게 전하는 모두연 AI뉴스!

  • HTML을 직접 활용하여 더 똑똑하게 문서를 참조하는 기법 HtmlRAG

검색 증강 생성(RAG)은 LLM의 성능을 향상시키는 기술로, 주로 웹 검색을 통해 외부 지식을 활용합니다. 기존 RAG 시스템들은 HTML에서 일반 텍스트만 추출하여 사용하기 때문에, 구조적/의미적 정보가 손실되는 문제가 있었습니다. 이를 해결하기 위해 일반 텍스트 대신 HTML을 직접 활용하는 HtmlRAG를 제안하였습니다. 이를 통해 연구진들은 HTML이 문서의 지식을 더 잘 표현할 수 있고, 대부분의 LLM이 HTML을 잘 이해할 수 있다는 장점을 확인할 수 있었습니다. 다만 HTML에는 태그, JavaScript, CSS 등 추가 요소들로 인한 노이즈가 존재합니다. 이러한 문제를 해결하기 위해 HTML 정리, 압축, 가지치기 전략을 도입했으며, 특히 2단계 블록-트리 기반 가지치기 방법을 통해 필요한 HTML 요소만을 선별적으로 유지합니다. 6개의 QA 데이터셋 실험을 통해 이 방식의 우수성을 입증하였습니다.


https://github.com/plageon/HtmlRAG


  • 업채팅에서 그룹활동을 도울 수 있는 힌트를 찾는 기법 Social-RAG

AI 에이전트들이 온라인 협업 공간에서 협업을 촉진시키기 위한 다양한 선제적(proactive) 제안을 하는 방식으로 업무를 돕고 있습니다. 하지만 이런 제안이 그룹의 선호도나 사회적 규범에 항상 맞는 것은 아니며, 오히려 문제가 되기도 합니다. 이를 해결하기 위해 AllenAI 와 워싱턴 주립대학 공동 연구진은 Social-RAG라는 새로운 워크플로우를 제시합니다. 이는 그룹의 이전 상호작용 기록과 사회적 신호를 활용하여 대규모 언어 모델이 그룹에 적합한 메시지를 생성하도록 합니다. 이를 바탕으로 연구진은 PaperPing이라는 시스템을 개발했는데, 이는 39명의 연구자들과의 연구를 통해 확인된 사회적 신호를 활용하여 그룹 채팅에 학술 논문을 추천합니다. 18개 채널에서 3개월간 시스템을 운영한 결과, 기존 그룹의 사회적 관행을 해치지 않으면서도 관련성 있는 메시지를 전달하여 그룹의 공통 기반을 강화하는데 성공했습니다.


https://arxiv.org/abs/2411.02353


[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정!
AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th

GitHub - plageon/HtmlRAG

GitHub

GitHub - plageon/HtmlRAG

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 11월 6일 오전 6:32

댓글 0