[230921] 모두의연구소가 전하는 “모두를 위한 AI 뉴스”

🩵 모두의연구소는 함께 공유하고 성장하는 국내 최대 AI 커뮤니티입니다. 그럼, 오늘의 AI 뉴스 시작해 볼게요! 1️⃣ [PDFTriage: 구조화된 문서에서의 효과적인 질의응답을 위한 새로운 접근 방식](https://huggingface.co/papers/2309.08872) 대규모 언어 모델(LLM)은 문서의 긴 컨텍스트를 처리하는 데 문제가 있어, 질의응답(QA) 작업에서 어려움을 겪습니다. 기존 접근 방식은 문서의 관련 문맥을 일반 텍스트로 변환하는데 초점을 맞추었지만, PDF나 웹 페이지와 같은 구조화된 문서를 처리하는데는 한계가 있습니다. 이를 극복하기 위해 저희는 구조화된 문서의 구조와 콘텐츠를 모두 활용하는 PDFTriage라는 방식을 제안하였습니다. PDFTriage는 실험에서 기존 방식보다 효과적임을 입증하였습니다. 또한, 이 문제에 대한 연구를 지원하기 위해 80개의 구조화된 문서에 대한 900개의 질문을 포함한 벤치마크 데이터 세트를 공개하였습니다. 2️⃣ [CulturaX: 167개 언어를 위한 대규모 다국어 데이터 세트의 개발 및 최적화](https://huggingface.co/papers/2309.09400) 대규모 언어 모델(LLM)의 발전은 큰 모델 크기와 방대한 학습 데이터에 기반하며, 이 모델들은 과학 발전을 촉진하기 위해 종종 공개됩니다. 그러나 대부분의 LLM 학습 데이터는 완전히 공개되지 않아, 모델의 편향 및 오류를 이해하고 교정하기 어렵게 만듭니다. 특히 다국어 학습에 사용되는 데이터 세트는 종종 부적절하게 수집 및 정리됩니다. 이 문제를 해결하기 위해, 167개 언어와 6조 3천억 개의 토큰으로 구성된 CulturaX라는 대규모 다국어 데이터 세트를 개발하였습니다. 이 데이터 세트는 여러 단계의 철저한 클리닝과 중복 제거 프로세스를 거쳐 최적의 품질을 달성하기 위해 맞춤화되었습니다. 3️⃣ [알파미센스 AI 모델을 활용한 ‘미센스’돌연변이 카탈로그의 공개와 그의미](https://www.deepmind.com/blog/alphamissense-catalogue-of-genetic-mutations-to-help-pinpoint-the-cause-of-diseases?utm_source=twitter&utm_medium=social&utm_campaign=AlphaMissense&fbclid=IwAR1e1idMCeWdh2e4wXiHzhAzGDXHBkW0kO7O_RjrCJ8jrvTmqqAJGJcvIwg) 인간 유전학에서 질병의 원인을 밝히는 것은 큰 도전입니다. 연구자들은 '미센스' 돌연변이 카탈로그를 공개했는데, 이는 인간 단백질의 기능에 영향을 주며, 때로는 질병을 유발하는 유전적 돌연변이입니다. 이 카탈로그는 알파미센스라는 AI 모델을 사용하여 개발되었고, 이 모델은 7,100만 개의 미센스 변이 중 89%를 병원성 또는 양성으로 분류했습니다. 이러한 AI 도구를 사용하여 돌연변이의 영향을 예측하면 다양한 연구 분야를 가속화하는 데 도움이 될 수 있습니다. 연구 결과와 알파미센스의 모델 코드는 모두 공개되었습니다. — 🥇 K-디지털 트레이닝 훈련기관 최초! '대통령 표창' 수상한 모두의연구소의 AI학교 아이펠 입학하기 → https://bit.ly/3YDkLV4

AI학교 아이펠 - 부트캠프와 다른 AI학교

AI학교 아이펠

AI학교 아이펠 - 부트캠프와 다른 AI학교

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 9월 20일 오후 11:20

댓글 0