Paper page - ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
huggingface.co
시각-시간적 컨텍스트 프롬프팅: Minecraft 정복! 새로운 에이전트 아키텍처의 탄생
이 논문에서는 시각-시간적 컨텍스트 프롬프팅이라는 새로운 계층적 에이전트 아키텍처를 제안합니다. 이 아키텍처는 개방형 세계 상호 작용의 과제를 해결하기 위해 고안되었으며, 특히 시각적 관찰과 시간적 맥락을 활용하여 저수준 정책 모델과 고수준 추론기(예: 대규모 언어 모델) 간의 효율적인 의사 소통을 가능하게 합니다. Minecraft 환경에서 수행된 실험에서는 이 접근 방식을 사용하여 학습된 에이전트가 기존 방법으로는 달성할 수 없었던 복잡한 작업을 완료할 수 있음이 입증되었습니다. 이러한 결과는 제안된 프레임워크가 개방형 세계 환경에서 구현된 의사 결정을 위한 유망한 방향임을 시사합니다.
https://huggingface.co/papers/2410.17856
더 이상 어려운 심전도 해석은 없다! PULSE가 선사하는 정확하고 빠른 진단
이 논문은 심전도(ECG) 이미지 해석을 위해 특별히 설계된 새로운 다중 모드 대규모 언어 모델(MLLM)인 PULSE를 소개합니다. 이 모델은 100만 개 이상의 샘플을 포함하는 새로운 대규모 ECG 이미지 명령어 튜닝 데이터 세트인 ECGInstruct에서 미세 조정되었습니다. ECGInstruct는 다양한 ECG 관련 작업을 다루며 다양한 데이터 소스에서 가져온 것입니다. 저자들은 또한 9개의 서로 다른 데이터 세트에서 4가지 주요 ECG 이미지 해석 작업을 다루는 새로운 평가 벤치마크인 ECGBench를 제시합니다. 실험 결과, PULSE는 여러 도메인 내 및 도메인 외 데이터 세트에서 최첨단 성능을 달성하여 독점 MLLM과 오픈 소스 MLLM 모두를 능가하는 것으로 나타났습니다. 특히 PULSE는 도메인 외 데이터 세트에서 GPT-40에 비해 평균 정확도가 15%에서 30% 향상되었습니다. 이 연구는 임상 응용 분야에서 ECG 이미지 분석 및 해석을 개선하기 위한 MLLM을 사용할 수 있는 가능성을 강조합니다.
https://huggingface.co/papers/2410.19008
[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정! AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 28일 오전 7:12
첫 회사에서 5년 정도 보낸 후 대기업이 가보고 싶다는 생각이 들었습니다.
... 더 보기A
... 더 보기