Star attention
트랜스포머 기반 대규모 언어 모델(LLM)의 긴 시퀀스 추론은 Self attention 메커니즘의 이차 복잡도로 인해 비용과 속도 측면에서 비효율적입니다. 이를 해결하기 위해 NVidia의 연구자들이 Star attention 을 제안하였습니다. Star attention 은 두 단계의 블록-희소 근사화 접근법으로, 첫 번째 단계에서는 호스트 간 block local attention 을 병렬로 처리하고, 두 번째 단계에서는 쿼리 및 응답 토큰이 sequance global attention 을 통해 이전 캐시된 토큰에 주의를 기울입니다. 결과적으로, 연구자들은 메모리 요구 사항과 추론 시간을 최대 11배 줄이면서도 95-100%의 정확성을 유지할 수 있는 효율적인 방법을 제시했습니다.
https://arxiv.org/pdf/2411.17170
Monotonic attention
스트리밍 생성 모델, 특히 트랜스듀서 아키텍처는 산업 응용 분야에서 널리 사용되고 있지만, 입력-동기화 디코딩 메커니즘으로 인해 동시 번역과 같은 비단조적 정렬이 필요한 작업에서 성능 한계가 있었습니다. 중국 과학원 외 공동 연구자들은 학습 가능한 monotonic attention 메커니즘을 도입하여 이 문제를 해결합니다. 순방향-역방향 알고리즘을 통해 예측기 상태와 입력 타임스탬프 간 정렬의 사후 확률을 추론하고, 이를 통해 모델이 예측에 기반하여 attention 범위를 적응적으로 조정할 수 있게 합니다. 실험 결과, 제안된 MonoAttn-Transducer는 스트리밍 생성에서 비단조적 정렬 처리 능력을 크게 향상시켜, 트랜스듀서 기반 프레임워크의 복잡한 작업 수행 가능성을 보여주었습니다.
https://github.com/ictnlp/MonoAttn-Transducer
[아이펠 12기] 2024 마지막 개강
AI 입문부터 활용까지! 코어과정 & 논문으로 완성하는 리서치과정:
https://bit.ly/40T8YFx
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 11월 27일 오전 6:05