제품 스쿼드의 스크럼 프로세스 개선기 1부
Medium
더 빠른 Apple의 어텐션, FLASHSIGMOID
Apple 연구진들이 개량된 Attention mechanism을 깊게 연구한 내용을 소개하였습니다. Attention mechanism의 weight 계산은 Key, query의 dot product의 softmax로 얻어지는데, 이를 relu나 sigmoid로 대체할 수 있는지 여러 연구자들이 연구를 진행해왔습니다. Apple 연구진은 이 중 Sigmoid attention을 심층적인 이론적, 실증적 분석을 통해 재검토하였습니다. 그 결과, Sigmoid attention을 차용한 transformer가 기존에 비해 정규성을 향상시켰음을 발견하였습니다. 또한, 학습 초기 단계에서 attention norm을 안정시킬 때, 이전의 attention mechanism에 시도되었던 다른 활성화 함수를 sigmoid가 능가할 수 있음을 증명하였습니다. 연구자들은 이 매커니즘에 하드웨어를 고려한 설계로 메모리 효율적인 기법을 도합하여, 새로운 텐션 기법인 FLASHSIGMOID를 소개하였습니다. 이는 기존 연구 FlashAttention2보다 17% 정도 더 빠르게 추론 속도를 개선시켰습니다. 연구자들은 다른 연구자들이 직접 FLASH SIGMOID를 사용할 수 있도록, Github repository를 통해 코드를 공개하였습니다
https://arxiv.org/pdf/2409.04431
진화하는 instruction dataset framework, MMEvol
사용자가 지시한 작업을 수행하는 인공지능 에이전트의 개발을 위해서는 주변 환경을 파악한 뒤 순차적인 작업순서를 파악하는 능력이 중요합니다. 하지만 이런 능력을 학습하기 위한 instruction data의 양과 질이 충분하지 않았으며, 데이터의 수집과 생성은 시간이 많이 걸리고 비효율적입니다. 이에 중국과학원과 알리바바그룹의 공동 연구진이 다양하고 복잡한 instruction data를 생성하는 프레임워크, MMEvol을 제안하였습니다. 연구자들이 MS COCO, SAM 등 다양한 벤치마크에서 재생산한 초기 데이터셋 SEED-163K로부터, instruction data는 인지적 추론, 상호작용과 세밀한 인지 세개의 방향으로 '진화'합니다. 반복적으로, 복합적으로 진화한 instruction data는 다양성이 확대되며 시각적 이해와 견고성을 개선하기 위해 이미지에서 상세한 정보를 추출합니다. 연구자들은 새로운 데이터셋으로 LLaVA-NeXT를 훈련시키고 13가지 시각-언어 작업에 걸쳐 실험을 수행하였으며, 복합적으로 이전 대비 평균 정확도를 3.1포인트 향상시켰으며, 이 중 9개 작업에서 최첨단(SOTA) 성능을 달성했습니다.
https://arxiv.org/pdf/2409.05840
이론과 실무를 잇-다!
데이터로 비즈니스 가치를 만드는 데이터 사이언티스트 전문 과정 모집 중 : https://bit.ly/3YBFXNf
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 10일 오전 7:02
1. 오랜만에 만난 사람은 늘 어색하다. 뭔가 말을 건네야 한다. 인사 없이 지나가긴 애매하다. 하지만 대화 주제는 많지 않다. 날씨, 뉴스 얘기 몇 마디는 어떻게 해본다. 하지만 가장 어려운 건 마무리다.