[0214]모두에게 전하는 모두연 AI뉴스!

  • InfiniteHiP: 대규모 언어 모델의 컨텍스트 길이 300만 토큰으로 확장

이 논문에서는 사전 훈련된 대규모 언어 모델(LLM)에서 최대 300만 개의 토큰에 대한 컨텍스트 길이를 확장하기 위한 새로운 프레임워크인 InfiniteHiP를 제안합니다. InfiniteHiP는 계층적 토큰 프루닝 알고리즘과 RoPE 조정 방법을 사용하여 관련 없는 컨텍스트 토큰을 동적으로 제거합니다. 그 결과 InfiniteHiP는 단일 GPU에서 최대 300만 개의 토큰을 처리할 수 있으며 100만 개의 토큰 컨텍스트에 대해 어텐션 디코딩 속도를 18.95배 향상시킵니다. 추가 훈련 없이 컨텍스트 정보의 영구적인 손실 없이 이러한 성능 향상을 달성합니다.


https://huggingface.co/papers/2502.08910


  • 언어 장벽 없는 AI, 태국어 LLM 발전의 가능성

이 논문에서는 DeepSeek R1과 같은 고급 추론 기능을 태국어 LLM과 같은 언어별 대규모 언어 모델(LLM)에 통합하기 위한 데이터 선택 및 모델 병합 방법론을 연구합니다. 목표는 언어별 LLM의 추론 기능을 향상시키는 동시에 대상 언어 능력을 유지하는 것입니다. DeepSeek R1은 추론 능력이 뛰어나지만 주로 영어와 중국어와 같은 리소스가 풍부한 언어에 도움이 됩니다. 그러나 리소스가 부족한 언어는 영어 중심 교육 데이터와 모델 최적화가 지배적이어서 성능이 제한됩니다. 이러한 제한으로 인해 코드 전환이 불안정하고 리소스가 부족한 언어로 된 작업의 효과가 떨어집니다. 한편 지역 LLM 이니셔티브에서는 지역 언어 충실도를 개선하는 데 중점을 둔 언어별 LLM을 개발하여 이러한 격차를 해소하기 위해 노력해 왔습니다. 이 논문에서는 공개적으로 사용 가능한 데이터 세트와 $120의 계산 예산만으로 대상 언어 작업의 성능을 저하시키지 않고 언어별 LLM의 추론 기능을 DeepSeek R1 수준으로 향상시킬 수 있음을 보여줍니다. 이 연구에서는 언어별 LLM 이니셔티브의 발전을 촉진하기 위해 데이터, 병합 구성 및 모델 가중치를 공개합니다.


https://huggingface.co/papers/2502.09056


2017년부터 가치를 이어온 AI 명문
아이펠리서치 온라인13기 사전등록 : https://bit.ly/4jzwrSS

Paper page - InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU

huggingface.co

Paper page - InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 2월 14일 오전 8:45

댓글 0

    함께 읽은 게시물

    [데이터 분석가가 프로그래밍을 할 줄 알아야 하는 이유]

    데이터 분석에서 데이터를 수집하고 정리하는 과정인 [데이터 전처리]는 업무 시간의 최대 80%를 차지할 정도로 시간이 많이 걸리는 일입니다. 하지만 프로그래밍을 할 줄 아는 데이터 분석가는 아래와 같은 능력을 통해 문제를 효율적으로 해결할수 있습니다. 1. 효율적인 데이터 수집 및 전처리 데이터 분석을 위해서는 먼저 데이터를 수집하고 데이터를 전처리해야 합니다. 이 때 프로그래밍을 사용하면 로우 데이터(Raw Data)를 수집, 집계, 또는 요약하는 복잡한 데이터 전처리 과정을 효율적으로 수행할 수 있... 더 보기

    5쇄! >>ㅑ~ 😆😍🤩 감개무량하네요! 😭😭😭 여러분 감사합니다!! 🙇🏻🙇🏻🙇🏻

    ... 더 보기

    차세대 파이썬 패키지 매니저 uv 소개 영상

    h

    ... 더 보기

    일 잘하는 사람은 AI를 어떻게 쓸까?

    

    ... 더 보기

    애니를 봐도 개발 생각뿐

    "개발은 스스로 생각하고 탐구할 때가 가장 즐거우니까"

    ... 더 보기