새로운 소식이 넘치는 ‘GTC 2025’ 하이라이트 - NVIDIA Blog Korea
NVIDIA Blog Korea
모두의연구소는 지식을 나누며 함께 성장하는 국내 최대 SW/AI 커뮤니티입니다.
🗞️ SW/AI 한줄 뉴스
1. "기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장
https://www.aitimes.com/news/articleView.html?idxno=158785
2. 오픈AI, 'GPT-4 터보' 대폭 업그레이드..."클로드3·제미나이 성능 뛰어 넘어"
https://www.aitimes.com/news/articleView.html?idxno=158777
-
🤵♂️ 빠르다 빨라 AI 세상
1. RHO-1: SLM을 적용해 수학 task에서 최대 30%의 성능 향상 달성
이 논문은 언어 모델 사전학습 시 모든 토큰에 균일하게 next-token prediction loss를 적용하는 기존 방식과 달리, 전체 토큰 중 유용한 토큰만 선택적으로 학습하는 Selective Language Modeling (SLM) 기법을 제안합니다. SLM은 reference 모델로 사전학습 토큰의 excess loss를 계산하고, 높은 excess loss를 갖는 토큰에 집중해 학습을 진행합니다. 15B OpenWebMath corpus에서 지속적 사전학습 시, SLM을 적용한 RHO-1 모델이 9개 수학 task에서 최대 30%의 성능 향상을 보였으며 Fine-tuning 후에는 RHO-1-1B와 7B 모델이 MATH 데이터셋에서 SOTA를 달성했습니다. 이는 사전학습 토큰의 3%만 사용한 DeepSeekMath 모델과 견줄만한 성능이며 80B 일반 토큰에서 사전학습 시에도 RHO-1이 15개 다양한 task에서 평균 6.8%의 성능 향상을 보여, 언어 모델 사전학습의 효율성과 성능을 모두 높였습니다
https://huggingface.co/papers/2404.07965
2. RecurrentGemma-2B: Griffin 아키텍처로 성능과 효율성을 높인 언어 모델
이 논문은 Griffin 아키텍처를 활용한 RecurrentGemma-2B 언어 모델을 소개합니다. Griffin은 linear recurrence와 local attention을 결합하여 성능을 높이고, 고정 크기의 state로 메모리 사용량을 줄이며 긴 시퀀스에서 효율적인 추론이 가능합니다. RecurrentGemma-2B는 Gemma-2B와 견줄만한 성능을 보이면서도 더 적은 토큰으로 학습되어씅며 사전학습 및 instruction tuning된 체크포인트를 제공합니다. RecurrentGemma-2B는 자동 벤치마크와 인간 평가에서 우수한 결과를 얻었으며 긴 시퀀스에서 Gemma보다 더 빠른 추론 속도를 달성했습니다. 이 모델은 제한된 리소스 환경에서 고성능 소형 언어 모델의 새로운 활용 가능성을 열어줄 것으로 기대됩니다!
https://huggingface.co/papers/2404.07839
-
🦸♂️ 오늘의 SW 스피드웨건
1. Microsoft가 React Native로 개발하는 이유
마이크로소프트는 자체 개발한 프레임워크가 있음에도 불구하고 크로스 플랫폼 개발을 위해 React Native를 활용하고 있습니다. Microsoft의 소프트웨어 엔지니어 로렌조 시안드라는 React Native를 선택한 이유로 자바스크립트 개발자의 접근성과 기존 코드베이스에 쉽게 통합할 수 있는 '브라운필드 개발' 방식을 들었습니다. 이는 Office, Outlook, Teams 등 다양한 애플리케이션에서 사용되고 있습니다.
https://devclass.com/2024/04/11/react-native-and-why-microsoft-uses-it-for-its-own-cross-platform-development/
2. 파이썬으로 프록시 확인을 하는 방법 (aiohttp)
이 글에서는 파이썬 라이브러리인 requests, Selenium, BeautifulSoup, NumPy를 사용하여 파이썬 프록시 스크래퍼를 구현하는 방법을 단계별로 설명합니다. 프록시 서버를 통해 IP를 숨기고 데이터를 수집할 수 있으며, AIOHTTP 라이브러리를 이용한 비동기 HTTP 통신도 다룹니다. 또한, 효율적인 프록시 스크래핑을 위해 Bright Data의 프록시 네트워크 사용을 권장합니다.
https://dspyt.com/easy-proxy-scraper-and-proxy-usage-in-python
-
🤖 AI학교 아이펠 온라인 8기 ► https://bit.ly/3T1rC8r
📊 AI학교 아이펠 데이터 사이언티스트 온라인 과정 ► https://bit.ly/3JjDKNu
💻 오름캠프 Django 백엔드 개발 과정 온라인 과정 ► https://bit.ly/3UdtWej
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 4월 16일 오전 3:02
•
조회 979
저의 첫 멘토는 하청 업체에서 고용한 프리랜서 개발자였습니다.
... 더 보기2
... 더 보기Vibe Coding이라는 단어와 'AI가 개발자를 대체할 수 있을까?'라는 질문에 대한 생각
... 더 보기M
... 더 보기Q
... 더 보기