[240207] 모두의연구소가 전하는 “모두를 위한 SW/AI 뉴스”

모두의연구소는 지식을 나누며 함께 성장하는 국내 최대 AI 커뮤니티입니다. 1. GDB의 Python API를 사용하여 데이터를 캐시하는 방법 이 글은 GNU Debugger(GDB)의 Python API를 사용해 다양한 객체 유형에 대한 정보를 캐시하는 방법을 설명합니다. 일부 객체 유형은 데이터 캐싱을 위한 특별한 지원을 제공하지만, 다른 객체 유형의 경우 캐시된 데이터를 관리하기 위해 추가 작업이 필요합니다. 이는 시간에 민감한 정보를 기록하거나 계산 비용이 높은 정보를 한 번만 계산해 성능을 향상시키는 데 유용합니다. https://developers.redhat.com/articles/2024/02/05/how-cache-data-using-gdbs-python-api 2. Apple이 수십억 개의 데이터베이스를 저장하기 위해 iCloud를 구축한 방법 애플은 자사의 iCloud와 CloudKit 서비스를 위해 FoundationDB와 Cassandra를 사용하며, 극단적인 멀티-테넌트 아키텍처에서 수십억 개의 데이터베이스를 저장합니다. 이 글에서는 애플의 인프라 구축에 대해 다룹니다. https://news.hada.io/topic?id=13204 3. BooTSTAP Boosting Tracking-Any-Point 구글 딥마인드와 옥스포드 VGG에서 비디오에서 물체를 추적하는 Traking any point 계열의 새 연구 논문을 발표했습니다. 두 기관은 물체 표면에 해당하는 지점에 대해 임의 추적하는 물리적으로 이해도가 높은 모델을 만드는 연구를 진행해왔었는데요, 기존 연구에 이어 이번 연구에서는 기존 구조의 변경을 최소화하며 성능의 개선을 이루어냈습니다. 이는 라벨이 없는 대규모 데이터에 대해 Bootstraping과, self-supervisedstudent-teacher 부트스트래핑을 사용하는 방법이며, 기존 연구의 문제점이었던 tracking point의 순간이동이 없는, 안정적인 트래킹을 수행하며 SOTA를 기록했습니다. 해당 태스크는 로보틱스, 이미지의 3D 재구성 등에 활용될 수 있습니다. https://arxiv.org/abs/2402.00847 4. StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback LLM의 발전에 발맞춰 큰 발전을 이룬 코드 생성 분야에서는 생성된 코드 품질을 향상하기 위해, 컴파일러 피드백을 사용하는 강화학습 연구가 활발히 진행되어왔습니다. 하지만 요구사항이 복잡해질수록 생성하는 코드가 길어져 LLM이 최적의 코드를 만들 수 없는 문제가 생깁니다. 또한, 분기에서 사용되지 않는 코드를 LLM이 학습하는 것 또한 효과적이지 않습니다. 이에 스웨덴 왕립 공과대학교와 중국 화중과학기술대학, 푸단대학에서는, 기존의 긴 시퀀스 코드 생성 작업을, 전체 코드 완성을 위한 하위 작업으로 분할하여 세분화된 최적화를 수행할 수 있는 StepCoder를 제안했습니다. 또한, 단위 테스트의 정확성을 보장하기 위해, 연구자들은 단위 내 코드 수행과 관련 없는 코드, 구문 오류, api 오용 혹은 누락된 라이브러리 종속성을 수동으로 제거하여, 7500여개의 강화학습용 데이터셋 APPS+을 구축하였습니다. https://huggingface.co/papers/2402.01391 ---- 국내 최초 Flutter 도서 ‘생존코딩’ 오준석 저자의 마지막 직강! 🔥 놓치지 마세요! ► https://bit.ly/482TuPf

[240207] 모두의연구소가 전하는 “모두를 위한 SW/AI 뉴스”

알림