[231026] 모두의연구소가 전하는 “모두를 위한 SW/AI 뉴스”

모두의연구소는 지식을 나누며 함께 성장하는 국내 최대 AI 커뮤니티입니다.


1.VLM의 시각적 오류 분석: HallusionBench를 이용한 접근법


대규모 언어 모델(LLM)은 비전-언어 모델(VLM)로 통합되어 이미지 추론에서 큰 개선을 가져왔습니다. 그러나 VLM은 이미지 컨텍스트 대신 선행 언어에 의존할 수 있으며, 비전 모듈의 약점으로 인해 잘못된 시각적 표현을 생성할 수 있습니다. 이러한 문제를 연구하기 위해 본 연구진은 HallusionBench 벤치마크를 도입하여 VLM의 실수와 개선 방법에 대한 새로운 인사이트를 제공합니다.

https://huggingface.co/papers/2310.14566


2.마트료시카 확산 모델을 활용한 고해상도 이미지 및 비디오 생성


확산 모델은 이미지와 비디오 생성에 유용하지만, 고차원 모델 학습은 여전히 어렵습니다. 본 연구에서는 마트료시카 확산 모델(MDM)을 도입하여 고해상도 이미지와 비디오 합성을 향상시킵니다. MDM은 여러 해상도의 입력을 처리하며, 저해상도에서 고해상도로 점진적인 학습이 가능하게 합니다. 이 방법은 다양한 벤치마크에서 효과적임이 입증되었으며, 최대 1024x1024픽셀 해상도의 이미지 생성과 강력한 제로샷 일반화 능력을 보여줍니다.

https://huggingface.co/papers/2310.15111


3.굿바이, Node.js Buffer 


Node.js에서 'Buffer' 타입은 바이너리 데이터 처리의 핵심이었습니다. 그러나 지금은 'Uint8Array'라는 크로스플랫폼 자바스크립트 타입이 있습니다. Buffer는 Uint8Array의 확장 형태이지만 특정 메서드가 추가되어 브라우저와의 호환성에 문제가 있습니다. Buffer의 'slice' 메서드는 변경 가능한 세그먼트를 생성하는 반면, Uint8Array의 'slice'는 변경 불가능한 복사본을 생성합니다. 이 차이로 인해 예측하기 어려운 동작이 발생할 수 있습니다. 따라서, 안전하게 사용하기 위해서는 'Uint8Array'를 권장하며, Buffer의 특정 메서드 사용을 지양하는 것이 좋습니다.

https://sindresorhus.com/blog/goodbye-nodejs-buffer


4.Uber가 수천개의 마이크로서비스를 멀티 클라우드 플랫폼으로 이전한 방법


매주 Uber에서는 4,500명의 엔지니어와 자율 시스템을 통해 4,000개 이상의 마이크로서비스를 10만 번 이상 배포합니다. 이 서비스들은 전 세계의 수백 개의 팀에 의해 독립적으로 관리되며, 규모와 기능이 다양합니다. 그러나 이러한 서비스들은 공통된 특성을 가지고 있어 배포, 용량 관리 등 여러 측면에서 통합 및 간소화가 가능했습니다. 이 글은 그러한 통합 과정과 효율성에 대해 다룹니다.

https://news.hada.io/topic?id=11498



🥇K-디지털 트레이닝 기관 최초 '대통령 표창' 수상한 모두의연구소의 신뢰받는 커뮤니티형 교육


☑️ 23년 경력 MS MVP 강창훈 주강사 직강! <자바스크립트 웹 풀스택> 1기 지원하기(조기마감 예상) → https://bit.ly/3tmITjj

☑️ 쫓기지 않고 이끄는 6개월 AI 첫걸음 <AI학교 아이펠> 8기 지원하기 → https://bit.ly/44cSNkr

Paper page - HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

huggingface.co

Paper page - HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 10월 26일 오전 12:41

조회 602

댓글 0

    함께 읽은 게시물

    요즘 사람들이 가장 많이 AI를 활용하는 분야 Top 10

    1

    ... 더 보기

    How People Are Really Using Gen AI in 2025

    Harvard Business Review

    How People Are Really Using Gen AI in 2025

     • 

    저장 9 • 조회 1,134


    🙉 달레의 찐팬이 되어주실래요? 💕

    ... 더 보기

    프롬프트 엔지니어에 대한 빗나간 예측

    2022년 말이 었나요? ChatGPT가 처음 등장했을 때, 앞으로 "프롬프트 엔지니어"라는 새로운 직업이 뜰 거라는 말이 정말 많았습니다. LLM(Large Language Model)으로 부터 최소한의 질문으로 원하는 응답을 얻기 위해서 프롬프트를 최적

    ... 더 보기

     • 

    저장 10 • 조회 4,514



    Lottie vs WebP – iOS 앱에서 애니메이션 성능 비교

    i

    ... 더 보기

    Lottie vs WebP Animation

    iOYES

    Lottie vs WebP Animation

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음📚

    F-Lab 에서 주니어 개발자들이(사실 개발자라면 누구나) 보시면 좋을 아티클 모음을 공유해 주었네요! 검색엔진부터 비동기 처리, NoSQL 등 다양한 분야의 아티클들이 공유되어 있으니 관심있으신 분들은 보시면 좋겠습니다. F-Lab 에서 공유해주신 아티클 주제를 나열해보면 다음과 같습니다. 📌 구글이 직접 말하는 검색엔진의 원리 (tali.kr) 📌 검색 엔진은 어떻게 작동하는가 (xo.dev) 📌 네이버의 검색엔진의 특징과 알고리즘 (tistory.com) 📌 [네이버 블로그]네이버 검색의 원리 : 네이버 블... 더 보기

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음

    F-Lab : 상위 1% 개발자들의 멘토링

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음

     • 

    저장 144 • 조회 3,900