소성은

Gen AI Field Solution Architect @ Google

Salesforce의 InstructBLIP

얼마 전에 Salesforce 에서 BLIP2를 공개했었습니다. 높은 성능을 보이는 Vision-Language LLM 이었고, 테스트를 해 봤을 때 꽤 흥미로운 결과 (예를 들어 이미지 내의 사람이나 객체 갯수를 잘 카운팅하는 등) 를 보여주기도 해서 발전 속도가 놀랍다고 생각을 했었습니다. 이번에 Salesforce에서 그 후속으로 InstrcutBLIP을 공개하였습니다. - 코드: https://github.com/salesforce/LAVIS/tree/main/projects/instructblip 기존의 BLIP2 기반으로 여러 가지 public dataset 을 가져다가 instruct tuning이 가능한 형태로 만들어서 fine-tuning을 진행한 것이고, 매우 큰 Vision-Language 데이터셋인 Flamingo를 포함한 여러 데이터에 대해서 zero-shot 에서 SOTA를 달성하였다고 합니다. 논문을 살펴보면 구조 자체는 기존 BLIP2 와 다를 것이 별로 없습니다. BLIP의 핵심인 Q-former 부분에 기존에는 Query + Text 형태로 넣던 것에서 text를 instruction 으로 한 정도만 차이라고 볼 수 있습니다. (Instruct-tuning 이므로 당연한 것입니다만...ㅎㅎ) 이번 연구는 모델 아키텍쳐 등이 개선되었다기 보다는, 여러 데이터셋에 대해서 fine-tuning을 진행하고 이 모델을 공개한 것에 의의가 있다고 볼 수 있습니다. 여기서는 Vicuna와 FlanT5기반으로 된 모델을 공개하였는데 MiniGPT4 (https://github.com/Vision-CAIR/MiniGPT-4) 와 비슷하네요. 어찌되었건 최근에 Vision/Language를 같이 다루는 LLM들이 많아지고 있고 점점 더 여러 modality 로 확장되어 가는 것 같습니다. 그와는 별개로 Meta의 OPT, LLaMA나 Google의 FlanT5 등은 오픈소스 쪽에 정말 큰 기여를 하고 있는 것 같습니다.

LAVIS/projects/instructblip at main · salesforce/LAVIS

GitHub

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 5월 14일 오후 3:31

•

저장 1 • 조회 3,014

함께 읽은 게시물

K리그 프로그래머

커피한잔 개발자

6일 전

클로드 코드 Max 한 달 사용 후기

클

클로드 코드 한 달 사용 후기

K리그 프로그래머

•

댓글 2 • 저장 7 • 조회 2,210

한종현

CTO @ Triple Comma Corp.

하루 전

최적화 문제 속에 숨은 의도

험한 산속에 5명이 고립되어 있습니다. 생존하려면 어둡고 위험한 다리를 건너 구조대에게 가야 합니다. 그러나 다음과 같은 제약 조건이 있습니다.

저장 2 • 조회 651

골빈해커

Chief Maker

3일 전

2019년에 저희 팀에서 퍼블리싱한 CHI 논문. 음성 인터페이스 입코딩을 이용한 프로그래밍 교육.

저장 1 • 조회 1,072

이양일

NaverCloud 백엔드 개발자

2일 전

MCP 모르면 대체 얼마나 손해 보는 걸까?🤔

올

MCP 모르면 대체 얼마나 손해 보는 걸까? | 요즘IT

요즘IT

저장 8 • 조회 1,081

비슷한 게시물

소성은 Gen AI Field Solution Architect @ Google

Salesforce 에서 공개한 LLM: XGen

서진호 sr. Presales Solution Architect, HPC&AI

<데이터브릭스, DBRX 범용 모델 소스로 공개>

해시스크래퍼 데이터 사이언티스트

데이터 라벨링의 자동화 혁명! 시간과 비용을 아끼는 ChatGPT사용법

Jonas Kim 데이터 과학자, ML 엔지니어

태스크위버: 데이터 분석과 도메인 적응을 위한 에이전트 프레임워크

골빈해커 Chief Maker

ChatGPT에 드디어 올 것이 왔군요.

이양일 NaverCloud 백엔드 개발자

🎉 Kafka 3.5.0 이 Release 되었습니다!

주간 인기 TOP 10

권태관 NAVER 소프트웨어 엔지니어

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스

psmon 웹노리라이터

DDD와 AI

Arawn Park Senior Engineer & Engineering Lead

올해로 개발자 생활이 햇수로 20년째다

유용우(요우) NAVER 백엔드 개발자

간만에 재밌게 읽은 기술 포스트 여름 이벤트 관련 개발 회고와 높

이원형 라인플러스 소프트웨어 엔지니어

고용노동부에서 주관하는 청년미래플러스 3기를 모집 중이라고 합니다

장홍석 스페이스오디티 부대표/CPO

< 가장 예쁜 사람이 아니라, 1등 할 사람에게 투표하라 >

골빈해커 Chief Maker

아직 나도 정립되지 않은 상태이긴한데, 실무에서의 바이브 코딩은

석민 커리어 코치

길은 잃은 이력서

SNEW 스뉴 start-up, VC and more

“실리콘밸리의 힘은 개인의 자율과 책임을 극대화한 것에 있다. 이

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

데이터 이력서 템플릿 + 작성 가이드를 사용해보세요.

Salesforce의 InstructBLIP

댓글 0

함께 읽은 게시물

클로드 코드 Max 한 달 사용 후기

최적화 문제 속에 숨은 의도

MCP 모르면 대체 얼마나 손해 보는 걸까?🤔

비슷한 게시물

주간 인기 TOP 10

추천 프로필