서진호

sr. Presales Solution Architect, HPC&AI

<진보된 시각 처리를 해 주는 멀티 모달 모델, Grok 1.5 비전>

커리어리 친구들, 그동안 컴퓨터 비전 분야의 LLM 또는 멀티모달리티가 부족했는 데, Grok 1.5 비전 프리뷰 공개되었습니다. 멀티모달 모델인 그록-1.5V는 강력한 텍스트 기능 외에도 문서, 다이어그램, 차트, 스크린샷 및 사진을 포함한 광범위한 시각 정보를 처리할 수 있습니다. 특히, 다학제 추론, 이해 문서, 과학 다이어그램, 차트, 스크린샷, 사진 등 다양한 영역에서 기존 멀티모달 모델을 능가하며 물리적 세계를 이해하는 데 탁월한 능력을 보여준다고 하는데요, 아래의 링크의 예를 보시면 다양하게 플로 챠트와 사진 사물들을 인식하는 것이 나옵니다.

또한, 질문과 쉽게 검증할 수 있는 답변을 가진 700개 이상의 이미지로 구성된 멀티모달 모델의 기본적인 실제 공간 이해 기능을 평가하기 위해 새로운 벤치마크인 RealWorldQA를 소개하고, 초기 테스터와 기존 Grok 사용자가 곧 사용할 수 있으며 이미지, 오디오 및 비디오와 같은 다양한 양식에 걸쳐 멀티모달 기능을 적극적으로 확장하고 있다는 평가입니다.

https://x.ai/blog/grok-1.5v

Grok-1.5 Vision Preview

x.ai

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 4월 14일 오전 5:51

조회 2,336

함께 읽은 게시물

골빈해커

Chief Maker

6월 5일

📰 OpenAI가 ChatGPT의 커넥터 기능을 업데이트하면서 MCP 지원을 추가했네요.

저장 7 • 조회 2,077

골빈해커

Chief Maker

4일 전

🪄 플레이모어와 함께할 동료를 찾습니다

첫

플레이모어와 함께할 동료를 찾습니다 | Notion

playmoreai on Notion

•

저장 7 • 조회 3,114

K리그 프로그래머

커피한잔 개발자

6월 13일

레일즈와 카카오 문화

루

레일즈 철학과 카카오 문화

K리그 프로그래머

•

저장 5 • 조회 2,015

SNEW 스타트업 뉴스

start-up and VC

하루 전

이 친구도 만만치않게 독특한 편

알렉산드르 왕, 두뇌 칩 상용화 전까지 출산 보류 선언…“초지능 아기 원해”

AI타임스

저장 1 • 조회 468

김민재

소프트웨어 엔지니어

2024년 08월 04일

대량의 트래픽이 몰려올 때 나는 어떻게 해야하나? - (feat. Cac

🌱 0. 들어가며

저장 6 • 조회 231

aigoia

인디 게임 개발자

2일 전

코딩의 기본기가 머냐면

코

저장 1 • 조회 367

비슷한 게시물

dmffe 부트캠프 ㅇ

ㄴㅇㄹㄴㅇㄹ

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[1004]모두에게 전하는 모두연 AI뉴스!

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0219]모두에게 전하는 모두연 AI뉴스!

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0210]모두에게 전하는 모두연 AI뉴스!

백선환 AWS/ AIML Specialist

Bedrock, Luma AI Ray2 동영상 모델 출시!

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0117]모두에게 전하는 모두연 AI뉴스!

주간 인기 TOP 10

psmon 웹노리라이터

구현패턴으로 DB사용비용을 10배줄이기

K리그 프로그래머 커피한잔 개발자

1인 개발자의 최고의 사무실은 바로 자기집 방구석

한기용 UpZen 창업자 대표 & 산호세 주립대 교수

Airflow 3.0 주요 기능 소개

석민 커리어 코치

전략적 입사 지원

달레 Apollo GraphQL Software Engineer

🧊 급격하게 얼어붙고 있는 해외 취업 시장 🥶

김의중 프론트엔드 개발자

"마케팅을 바꾸는 데이터의 힘"을 읽고 정리해본 마케팅/데이터 개

조찬우 Coupang Sr. iOS Engineer

좋은 개발자는 환경이 만든다

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

엔지니어링의 핵심, 유지 보수가 가능한 파이프라인 구성하기

하조은 당근 Product Engineer

발이 닿지 않는 바다에서

장홍석 스페이스오디티 부대표/CPO

< AI의 '환각'보다 무서운, 내가 만드는 '환상' >

<진보된 시각 처리를 해 주는 멀티 모달 모델, Grok 1.5 비전>

댓글 0

함께 읽은 게시물

🪄 플레이모어와 함께할 동료를 찾습니다

레일즈와 카카오 문화

대량의 트래픽이 몰려올 때 나는 어떻게 해야하나? - (feat. Cac

코딩의 기본기가 머냐면

비슷한 게시물

주간 인기 TOP 10

추천 프로필