<진보된 시각 처리를 해 주는 멀티 모달 모델, Grok 1.5 비전>

커리어리 친구들, 그동안 컴퓨터 비전 분야의 LLM 또는 멀티모달리티가 부족했는 데, Grok 1.5 비전 프리뷰 공개되었습니다. 멀티모달 모델인 그록-1.5V는 강력한 텍스트 기능 외에도 문서, 다이어그램, 차트, 스크린샷 및 사진을 포함한 광범위한 시각 정보를 처리할 수 있습니다. 특히, 다학제 추론, 이해 문서, 과학 다이어그램, 차트, 스크린샷, 사진 등 다양한 영역에서 기존 멀티모달 모델을 능가하며 물리적 세계를 이해하는 데 탁월한 능력을 보여준다고 하는데요, 아래의 링크의 예를 보시면 다양하게 플로 챠트와 사진 사물들을 인식하는 것이 나옵니다.


또한, 질문과 쉽게 검증할 수 있는 답변을 가진 700개 이상의 이미지로 구성된 멀티모달 모델의 기본적인 실제 공간 이해 기능을 평가하기 위해 새로운 벤치마크인 RealWorldQA를 소개하고, 초기 테스터와 기존 Grok 사용자가 곧 사용할 수 있으며 이미지, 오디오 및 비디오와 같은 다양한 양식에 걸쳐 멀티모달 기능을 적극적으로 확장하고 있다는 평가입니다.


https://x.ai/blog/grok-1.5v


Grok-1.5 Vision Preview

x.ai

Grok-1.5 Vision Preview

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 14일 오전 5:51

조회 2,336

댓글 0

    함께 읽은 게시물

    📰 OpenAI가 ChatGPT의 커넥터 기능을 업데이트하면서 MCP 지원을 추가했네요.

    ... 더 보기

    🪄 플레이모어와 함께할 동료를 찾습니다

    ... 더 보기

    플레이모어와 함께할 동료를 찾습니다 | Notion

    playmoreai on Notion

    플레이모어와 함께할 동료를 찾습니다 | Notion

     • 

    저장 7 • 조회 3,114


    레일즈와 카카오 문화

    ... 더 보기

    레일즈 철학과 카카오 문화

    K리그 프로그래머

    레일즈 철학과 카카오 문화

     • 

    저장 5 • 조회 2,015



    대량의 트래픽이 몰려올 때 나는 어떻게 해야하나? - (feat. Cac

    🌱 0. 들어가며

    ... 더 보기

    코딩의 기본기가 머냐면

    ... 더 보기