Grok-1.5 Vision Preview
x.ai
커리어리 친구들, 그동안 컴퓨터 비전 분야의 LLM 또는 멀티모달리티가 부족했는 데, Grok 1.5 비전 프리뷰 공개되었습니다. 멀티모달 모델인 그록-1.5V는 강력한 텍스트 기능 외에도 문서, 다이어그램, 차트, 스크린샷 및 사진을 포함한 광범위한 시각 정보를 처리할 수 있습니다. 특히, 다학제 추론, 이해 문서, 과학 다이어그램, 차트, 스크린샷, 사진 등 다양한 영역에서 기존 멀티모달 모델을 능가하며 물리적 세계를 이해하는 데 탁월한 능력을 보여준다고 하는데요, 아래의 링크의 예를 보시면 다양하게 플로 챠트와 사진 사물들을 인식하는 것이 나옵니다.
또한, 질문과 쉽게 검증할 수 있는 답변을 가진 700개 이상의 이미지로 구성된 멀티모달 모델의 기본적인 실제 공간 이해 기능을 평가하기 위해 새로운 벤치마크인 RealWorldQA를 소개하고, 초기 테스터와 기존 Grok 사용자가 곧 사용할 수 있으며 이미지, 오디오 및 비디오와 같은 다양한 양식에 걸쳐 멀티모달 기능을 적극적으로 확장하고 있다는 평가입니다.
https://x.ai/blog/grok-1.5v
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 4월 14일 오전 5:51
첫
... 더 보기이 친구도 만만치않게 독특한 편
... 더 보기