Google Vision API를 활용하는 본문같은 기능 개발 가능할까요?

Question

제가 지금 진행하고 있는 프로젝트에서 사용해야 하는 기능은, Google Vision API를 통해 사진에서 의류에 대한 객체를 감지한 후 각 객체에 대한 색상과 특징(상의면 티셔츠인지 긴팔인지)을 검출해서 분류되어 나온 각 객체에 대한 특징을 스트링으로 포맷화 하는 과정을 거쳐야하는데 가능할까요..?

예를 들어 Google Vision API를 통해 생긴 Boundary box를 통해 색상(코드식으로 #232423), 특징(long sleeve)라는 걸 검출해내고 이를 노란색 긴팔 티셔츠 라는 하나의 문장으로 포맷화하는 과정

입니다. 혹시 이게 실현가능한 부분일까요..?

백엔드는 Spring, 프론트엔드는 Angular를 사용중에 있습니다.

현재는 GoogleVisionAPI를 통한 객체 검출까지만 진행된 상태입니다.

황우진 · Accepted Answer

의류의 특징을 어느 수준으로 검출하고자 하는지에 따라 다르겠지만 말씀하신 과정 자체는 가능합니다. 직접 API 를 사용해 보셨으면 아시겠지만 Vision  API 를 통해서 반환되는 값은 object detection 뿐 아니라 이미지 내 객체들의 특성을 label 로 구분해주고 주 색상 분포와 객체 crop 을 위한 boundary position 등과 같은 다양한 데이터를 추출해 줍니다.
결국 API 응답 데이터들을 parsing 해서 confidence 가 일정 수준 이상인 값들만 조합한다면 하나의 문장으로 이미지의 특성을 설명하는 것은 가능할 듯 합니다. (물론, 영어를 한글로 변환하는 과정은 필요 합니다. feature 들이 한글로 나오지는 않는 걸로 알고 있어서요 ^^)
다만, label로 추출 가능한 단어를 지정할 수 없기 때문에 다양한 이미지로 먼저 테스트 해보시는게 좋을 듯 합니다. 저는 Vision API 안내 웹 페이지의 데모 기능(https://cloud.google.com/vision?hl=ko#section-2)을 이용해서 다양한 이미지를 테스트 해보고 원하는 label이 잘 나오는지 확인 했었습니다. 
저도 의류 관련 서비스에서 테스트 했었는데, 이렇게 비슷한 고민을 보니 반갑네요. 꼭 좋은 결과 얻길 바라겠습니다 :)