OpenAI에서 “DALL-E 3는 어떻게 사용자의 의도를 정확하게 반영할 수 있는가?”에 대한 논문 발표. 


Improving Image Generation with Better Captions (https://cdn.openai.com/papers/dall-e-3.pdf)


예상대로(?) GPT-4V 를 이용해 인간이 설명한 것 같은 스타일로 설명을 생성해 학습시켰다고. 다만, 생성된 캡션과 실제 캡션을 적절히 조합해야한다고 하네요.


ChatGPT에 GPT-4V를 늦게 반영한 것이, 공개 전에 이걸 먼저 해서 우위를 만들기 위함이 아니었나라는 생각도 살짝 드는군요. 😏

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2023년 10월 20일 오전 4:06

댓글 0