[0919]모두에게 전하는 모두연 AI뉴스!

* 모델과 유저간의 능력을 겨루는 RedTeam ArenaChatbot Arena로 필드에 공헌하고 있는 연구그룹 lmsys에서 새로운 Arena를 열었습니다. 모델의 Jailbreaking 방어력을 측정하는 RedTeam Arena로, 유저는 1분 내에 주어지는 Target prompt를 모델이 출력하게 해야합니다. 대상이 되는 모델은 총 11개로, GPT-4o, Claude-3.5-sonnet 등 상업 모델과 Llama-3.1-70b등의 오픈모델을 포함하고 있습니다. 지난 17일 공식 출범 후, 현재까지의 리더보드는 Claude-2.1이 유일한 기준점 이상의 방어를 성공하였으며, claude-3.5-sonnet, Llama-3.1-8b가 기준점 이하로 높은 순위를 기록하였습니다. GPT-4o, GPT-3.5 등 ChatGPT 시리즈는 하위권을 기록하였습니다. 연구자들은 이 프로젝트에서 AI 모델이 어떻게 제어되고 설득될 수 있는지를 크라우드소싱의 형태로 연구하고자 고안했다고 밝혔습니다. 한편, 이 연구에는 인종차별적, 폭력적이거나 선정적인 언어가 표현될 수 있습니다. https://redarena.ai/ * Party of Foundation Models! Qwen2.5 / Qwen2-VL-72B 출시 Alibaba의 Qwen team이 Qwen2 를 개량한 다양한 버전의 Qwen2.5 를 출시하였습니다! 18조개의 토큰을 Pretrain된 이 모델은 128K의 컨텍스트 윈도우를 차용하였으며, 한번에 8K의 토큰을 출력할 수 있습니다. Qwen2.5 는 사용자들의 요구에 따라 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B로 분화하여 모델을 출시하였으며, 이와 함께 수학 문제 추론에 특화된 Qwen2.5-Math: 1.5B, 7B, and 72B 모델과 코드 작성에 특화된 Qwen2.5-Coder: 1.5B, 7B, and 32B를 함께 출시하였습니다. 또한, Qwen team은 Vision-Language Model인 Qwen2-VL-72B도 함께 오픈소스를 릴리즈하였습니다. Qwen2-VL은 입력 이미지의 해상도와 비율에 구애받지 않으며 20분의 비디오를 이해할 수 있고, 특히 이미지와 텍스트 인풋에 모바일 핸드폰, 로봇 등의 액션을 수행할 수 있는 에이전트 기능도 제공하는 것으로, 지난 8월 말에 발표되었습니다. https://qwenlm.github.io/blog/qwen2.5/https://qwenlm.github.io/blog/qwen2-vl/ 이론과 실무를 잇-다! 데이터로 비즈니스 가치를 만드는 데이터 사이언티스트 전문 과정 모집 중 : https://bit.ly/3YBFXNf

[0919]모두에게 전하는 모두연 AI뉴스!

알림