https://qwenlm.github.io/blog/qwen-moe/

Qwen1.5에 MoE를 적용한 Qwen1.5-MoE-A2.7B 모델이 나왔습니다.

학습 비용을 1/4로 줄였고, 추론 속도는 174% 개선했다고 하네요.

우연히 Qwen 7B 모델과 허깅페이스에서 채팅을 해 본적이 있었는데, 한국어 성능이 놀라울 정도로 좋았던 기억이 있습니다.


그래서 이번에도 대화를 진행해봤는데, 부족한 부분이 분명히 있지만 모델 사이즈와 중국 모델인 점을 고려하면 여전히 놀랍네요.

첨부한 이미지의 마지막 2장이 대화한 내용입니다.

https://huggingface.co/spaces/Qwen/qwen1.5-MoE-A2.7B-Chat-demo


더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 3월 31일 오전 3:16

댓글 0

    함께 읽은 게시물

    < 당신이 바쁜데도 성과가 없는 이유 >

    1. '바쁘다'는 건 열심히 많은 일을 하고 있다는 뜻이다.

    ... 더 보기

    퇴근길 지하철에서 중년 사내와 20대 후반의 한 젊은이가 필자의 앞에 나란히 앉아 있었다. “자리가 사람을 만드는 법이지.” 중년 사내가 젊은이에게 건네는 말 한마디가 내 귀에 들려왔다. 그 순간 나는 묘한 추억에 빠져들었다.

    ... 더 보기

    [김인수 기자의 사람이니까 경영이다]자리가 무능한 사람을 만든다는데 - 매일경제

    매일경제

    [김인수 기자의 사람이니까 경영이다]자리가 무능한 사람을 만든다는데 - 매일경제

    < 세상은 사실, 뇌가 만든 '가장 완벽한 거짓말'이에요 >

    1. 뇌는 현실의 이야기를 전하기 위해 우리가 사는 세계를 그리면서 색깔과 움직임, 물체와 소리까지 함께 떠올려야 한다.

    ... 더 보기

    《기다림이 허락되지 않는 시대》

    ... 더 보기