Meta에서 크기 대비 엄청난 성능의 Llama 3를 발표한지 얼마 안됐는데,

MS에서도 Phi 3를 발표했네요.

  • phi-3-mini (3.8B)

  • phi-3-small (7B)

  • phi-3-medium (14B)


크기에 따라 3가지로 나뉘는데, 가장 작은 모델을 발표했고, GPT-3.5에 준하는 성능이라고 합니다.

(phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench)


학습데이터도 phi-2에 사용하던 것의 확장 버전이라는데, 어떻게 가능했던걸까요?


한편, 자체적인 safety post-training을 통해 유해한 응답율도 획기적으로 줄일 수 있었다고 합니다.


  • https://huggingface.co/models?other=phi3&sort=trending&search=microsoft

  • https://arxiv.org/abs/2404.14219

Models - Hugging Face

huggingface.co

Models - Hugging Face

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 4월 23일 오후 3:50

댓글 0

    함께 읽은 게시물

    < 자아는 완벽을 원하고, 문화는 완벽을 정의한다 >

    1. 모든 시대는 전부 대단하다고 느낄 정도로 다양한 방식으로 우리를 변화시켜왔다.

    ... 더 보기

    실제로 동작하는 PRD란

    P

    ... 더 보기

    The PRD That Actually Works

    Brunch Story

    The PRD That Actually Works

    < 무엇이 사람들을 하나로 뭉치게 하는가? >

    1. 사람들을 하나의 부족으로 만들기 위해서는 단 두 가지만 있으면 된다. '통의 관심사'와 '소통 방법'이다.

    ... 더 보기

    < 빠른 실패가 더 큰 성공을 만드는 이유 >

    1. 우리가 하는 많은 일이 처음입니다. 외부에서도 경험한 사람이 없는 일입니다.

    ... 더 보기