๐ ์๋ฌธ๋๋ก GPT-5.2๊ฐ ์ถ์๋์๋ค์ 0.1 ์ค๋ฅธ ๊ฒ ์น๊ณ ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ฌ๋๋๋ฐ์. ๋น์ฐํ์ง๋ง(?) ๋๋ถ๋ถ์ ๋ฒค์น๋งํฌ์์ Gemini 3 Pro์ Claude Opus 4.5๋ฅผ ๋์์ต๋๋ค.
๐ ์๋ฌธ๋๋ก GPT-5.2๊ฐ ์ถ์๋์๋ค์ 0.1 ์ค๋ฅธ ๊ฒ ์น๊ณ ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ฌ๋๋๋ฐ์. ๋น์ฐํ์ง๋ง(?) ๋๋ถ๋ถ์ ๋ฒค์น๋งํฌ์์ Gemini 3 Pro์ Claude Opus 4.5๋ฅผ ๋์์ต๋๋ค. ๋ฐ์ ์๋๊ฐ ์ง์ง ๋น ๋ฅด๋ค์. ํ์๋ ์๋์ ์์ง๋ง, SWE-Bench Verified ์์ 80.0%๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. Claude Opus 4.5๊ฐ 80.9%๋ก ์ฌ์ ํ 1๋ฑ์ด๊ธด ํฉ๋๋ค๋ง ์ด์ ์ด ์์น๋ ์๋ฏธ ์์ ๋ฏ ํ๊ณ ์. ARC-AGI-1์ GPT-5.2๊ฐ 90%๋ฅผ ๋์ด์ ์ด์ ์๋ฏธ ์๋ ๋ฒค์น๊ฐ ๋์ต๋๋ค. ์ด๊ฑฐ ์ง์ง ์ด๋ ต๊ฒ ๋ค ํ๋๋๊ฐ ์ง์ง ๋ฐ๋ก ์ผ๋ง์ ์ธ๋ฐ์. AIME๋ 100%๋ฅผ ๋ฌ์ฑํ๊ณ , GPQA๋ 90%๋ฅผ ๋์ด์ ์ผ๋ฐ์ ์ธ ์์ค์(?) ์ํ ๋ฒค์น๋งํฌ๋ ์๋ฏธ ์๊ฒ ์ต๋๋ค. ์ด๊ฒ-์ํํ์ด๋ ์ง์ง ์ด๋ ค์ธ ๊ฑฐ๋ผ๊ณ ํ๋๊ฒ ์๊ทธ์ ๊ฐ์๋ฐ ๋ง์ด์ฃ . ๊ทธ ์ธ์ ์ ๊ฐ ์ค์ํ๊ฒ ๋ณด๊ณ ์๋ needle ํ ์คํธ(๊ธด ์ปจํ ์คํธ์์ ์ ๋ณด ์ฐพ๊ธฐ)์ฑ๋ฅ์ด ๋งค์ฐ ํฌ๊ฒ ์ฌ๋์ต๋๋ค. ์ ๊ฐ ChatGPT๋ฅผ ์ฃผ๋ ฅ์ผ๋ก ์ฐ๋ ์ด์ ์ด๊ธฐ๋ ํ๋ฐ, ์ด ๋ถ๋ถ๋งํผ์ ๊ณ์ ์๋์ ์ธ ๊ฒ ๊ฐ๋ค์. ์ํผ.. ์ด์ ๋ฒค์น๋งํฌ๋ค์ด ๋๋ถ๋ถ ์๋ฏธ๊ฐ ์์ด์ง ๊ฒ ๊ฐ์ต๋๋ค. ์ด์ ๋จ์๊ฑด ์ค์ธ๊ณ์์์ ์ ์ฑํ๊ฐ์ ๊ณผํ์ ์ธ ๋ฐ๊ฒฌ๋ฟ์ผ ๋ฏ ํ๋ค์. ๋จ๊ฐ๋ ์ด์ง ์ฌ๋๋๋ฐ์. ์๋ง๋ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์กฐ๊ธ ํค์ด ๊ฒ์ด ์๋๊ฐ ์ถ์ต๋๋ค. ๊ทธ๋๋ Opus 4.5์ ๋นํด์๋ ์์ง 3๋ฐฐ ์ ๋ ดํฉ๋๋ค. ใ ใ