Devin이라는 코딩 에이전트로 유명한 Cognition에서 코딩 전용 모델 SWE-1.5를 발표했는데, 발표에 사용한 이 표만 봐도 AI/LLM 벤치마크가 이제 얼마나 무의미한지 알 수 있다.
Devin이라는 코딩 에이전트로 유명한 Cognition에서 코딩 전용 모델 SWE-1.5를 발표했는데, 발표에 사용한 이 표만 봐도 AI/LLM 벤치마크가 이제 얼마나 무의미한지 알 수 있다. GPT-5 High 성능이 매우 낮게 나오는데, 심지어 Haiku 보다 낮다. 실세계 사용 체감과 완전히 다른 결과. Cursor도 2.0을 발표하면서 코딩 전용 모델을 발표했는데, 성능이 프론티어 모델에 근접하다는 벤치마크 결과를 발표했지만, 실제 사용해보면 하지만 빨랐죠? 수준. AI가 인간에 가까운 수준이 된 지금, 이제 벤치마크는 믿을게 못된다. 토플 시험 잘 본다고 말을 잘하는 건 아닌것과 마찬가지.