LLM 정성 평가의 실질적인 기준 역할을 하고 있는 Chatbot Arena도 이제는 거의 무의미 해 진 것 같네요. LLM의 성능이 너무 상향 평준화 되어서 “일반” 인간의 평가는 이제 무의미 해 진 것인데요.


이 얼마나 놀랍고 혹은 두려울 수 있는 일인지 이해하시는 분은 많지 않겠죠. 더군다나 이게 불과 1년만에 이루어진 일이라는 것이 더욱이.


제가 2년 전에 한국어 잘 안되는거, 할루시네이션 문제, 속도 문제, 컨텍스트 추출 문제 등 그건 쉽게 해결 가능한 문제이므로 그건 문제가 아니다라는 말을 했을 때 많은 분들이 코웃음을 쳤던 기억이 납니다.


기술은 되기까지가 오래 걸리지, 되기만 하면 빠르게 발전합니다. Thinking을 통한 Reasoning 문제 해결도, 이거 안되니 저거 안되니, 인간은 그렇지 않아라고 하지만, 반년만 지나도 무식한 소리로 치부될겁니다.


이제는 정말로 국가단위에서 미래를 공격적으로 준비해야합니다. 되도않는, 진짜 무식하기 짝이 없는 AI 교과서 따위에 힘을 쓸 때가 아닙니다. 지금보다 더 늦으면 우리나라엔 미래가 없을 수 있습니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 1월 22일 오전 5:49

댓글 0