Minimax M3 모델 테스트 및 간단 평가

벤치마크 결과가 상당히 괜찮게 나왔고, OpenCode Go 요금제에서도 사용할 수 있길래 최근 코딩 작업 위주로 테스트해봤습니다. 이제는 오픈 모델 진영에서도 1M 컨텍스트가 사실상 기본 사양이 되어가는 분위기네요. 멀티모달도 지원하며, 전반적인 사용 감각은 DeepSeek V4 Pro와 비슷했습니다. V4 Pro에 비해선 조금 덜 생각하는 인상이었는데요. 실제 사용에서는 OpenCode의 Build 모드로 에이전틱하게 브라우저 검증 코드 수정을 반복하도록 맡겨봤는데, 종종 문제를 해결하지 못한 채 의미 없는 작업을 반복하며 무한 루프에 빠지는 경우가 있었습니다. 반면 오랫동안 오픈 모델 강자로 평가받아온 Kimi 2.6은 동일한 작업을 훨씬 빠르고 안정적으로 해결하더군요. 에이전틱한 능력은 아직 Kimi 쪽이 한 수 위라는 느낌이었습니다. 다만 Plan 모드에서는 꽤 만족스러웠습니다. 원래는 GPT 5.4 High를 계획 수립 용도로 자주 사용했는데, Minimax M3가 제안한 계획 역시 기대 이상으로 괜찮았습니다. 매우 복잡한 문제만 아니라면 앞으로도 종종 사용할 것 같습니다. 총평하자면, Plan 모드처럼 비교적 단방향으로 진행되는 작업에는 강점이 있습니다. 반면 여러 컨텍스트를 오가며 시행착오가 필수적 이른바 거친 황야를 헤쳐 나가는 식의 작업에는 그다지 잘 맞지 않는 느낌입니다. 코딩 벤치마크 성능만 놓고 보면 최상위권 모델 대비 다소 부족한 편인데, 여기에 최근 모델들이 공통적으로 보이는 '끝까지 밀어붙이는' 수행 성향이 결합되면서, 문제를 제대로 해결하지 못 하는 상황에서도 무한 루프에 빠지는 현상이 나타나는 것으로 추정됩니다. 참고로 OpenCode Go 사용자라면 Minimax M3 옆에 '(x3)' 표기가 붙어 있는 것을 볼 수 있습니다. 현재 한시적으로 요청 소모량을 1/3 수준으로 줄여주는 이벤트를 진행하는 듯합니다. 예를 들어 기존 5시간 기준 요청 한도가 3,200회였다면, 이벤트 적용 시 약 9,600회 수준까지 사용할 수 있습니다.

Minimax M3 모델 테스트 및 간단 평가

알림