GLM-5.1은 Z.ai가 2026년 4월 MIT 라이선스로 공개한 최신 오픈소스 모델로, 정교한 강화 학습을 통해 코딩 및 에이전트 성능을 목표로 GLM-5를 후훈련 업그레이드했습니다. 동일한 7,440억 MoE 구조(400억 활성 매개변수)와 200K 토큰 컨텍스트 창을 기반으로, SWE-Bench Pro에서 58.4%를 기록하여 Claude Opus 4.6(57.3%)을 넘어섰습니다. 사람의 개입 없이 최대 8시간 동안 계획-실행-테스트-수정-최적화의 전체 루프를 자율적으로 관리할 수 있어, 장기 에이전트형 엔지니어링 작업을 위한 가장 강력한 오픈 가중치 모델 중 하나입니다.
심층 사고|공개 모델MIT
AI 성능 평가
Arena 종합 점수
1471
±6집계일 2026-05-01
종합 순위
18위
11,071 투표수
Arena 능력별 점수
한국어 능력
1419±3823위
복잡한 질문
1493±818위
전문 지식
1488±1926위
지시 이행
1463±1018위
대화 기억
1477±1425위
창의력
1454±1412위
코딩 실력
1524±1110위
수학 능력
1469±2119위
Arena 직군별 점수
문학·창작
1458±1213위
생활·사회과학
1494±1410위
엔터·미디어
1455±1311위
경영·금융
1452±1335위
의학·보건
1472±2141위
법률·행정
1477±2124위
소프트웨어·IT
1510±914위
수학·통계
1473±2320위
종합
AA Intelligence Index
51%↑12%
LiveBench
71%↑10%
추론·수학
GPQA Diamond
87%↑5%
HLE
28%↑10%
LB 추론
73%↑3%
LB 수학
85%↑11%
LB 데이터 분석
63%↑10%
코딩
AA Coding Index
43%↑7%
LB 코딩
75%↑2%
LB 에이전틱
55%↑10%
TAU2
98%↑17%
TerminalBench
43%↑9%
SciCode
44%↑2%
언어·지시
IFBench
76%↑13%
AA-LCR
62%↑0%
환각률 (HHEM)
10%↑0%
사실 일관성 (HHEM)
90%↑0%
LB 언어
72%↑0%
LB 지시
68%↑17%
출력 속도
일반 모드
42tok/s↓35
출력 시작 1.37s
추론 모드
52tok/s↓35
출력 시작 73.87s