Grok 4.20은 2026년 2월에 출시된 xAI의 최신 플래그십 모델로, 전문화된 4개의 AI 에이전트가 복잡한 질의에 동시에 협력하는 네이티브 다중 에이전트 구조를 도입했습니다. 서양 프론티어 모델 중 가장 큰 200만 토큰 컨텍스트 창을 유지하며, 에이전트 간 교차 검증을 통해 환각률을 65% 줄였습니다. 실제 사용 데이터를 기반으로 매주 성능을 갱신하며, 초당 232토큰, 첫 토큰 응답 시간 0.54초의 빠른 직접 응답을 제공합니다.
xAI SuperGrok HeavyAPI|웹 검색|상용 모델
AI 성능 평가
Arena 종합 점수
1480
±5집계일 2026-05-01
종합 순위
9위
17,413 투표수
Arena 능력별 점수
한국어 능력
1467±35🥉 3위
복잡한 질문
1494±615위
전문 지식
1473±1642위
지시 이행
1455±825위
대화 기억
1494±1210위
창의력
1467±128위
코딩 실력
1511±924위
수학 능력
1461±1729위
Arena 직군별 점수
문학·창작
1457±1016위
생활·사회과학
1485±1119위
엔터·미디어
1455±1110위
경영·금융
1476±1114위
의학·보건
1512±176위
법률·행정
1496±179위
소프트웨어·IT
1509±817위
수학·통계
1461±1933위
종합
AA Intelligence Index
29%↓10%
LiveBench
38%↓23%
ForecastBench
62%↑3%
추론·수학
GPQA Diamond
78%↓5%
HLE
24%↑7%
LB 추론
26%↓43%
LB 수학
46%↓29%
LB 데이터 분석
43%↓10%
코딩
AA Coding Index
22%↓14%
LB 코딩
59%↓14%
LB 에이전틱
38%↓7%
TAU2
60%↓21%
TerminalBench
17%↓17%
SciCode
33%↓9%
언어·지시
IFBench
49%↓14%
AA-LCR
17%↓45%
LB 언어
42%↓30%
LB 지시
24%↓27%
출력 속도
일반 모드
91tok/s↑14
출력 시작 0.50s
추론 모드
248tok/s↑161
출력 시작 11.74s