Grok 4.20(Reasoning)は、xAIのGrok 4.20の推論有効化構成で、回答提示前に拡張された内部思考プロセスを通じて問題を解きます。モデルのネイティブマルチエージェントアーキテクチャとエージェント間相互検証と組み合わさり、深い論理、数学的推論、複雑な多段階問題解決が求められるタスクでGrokラインナップ最高の精度を達成します。同じ200万トークンのコンテキストウィンドウ、厳格なプロンプト遵守、同クラス最低水準のハルシネーション率に対応しています。
xAI SuperGrok HeavyAPI|ビジョン深い思考Web検索ファイル|商用モデル
AI性能評価
Arena 総合点数
1480
±5集計日 2026-05-01
総合ランク
9位
17,413 投票数
Arena 能力別スコア
日本語能力
1463±528位
複雑な質問
1494±615位
専門知識
1473±1642位
指示遂行
1455±825位
会話記憶
1494±1210位
創造力
1467±128位
コード作成
1511±924位
数学力
1461±1729位
Arena 職種別スコア
文学·創作
1457±1016位
生活·社会
1485±1119位
エンタメ
1455±1110位
経営·金融
1476±1114位
医学·保健
1512±176位
法律·行政
1496±179位
ソフト開発
1509±817位
数学·統計
1461±1933位
総合
AA Intelligence Index
49%↑10%
LiveBench
69%↑8%
推論·数学
GPQA Diamond
91%↑9%
HLE
32%↑15%
LB 推論
75%↑6%
LB 数学
87%↑13%
LB データ
63%↑10%
コーディング
AA Coding Index
41%↑4%
LB コード
66%↓7%
LB エージェント
43%↓2%
TAU2
93%↑13%
TerminalBench
38%↑4%
SciCode
46%↑4%
言語·指示
IFBench
81%↑18%
AA-LCR
58%↓4%
LB 言語
78%↑5%
LB 指示
63%↑12%
出力速度
標準モード
89tok/s↑11
出力開始 0.53s
推論モード
91tok/s↑4
出力開始 30.82s