GPT-4.1은 2025년 4월에 출시된 OpenAI의 플래그십 언어 모델로, 코딩, 지시 따르기, 장문 맥락 추론에 최적화되어 있습니다. GPT-4o의 8배 이상인 100만 토큰 컨텍스트 창을 지원하며, SWE-bench Verified에서 54.6%를 달성하여 실제 소프트웨어 엔지니어링 작업에서 큰 성능 향상을 보여줍니다. 정확한 코드 차분 생성, 에이전트 안정성, 대규모 문서에서의 높은 정보 검출에 강점이 있어 IDE 도구, 자동화 코딩 에이전트, 기업용 지식 검색에 적합합니다.
API|비전웹 검색파일|상용 모델
AI 성능 평가
Arena 종합 점수
1312
±4집계일 2026-05-01
종합 순위
216위
100,105 투표수
Arena 능력별 점수
한국어 능력
1255±21157위
복잡한 질문
1311±6222위
전문 지식
1286±12215위
지시 이행
1294±6213위
대화 기억
1298±8215위
창의력
1285±8203위
코딩 실력
1338±7223위
수학 능력
1303±8192위
Arena 직군별 점수
문학·창작
1306±6197위
생활·사회과학
1321±8220위
엔터·미디어
1290±8191위
경영·금융
1282±9235위
의학·보건
1305±12220위
법률·행정
1317±11223위
소프트웨어·IT
1324±6230위
수학·통계
1308±8194위
종합
AA Intelligence Index
26%↓13%
ForecastBench
59%↑0%
추론·수학
AA Math Index
35%↓40%
GPQA Diamond
67%↓16%
HLE
4.6%↓13%
MMLU-Pro
81%↓1%
AIME 2025
35%↓40%
MATH-500
91%↓2%
코딩
AA Coding Index
22%↓15%
LiveCodeBench
46%↓20%
TAU2
47%↓33%
TerminalBench
14%↓20%
SciCode
38%↓4%
언어·지시
IFBench
43%↓20%
AA-LCR
61%↓1%
환각률 (HHEM)
5.6%↓5%
사실 일관성 (HHEM)
94%↑4%
출력 속도
일반 모드
111tok/s↑34
출력 시작 0.57s