AIME 2025 ์ํ ๋ง์
SWE-bench ์ฝ๋ฉ 1์
GPQA PhD๊ธ ์ถ๋ก
1M ํ ํฐ ์ต์ ๊ฐ
์ฐ์ ์์จ ์์ด์ ํธ ์์
โ 2025~2026 AI ๋ชจ๋ธ ์ถ์ ํ์๋ผ์ธ — ์ฌ๊ธฐ๊น์ง ์ด๋ป๊ฒ ์๋?
"2026๋ 3์์ AI๊ฐ '์ฑ๋ด'์์ '์์ด์ ํธ'๋ก ์์ ํ ์ ํ๋ ์์ ์ด๋ค. ์ด์ ๋ชจ๋ธ๋ค์ ๋ต๋ณํ๋ ๊ฒ ์๋๋ผ, ์ง์ ์ผ์ ํ๋ค." — KWT Blog, 2026๋ 3์ LLM ๋น๊ต ๋ถ์
โก ์ธ ๋ชจ๋ธ ์์ ํด๋ถ — ๊ฐ์์ ๋ฌด๊ธฐ๋ ๋ฌด์์ธ๊ฐ?
๐ข GPT-5 (OpenAI) — ๋ฒ์ฉ ์์ด์ ํธ๋ก์ ์งํ
GPT-5์ ๊ฐ์ฅ ํฐ ํ์ ์ ํตํฉ ์ ์ํ ์์คํ (Unified Adaptive System)์ด๋ค. ๋จ์ํ ์ง๋ฌธ์๋ ์ด๊ณ ์ ๋ชจ๋ธ์, ๋ณต์กํ ์ถ๋ก ์๋ '์๊ฐํ๋' ๋ชจ๋ธ์ ์ค์๊ฐ ๋ผ์ฐํฐ๊ฐ ์๋ ์ ํํ๋ค. ์ฌ์ฉ์๊ฐ ๋ชจ๋ธ์ ๊ณ ๋ฅผ ํ์๊ฐ ์๋ค.
- AIME 2025 ์ํ ๋ง์ (100%) — ์ต์ ๋ฒ์ GPT-5.4 ๊ธฐ์ค, ์ํ ์ถ๋ก ๋ถ๋ฌธ ์๋
- OSWorld ์ปดํจํฐ ์ฌ์ฉ 75% — ํ๋ฉด ์ธ์ + ๋ง์ฐ์ค/ํค๋ณด๋ ์ง์ ์กฐ์, ๋ฒ์ฉ ์์ด์ ํธ 1์
- ํ๊ฐ(Hallucination) 45% ๊ฐ์ — GPT-4o ๋๋น ์ฌ์ค ์ ํ๋ ๋ํญ ํฅ์
- ์ปจํ ์คํธ 400K~1M ํ ํฐ — ๊ธด ๋ฌธ์ ์ฒ๋ฆฌ, ์์ด์ ํธ ์ฅ๊ธฐ ์์ ์ง์
- API ์ ๋ ฅ๊ฐ $2.50/1M ํ ํฐ, GPT-5 ๋ฏธ๋ $0.05๋ก ๊ฐ์ฑ๋น ์ ํ์ง๋ ์์
๐ต Gemini 3 Flash (Google) — ๊ฐ์ฑ๋น + ์๋ + ๊ตฌ๊ธ ์ํ๊ณ
๊ตฌ๊ธ์ด ์ ํํ ์ ๋ต์ '์ต๊ณ ์ฑ๋ฅ์ ๊ฐ์ฅ ์ ๋ ดํ๊ฒ'๋ค. Gemini 3 Flash๋ Gemini 2.5 Pro๋ฅผ ์ฑ๋ฅ์์ ์์๋ฉด์๋ 3๋ฐฐ ๋น ๋ฅด๊ณ , ๊ฐ๊ฒฉ์ ์ ๋ ฅ $0.30/1M ํ ํฐ์ผ๋ก ๊ฒฝ์์ฌ ๋๋น ์ต๋ 16๋ฐฐ ์ ๋ ดํ๋ค.
- GPQA Diamond 90.4% — PhD๊ธ ๊ณผํ ์ถ๋ก , ์ ๋ชจ๋ธ ์ค ์ต๊ณ
- MMMU Pro 81.2% — ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฅ๋ ฅ 1์
- 1M ํ ํฐ ์ปจํ ์คํธ — GPT-5์ ํจ๊ป ์ต๋ ์ปจํ ์คํธ ์ง์
- Google Workspace ์์ ํตํฉ — Gmail, Docs, Meet, YouTube ๋ค์ดํฐ๋ธ ์ฐ๋
- API $0.30/1M ํ ํฐ — Claude Opus 4.6($5.00) ๋๋น 16๋ฐฐ, GPT-5.4 ๋๋น 8๋ฐฐ ์ ๋ ด
๐ด Claude 4 (Anthropic) — ์ฝ๋ฉ ์ ๋๊ฐ์ + ์ฅ๊ธฐ ์์ด์ ํธ
Anthropic์ Claude 4๋ ์ฝ๋ฉ ์ธ๊ณ 1์๋ฅผ ๋์ด '์ฅ๊ธฐ ์์จ ์์ด์ ํธ' ์๋๋ฅผ ์ด์๋ค. Claude Opus 4.6์ ์ต๋ 14.5์๊ฐ ๋์ ์ธ๊ฐ ๊ฐ์ ์์ด ๋ณต์กํ ๊ฐ๋ฐ ์์ ์ ํผ์ ์์ํ ์ ์๋ค. ์ํฐํ๋ผ์ด์ฆ LLM ์์ฅ ์ ์ ์จ์ 32%๋ก OpenAI(25%)๋ฅผ ์์ ๋ค.
- SWE-bench Verified 80.8% — ์ค์ ์ฝ๋ฉ ๋ฅ๋ ฅ ์ ๋ชจ๋ธ ์๋์ 1์
- 14.5์๊ฐ ์ฐ์ ์์ด์ ํธ ์์ — METR ๊ธฐ์ค, ์ธ๊ฐ ์์ด ์์จ ๊ฐ๋ฐ ๊ฐ๋ฅ
- Claude Code ์ ์ ์ถ์ — VS Code, JetBrains ํตํฉ, ํฐ๋ฏธ๋์์ ์ง์ ์ฌ์ฉ
- ์ํฐํ๋ผ์ด์ฆ LLM 1์(32%) — Cursor, Replit, Cognition ๋ฑ ๊ฐ๋ฐ ํ๋ซํผ ์ฑํ
- API ์ ๋ ฅ $3.00~$5.00/1M — ๊ณ ๊ฐ์ง๋ง ์ฝ๋ฉ·์์ด์ ํธ ์ ๋ฌธ ์์ ์์ ROI ์ต๊ณ
โข 2026๋ 3์ ์ต์ ๋ฒค์น๋งํฌ ์์ ๋น๊ตํ
| ๋ฒค์น๋งํฌ | GPT-5.4 | Claude Opus 4.6 | Gemini 3 Flash | ์ธก์ ํญ๋ชฉ |
|---|---|---|---|---|
| AIME 2025 (์ํ) | 100% ๐ฅ | — | — | ๊ณ ๋๋ ์ํ ์ถ๋ก |
| SWE-bench Verified (์ฝ๋ฉ) | 52.8% | 80.8% ๐ฅ | 78.0% | ์ค์ ์ํํธ์จ์ด ๊ฐ๋ฐ |
| OSWorld (์ปดํจํฐ ์กฐ์) | 75.0% ๐ฅ | 72.5% | — | GUI ์์ด์ ํธ ๋ฅ๋ ฅ |
| GPQA Diamond (PhD ์ถ๋ก ) | — | 74.9% | 90.4% ๐ฅ | ๋ํ์๊ธ ๊ณผํ ๋ฌธ์ |
| MMMU Pro (๋ฉํฐ๋ชจ๋ฌ) | — | — | 81.2% ๐ฅ | ์ด๋ฏธ์ง+ํ ์คํธ ์ดํด |
| Terminal-Bench 2.0 | — | 65.4% ๐ฅ | — | ํฐ๋ฏธ๋/DevOps ์์ |
| ์ปจํ ์คํธ ์๋์ฐ | 1M ๐ฅ | 200K (1M ๋ฒ ํ) | 1M ๐ฅ | ์ฒ๋ฆฌ ๊ฐ๋ฅ ๋ฌธ๋งฅ๋ |
| API ์ ๋ ฅ ๋น์ฉ (1M ํ ํฐ) | $2.50 | $5.00 | $0.30 ๐ฅ | ๊ฐ๋ฐ์ ๋น์ฉ ํจ์จ |
| ์์ด์ ํธ ์ฐ์ ์์ | ๋ฏธ๊ณต๊ฐ | 14.5์๊ฐ ๐ฅ | ๋ฏธ๊ณต๊ฐ | ์์จ ์ฅ๊ธฐ ์์ ๋ฅ๋ ฅ |
โฃ 2026๋ AI ๊ตฌ๋ ๊ฐ๊ฒฉ ์์ ๋น๊ต — ์ 2~5๋ง ์, ์ด๋์ ์ธ๊น?
| ํญ๋ชฉ | GPT-5 (ChatGPT Plus) | Gemini Advanced | Claude Pro |
|---|---|---|---|
| ์ ๊ตฌ๋ ๋ฃ | $20 (≈2.7๋ง์) | $19.99 (≈2.7๋ง์) | $20 (≈2.7๋ง์) |
| ํฌํจ ๋ชจ๋ธ | GPT-5, GPT-5 Mini | Gemini 3 Pro/Flash | Claude Opus 4.6, Sonnet 4.6 |
| API ์ ๋ ฅ๊ฐ (1M ํ ํฐ) | $2.50 (GPT-5.4) | $0.30 ๐ฅ (Gemini 3 Flash) | $5.00 (Opus 4.6) |
| API ๋ฏธ๋/์๋ท ๊ฐ๊ฒฉ | $0.05 (GPT-5 Mini) | $0.30 (Flash) | $3.00 (Sonnet 4.6) |
| ๋ฌด๋ฃ ํ๋ ์ฌ์ฉ ๊ฐ๋ฅ | โ ์ ํ์ | โ ์ ํ์ | โ ์ ํ์ |
| ๊ธฐ์ ์ฉ ํ๋ | ChatGPT Enterprise | Google Workspace | Claude for Work |
| ์ฝ๋ฉ IDE ํตํฉ | Copilot (๋ณ๋) | Gemini Code Assist | Claude Code ๋ค์ดํฐ๋ธ ๐ฅ |
โค ๋์๊ฒ ๋ง๋ AI๋? — ์ฌ์ฉ ๋ชฉ์ ๋ณ ์๋ฒฝ ๊ฐ์ด๋
SWE-bench 80.8% ์ธ๊ณ 1์, Claude Code IDE ํตํฉ, 14์๊ฐ ์์จ ๊ฐ๋ฐ. ์ฝ๋ฉ์ด ๋ชฉ์ ์ด๋ผ๋ฉด ๋ต์ Claude๋ค.
Gmail·Docs·Sheets ์์ ํตํฉ, PhD๊ธ ์ถ๋ก , ๊ฐ์ฅ ์ ๋ ด. ๊ตฌ๊ธ ์ํ๊ณ ์ด๋ค๋ฉด ๋ฌด์กฐ๊ฑด Gemini.
์ปดํจํฐ ์ง์ ์กฐ์(OSWorld 75%), 1M ์ปจํ ์คํธ, ๋ฒ์ฉ ์์ด์ ํธ ์ํ๊ณ ์ต๊ฐ. ์๋ํ ์ํฌํ๋ก์ฐ ๊ตฌ์ถ์ ์ต์ .
์ธ๊ฐ์ ๋ฌธ์ฒด, ๊ฐ์ฑ ๋ถ์, ๊ธด ๋ฌธ๋งฅ ์ ์ง๋ ฅ ์ต๊ณ . Opus๊ธ ํ์ง์ 1/5 ๊ฐ๊ฒฉ์. ์ฝํ ์ธ ์ ์ ROI ์ต๊ณ .
๐ฐ๐ท ํ๊ตญ ์ฌ์ฉ์ ํน๋ณ ๊ฐ์ด๋
ํ๊ตญ์ด ์ฒ๋ฆฌ ์ฑ๋ฅ์ ์ธ ๋ชจ๋ธ ๋ชจ๋ 2026๋ ๊ธฐ์ค ํฌ๊ฒ ํฅ์๋์ง๋ง, ๋ฏธ๋ฌํ ์ฐจ์ด๊ฐ ์๋ค. ๋ค์ด๋ฒ ์๋น์ค ์ฐ๋์ด ์ค์ํ๋ค๋ฉด ํ์ดํผํด๋ก๋ฐX ๊ธฐ๋ฐ ๋ค์ด๋ฒ AI๋ ๋ณํ ๊ฒํ ํ์. ๊ฐ์ธ ๋ธ๋ก๊ทธ·์ฝํ ์ธ ์ ์์ Claude Sonnet 4.6, ์คํํธ์ ๊ฐ๋ฐํ์ด๋ผ๋ฉด Claude Code + Gemini Flash ์ฝค๋ณด๊ฐ ๋น์ฉ ํจ์จ์ด ๊ฐ์ฅ ๋๋ค.
๐ 2026 AI ๋ชจ๋ธ ๋๊ฒฉ๋ ํต์ฌ ์ ๋ฆฌ — ์ด๊ฒ๋ง ๊ธฐ์ตํ์ธ์
- GPT-5.4 — ์ํ ๋ง์ (AIME 100%), ์ปดํจํฐ ์กฐ์ 1์(OSWorld 75%), ๋ฒ์ฉ ์์ด์ ํธ์ ์
- Claude Opus 4.6 — ์ฝ๋ฉ ์ธ๊ณ 1์(SWE-bench 80.8%), 14.5์๊ฐ ์์จ ์์ด์ ํธ, ์ํฐํ๋ผ์ด์ฆ LLM ์ ์ ์จ 32%๋ก 1์
- Gemini 3 Flash — PhD ์ถ๋ก 1์(GPQA 90.4%), 16๋ฐฐ ์ ๋ ดํ API($0.30), ๊ตฌ๊ธ ์ํ๊ณ ์์ ํตํฉ
- 2026๋ AI๋ '์ฑ๋ด → ์์ด์ ํธ'๋ก ์์ ์ ํ — ์ด์ AI๋ ๋ตํ๋ ๊ฒ ์๋๋ผ ์ง์ ์ผํ๋ค
- ๋จ์ผ ์ต๊ฐ์๋ ์๋ค — ๋ชฉ์ ์ ๋ง๋ ๋ชจ๋ธ ์ ํ์ด 2026๋ AI ํ์ฉ์ ํต์ฌ ์ ๋ต
- GPT-5 ๋ฏธ๋($0.05) · Gemini Flash($0.30) · Claude Sonnet($3.00) — ๊ฐ์ฑ๋น ๋ชจ๋ธ๋ก๋ ํ๋๊ทธ์ญ๊ธ ์ฑ๋ฅ ๊ฐ๋ฅ