2026년 2월, AI 3파전의 진짜 승자는 누구인가

2월 5일 오후, Anthropic이 Claude Opus 4.6을 공개했습니다. 정확히 20분 뒤, OpenAI가 GPT-5.3-Codex를 내놓았습니다. 그리고 2주 후인 2월 19일, Google DeepMind가 Gemini 3.1 Pro를 발표했습니다. 3주 만에 세 회사가 각자의 최신 플래그십 모델을 쏟아낸 겁니다. 27년간 이 업계에서 일하면서 이렇게 치열한 출시 경쟁은 처음 봤습니다.

흥미로운 건 결과입니다. LMArena에서 사람들이 블라인드 테스트로 평가한 Elo 점수를 보면, 세 모델의 차이가 고작 4점입니다. Opus 4.6이 1504, Gemini 3.1 Pro가 1500. 통계적으로 무의미한 차이입니다. 그런데 벤치마크를 뜯어보면 결과가 완전히 다릅니다. 추상 추론에서는 Gemini가, 실전 코딩에서는 Claude가, 수학에서는 GPT가 각각 앞섭니다. 단일 승자가 사라진 시대가 왔습니다.

다음 그림은 세 모델의 핵심 강점을 한눈에 비교한 것입니다.

Gemini 3.1 Pro는 추상 추론과 가격에서, Claude Opus 4.6은 실전 코딩과 엔터프라이즈에서, GPT-5.3 Codex는 수학과 터미널 코딩에서 각각 강점을 보입니다. LMArena Elo 차이가 4점에 불과하다는 건, 범용 성능에서는 사실상 동급이라는 뜻입니다.

이 글에서는 세 모델을 직접 분석합니다. Gemini 3.1 Pro가 이번 라운드에서 가장 큰 폭의 성능 향상을 보여줬기 때문에 비중을 두되, Claude Opus 4.6의 에이전트 팀과 엔터프라이즈 강점, GPT-5.3-Codex의 자기 학습과 오픈소스 전략도 빠짐없이 다룹니다. Google이 "16개 벤치마크 중 13개에서 1위"라고 주장하는데, 그 숫자 뒤에 숨겨진 맥락까지 파헤칩니다.

Gemini 3.1 Pro, Google의 가장 야심찬 반격

3개월 만에 세대를 바꿨습니다

Gemini 3 Pro가 나온 지 불과 3개월. Google이 ".1" 증분 업데이트라는 새로운 패턴을 들고 왔습니다. 이전에는 Gemini 2.5처럼 ".5" 단위로 중간 업데이트를 했는데, 이번에는 더 짧은 주기로, 더 집중적인 개선을 선택했습니다.

하드웨어 스펙부터 봅니다. Sparse Mixture-of-Experts Transformer 아키텍처를 기반으로, 독립 연구자들은 파라미터 규모를 약 3조(3T)로 추정합니다. 입력 컨텍스트는 1M 토큰, 출력은 65K 토큰까지 지원합니다. 파일 업로드 한도도 20MB에서 100MB로 5배 늘었습니다. 전체 코드 리포지토리를 통째로 올릴 수 있는 수준입니다.

그런데 스펙보다 중요한 건 구조적 변화입니다. 이번 3.1 Pro의 핵심은 3단계 사고 시스템이거든요.

Deep Think Mini, 추론의 판을 바꾼 기능

Gemini 3 Pro는 사고 레벨이 low와 high 두 가지뿐이었습니다. 3.1 Pro는 여기에 medium을 추가했고, high의 의미를 완전히 재정의했습니다.

low는 자동완성이나 단순 질문에 적합합니다. 1-3초 안에 응답이 나옵니다. medium은 기존 3 Pro의 high에 해당하는 수준으로, 코드 리뷰나 일반 분석에 쓰입니다. 3-8초 정도 걸립니다. 그리고 high가 이번의 핵심입니다. Deep Think Mini라는 모드가 작동하면서, Google의 전문 추론 모델인 Gemini 3 Deep Think의 축소 버전처럼 동작합니다. 복잡한 디버깅이나 과학 문제를 풀 때 몇 분에 걸쳐 깊이 추론합니다.

API에서 이렇게 설정합니다.

from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

# medium 레벨: 일반적인 코딩 작업에 적합
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="이 함수의 시간 복잡도를 분석해주세요",
    config={"thinking_config": {"thinking_level": "MEDIUM"}}
)

# high 레벨: Deep Think Mini 활성화
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="이 분산 시스템의 일관성 보장 메커니즘에서 발생 가능한 경합 조건을 분석해주세요",
    config={"thinking_config": {"thinking_level": "HIGH"}}
)

VentureBeat는 이 기능을 두고 "조절 가능한 Deep Think Mini"라고 평했습니다. 작업 난이도에 따라 추론 깊이를 직접 고를 수 있게 된 것이 3.1 Pro의 가장 큰 차별점이죠.

ARC-AGI-2에서 77.1%, 이 숫자가 왜 중요한가

벤치마크 이야기를 할 때, 숫자만 나열하는 건 의미가 없습니다. 맥락이 필요합니다.

ARC-AGI-2는 패턴을 암기해서 푸는 시험이 아닙니다. 사람에게 처음 보는 추상적 패턴을 보여주고, 그 규칙을 파악해서 새로운 입력에 적용하라고 요구합니다. 유동 지능을 측정하는 벤치마크입니다. 인간 평균이 43%인데, Gemini 3.1 Pro가 77.1%를 기록했습니다. 3 Pro의 31.1%에서 46%p가 올라간 겁니다. +148% 향상입니다. 단일 세대에서 이 정도 폭으로 추론 성능이 뛴 건 프론티어 모델 역사상 처음입니다.

비교하면 Claude Opus 4.6이 68.8%, GPT-5.2가 52.9%입니다. 추상 추론 영역에서 Gemini가 확실한 1위입니다.

Artificial Analysis의 Intelligence Index v4.0에서도 116개 모델 중 1위(57점)를 차지했습니다. GPQA Diamond(PhD급 과학 추론)에서는 94.3%로 인간 전문가(97%)와의 격차가 3%p 이내로 좁혀졌습니다.

코딩 벤치마크도 눈여겨볼 만합니다. SWE-Bench Verified에서 80.6%를 기록했는데, 이전 76.8%에서 약 4%p 올랐습니다. Claude Opus 4.6의 80.8%와 불과 0.2%p 차이입니다. LiveCodeBench Pro에서는 Elo 2887로 GPT-5.2의 2393을 약 500점 차이로 앞섰습니다.

에이전트 성능도 많이 올랐습니다. BrowseComp(웹 검색 에이전트)에서 59.2%에서 85.9%로 +45%, MCP Atlas(다단계 워크플로)에서는 54.1%에서 69.2%입니다. Google이 에이전트 워크플로에 집중 투자하고 있다는 게 숫자로 드러나는 부분이죠.

"16개 중 13개 승리"라는 주장의 이면

Google은 Gemini 3.1 Pro가 16개 벤치마크 중 13개에서 1위라고 발표했습니다. 그런데 SmartScope의 독립 분석을 보면, 이 주장에는 꽤 큰 빈틈이 있습니다.

첫째, GPT-5.3-Codex는 16개 벤치마크 중 2개에만 점수를 공개했습니다. 나머지 14개에서의 "승리"는 참여하지 않은 경쟁자를 이긴 것입니다. 출전하지 않은 선수에게 이겼다고 메달을 주는 셈입니다.

둘째, Google의 비교표에 의도적으로 빠진 벤치마크가 있습니다. GDPval-AA(기업 업무 평가)에서 Gemini 3.1 Pro는 1317 Elo인데, Claude Sonnet 4.6이 1633, Opus 4.6이 1606입니다. 약 300점 차이입니다. 금융과 법률 같은 전문 업무에서는 Claude가 압도적입니다. BigLaw Bench(법률 추론)에서 Opus 4.6의 90.2%도 포함되지 않았습니다.

셋째, 100만 토큰 장문맥 테스트인 MRCR v2 1M에서 Opus 4.6이 76%를 기록한 반면, Gemini 3.1 Pro는 이 테스트 결과를 공개하지 않았습니다. 128K 수준에서는 84.9%로 우수하지만, 100만 토큰 영역은 별개의 문제입니다.

"13개에서 1위"라는 주장은 사실이되, 전체 그림은 아닙니다. Google이 강한 영역의 벤치마크를 선별해서 발표한 측면이 있습니다. 이건 Google만의 문제가 아닙니다. 세 회사 모두 자사에 유리한 벤치마크를 강조하는 패턴은 동일합니다.

가격이라는 압도적 무기

Gemini 3.1 Pro의 가장 강력한 경쟁력은 벤치마크가 아니라 가격입니다.

100만 토큰당 입력 $2.00, 출력 $12.00. Gemini 3 Pro와 동일한 가격입니다. 성능은 세대급으로 올리고 가격은 그대로 유지했습니다. 사실상 무료 업그레이드입니다.

Claude Opus 4.6은 입력 $5.00, 출력 $25.00입니다. 입력 기준으로 Gemini 3.1 Pro의 2.5배, 출력 기준으로 약 2.1배 비쌉니다. GPT-5.2는 입력 $1.75, 출력 $14.00으로 Gemini와 비슷한 수준이지만, GPT-5.2 Pro는 입력 $21.00, 출력 $168.00까지 올라갑니다.

컨텍스트 캐싱을 쓰면 반복 컨텍스트 비용을 최대 75%까지 줄일 수 있습니다. 같은 시스템 프롬프트를 반복 사용하는 에이전트 워크플로에서는 실질적인 가격 차이가 더 벌어집니다.

JetBrains AI 디렉터 Vladislav Tankov는 "이전 3 Pro 대비 약 15% 적은 토큰으로 동등하거나 우수한 결과를 낸다"고 평가했습니다. 같은 가격에 토큰 효율성까지 올랐으니, 실질 비용은 오히려 내려간 셈이죠.

구독 플랜을 보면 Google AI Pro가 월 $19.99, Ultra가 $124.99입니다. Claude Pro가 $20, ChatGPT Plus가 $20, Pro가 $200입니다. 대략 비슷한 가격대에서 Gemini는 1M 토큰 컨텍스트와 Deep Think까지 제공합니다.

그런데 왜 개발자들은 불만인가

벤치마크와 가격만 보면 Gemini 3.1 Pro가 압도적 승자처럼 보입니다. 그런데 현업 개발자에게 물어보면 반응이 갈립니다. Medium의 한 개발자가 쓴 제목이 상황을 정확히 요약합니다. "Gemini 3.1 Pro는 내가 아는 가장 똑똑하면서도 가장 멍청한 모델입니다."

추론과 코드 생성에서는 뛰어납니다. 알고리즘 문제를 풀거나 코드 리뷰를 하면 깜짝 놀랄 수준의 답변이 나옵니다. 그런데 실제 프로젝트에서 복잡한 작업을 끝까지 완수하는 데서 문제가 생깁니다.

Tom's Guide가 Gemini 3.1 Pro와 Claude Sonnet 4.6을 7가지 실전 테스트로 비교했습니다. 타워 디펜스 게임을 만들거나 ChatGPT 클론을 구축하는 복잡한 작업에서, Gemini 3.1 Pro는 "통제를 벗어나" 도구 출력을 채팅에 직접 내보내거나, 생성을 중간에 멈추는 불안정한 동작을 보였습니다. UI/UX 품질도 Sonnet 4.6보다 떨어졌습니다.

The New Stack의 평가도 비슷합니다. "대체로 훌륭합니다." 추론과 디자인, 코드 생성에서는 뛰어나지만, 실제 작업을 끝까지 완수하는 데서는 "일관되게 가장 좌절스러운 모델"이라는 겁니다.

장시간 코딩 세션에서 Gemini CLI가 기능적 코드 청크를 삭제하는 사례도 보고됐습니다. 고수요 시간대에 기본 입력 처리에 최대 104초가 걸리는 지연 시간 스파이크도 문제입니다.

My Living AI라는 매체는 "GPT-5.2보다 똑똑하지만, 영혼이 있는가?"라고 물었습니다. 벤치마크 점수가 높은 것과 실제 사용 경험이 좋은 것은 다른 문제라는 지적입니다. 로봇 같고 창의적 깊이가 부족하다는 비판도 있습니다.

정리하면, Gemini 3.1 Pro는 추론 능력과 가격에서 최고입니다. 그런데 실전 작업을 끝까지 완수하는 데서 자꾸 발목을 잡힙니다. 벤치마크 1등과 실사용 1등 사이의 간극, Google이 이걸 메울 수 있느냐가 관건입니다.

Claude Opus 4.6, 코딩과 엔터프라이즈의 왕좌

에이전트 팀, AI끼리 협업하는 구조

Claude Opus 4.6에서 가장 눈에 띄는 신기능은 에이전트 팀입니다. AI 하나가 코드를 쓰는 게 아니라, AI 여럿이 역할을 나눠서 코드를 쓰는 구조입니다.

구조는 이렇습니다. Lead(리드) 에이전트가 전체 작업을 조율하고, Teammate(팀원) 에이전트가 개별 태스크를 수행합니다. 이들은 Shared Task List(공유 태스크 목록)로 작업을 나누고, Mailbox(메일박스) 프로토콜로 직접 P2P 통신합니다. 파일 기반 중개나 오케스트레이터 중계 없이, 에이전트끼리 직접 대화하는 방식입니다.

각 에이전트가 최대 1M 토큰의 자체 컨텍스트 윈도우를 가지고 있다는 점이 중요합니다. 리드 에이전트가 API 설계를 맡고, 팀원 A가 백엔드 구현, 팀원 B가 프론트엔드 구현, 팀원 C가 테스트 작성을 동시에 진행할 수 있습니다. 권장 규모는 팀원 에이전트 2~5개에 각 5~6개 태스크입니다.

다음 그림은 에이전트 팀의 내부 구조를 보여줍니다.

Claude 에이전트 팀 아키텍처

Lead 에이전트가 전체를 조율하고, Teammate들이 독립 컨텍스트에서 병렬로 작업합니다. 공유 태스크 목록으로 작업을 나누고, P2P 메일박스로 직접 통신하는 구조입니다.

아직 실험적 기능으로 기본 비활성화 상태이고, 환경 변수 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS를 설정해야 쓸 수 있습니다. 하지만 방향 자체가 흥미롭습니다. 하나의 AI 에이전트가 못하는 걸, 여러 에이전트를 묶어서 해결하겠다는 접근이거든요.

500개 제로데이, AI 보안의 새로운 가능성

Anthropic이 Opus 4.6을 프로덕션 오픈소스 코드베이스에 투입해 500개 이상의 심각한 보안 취약점을 찾아냈다는 발표도 있습니다. 수십 년간 전문가 리뷰와 수백만 CPU 시간의 퍼징을 견뎌온 코드에서 찾아낸 겁니다.

GhostScript의 폰트 처리 버퍼 오버플로우, OpenSC의 strcat 버퍼 오버플로우, CGIF의 LZW 압축 버퍼 오버플로우 등이 대표적입니다. 특히 LZW 압축 에지 케이스를 예측한 건 단순 패턴 매칭이 아니라 알고리즘 자체를 이해한 결과입니다.

방법론도 흥미롭습니다. 샌드박스 VM 환경에서 특수 지시 없이 표준 도구만 제공했습니다. Git 히스토리를 분석하고, 코드 패턴을 인식하고, 알고리즘의 동작을 이해해서 취약점을 찾아냈습니다. 40개 사이버보안 조사 중 38건에서 이전 모델 대비 최고 결과를 기록했습니다.

적응형 사고, API에서는 이렇게 씁니다

Claude Opus 4.6의 적응형 사고는 Gemini의 3단계 수동 선택과 접근 방식이 다릅니다. 모델이 문제의 복잡도를 스스로 판단해서 사고 깊이를 조절합니다. API에서는 예산 토큰으로 상한만 설정합니다.

import anthropic

client = anthropic.Anthropic()

# 적응형 사고: 모델이 알아서 깊이를 조절합니다
response = client.messages.create(
    model="claude-opus-4-6-20260205",
    max_tokens=8096,
    thinking={
        "type": "enabled",
        "budget_tokens": 5000  # 사고에 쓸 수 있는 최대 토큰
    },
    messages=[{
        "role": "user",
        "content": "이 분산 시스템의 일관성 보장 메커니즘에서 발생 가능한 경합 조건을 분석해주세요"
    }]
)

# 사고 과정과 응답을 분리해서 확인할 수 있습니다
for block in response.content:
    if block.type == "thinking":
        print(f"사고 과정: {block.thinking[:200]}...")
    elif block.type == "text":
        print(f"응답: {block.text}")

Gemini는 사용자가 low/medium/high를 직접 고르고, Claude는 모델이 알아서 판단합니다. 어떤 접근이 더 나은지는 사용 패턴에 따라 다릅니다. 예측 가능한 비용 통제가 중요하면 Gemini 방식이, 작업마다 최적의 깊이를 자동으로 맞추고 싶으면 Claude 방식이 유리합니다.

장문맥에서 진짜 차이가 나는 지점

Opus 4.6은 200K 기본 컨텍스트에 1M 베타를 지원합니다. 여기까지는 Gemini도 동일하고요. 차이는 장문맥에서의 실제 성능입니다.

MRCR v2 1M(100만 토큰에서의 정보 검색) 벤치마크에서 Opus 4.6이 76%를 기록했습니다. 이전 세대인 Sonnet 4.5가 18.5%였으니 4배 이상 뛴 겁니다. 256K 컨텍스트에서는 93%입니다.

Anthropic은 이를 "컨텍스트 열화(context rot)" 문제의 해결이라고 설명합니다. 이전 모델은 컨텍스트가 길어질수록 앞부분 정보를 잊어버렸는데, Opus 4.6에서 이걸 구조적으로 해결했다는 겁니다.

엔터프라이즈에서 격차가 벌어지는 이유

GDPval-AA 벤치마크에서 Opus 4.6이 1,606 Elo를 기록했습니다. GPT-5.2는 1,462, Gemini 3.1 Pro는 1,317이고요. 금융, 법률 같은 전문 영역에서 Claude가 GPT를 70% 확률로 이기고, Gemini와는 약 300 Elo 차이입니다. BigLaw Bench 90.2%도 이 벤치마크 최고 기록입니다.

이 수치가 Anthropic의 비즈니스에 그대로 반영됩니다. Fortune 10 기업 중 8곳이 Claude 고객이고, $100만 이상 지출 고객이 500개를 넘었습니다. 2년 전에는 12곳이었습니다. 엔터프라이즈 LLM API 시장에서 32%를 점유하며, OpenAI의 25%를 추월했습니다.

Claude Code의 연간 매출이 $25억입니다. Anthropic 전체 연간 매출 $140억의 약 18%를 Claude Code 하나가 벌고 있는 셈이죠.

글쓰기 퇴보라는 아킬레스건

그런데 모든 게 좋은 건 아닙니다. 개발자 커뮤니티에서 "코딩에는 4.6, 글쓰기에는 4.5를 쓰라"는 합의가 형성되고 있습니다.

Reddit의 r/ClaudeCode에서 "Opus 4.6 lobotomized"라는 제목의 게시물이 167개 추천을 받으며 확산됐습니다. 코딩 성능은 확실히 올라갔는데, 산문의 품질이 떨어졌다는 겁니다. GitHub에서도 컨텍스트 압축 이후 CLAUDE.md의 핵심 규칙을 잊어버리는 문제(Issue #28469)가 보고됐습니다. "절대 main 브랜치에 푸시하지 말 것" 같은 규칙을 압축 과정에서 날려버리는 겁니다.

한 전문 사용자는 "5분 걸리던 작업이 20-30분의 감시와 수정이 필요하게 됐다"고 보고했습니다. 다중 산출물 태스크에서 성능이 92/100에서 38/100으로 떨어진 사례(Issue #24991)도 있습니다.

코딩과 글쓰기를 동시에 잘하는 AI는 아직 없습니다. Anthropic이 코딩 쪽에 최적화하면서 글쓰기에서 트레이드오프가 생긴 것으로 보입니다.

RSP 3.0, 안전의 방향 전환

2월 24일, Anthropic이 책임 있는 스케일링 정책(RSP)을 3.0으로 업데이트했습니다. 가장 논란이 된 변화는 핵심 안전 서약의 삭제입니다. 2023년부터 유지해온 "적절한 안전 조치를 사전에 보장할 수 없으면 AI 모델을 출시하지 않겠다"는 약속을 폐기한 겁니다.

Anthropic 수석 과학자 Jared Kaplan은 "AI가 빠르게 발전하는 상황에서 일방적 약속을 유지하는 것이 합리적이지 않다고 판단했다"고 설명했습니다. TIME은 "Anthropic Drops Flagship Safety Pledge"라는 제목으로 독점 보도했고, CNN도 후속 보도를 냈습니다.

AI 안전을 최우선으로 내세우며 차별화했던 기업이 경쟁 압력에 방향을 틀었다는 비판이 있습니다. 반면, 비현실적인 약속보다 구체적인 안전 로드맵이 낫다는 반론도 있습니다. RSP 3.0은 평가 주기를 6개월로 명확히 하고, CBRN 개발 관련 새 역량 임계값을 추가했습니다. "확고한 약속"에서 "진행 상황을 투명하게 평가하는 공개 목표"로의 전환입니다.

GPT-5.2와 GPT-5.3-Codex, OpenAI의 이중 전략

수학의 제왕

GPT-5.2의 가장 강력한 무기는 수학 추론입니다. AIME 2025에서 100%를 달성했습니다. Opus 4.6도 동일하게 100%를 기록했지만, 더 넓은 수학 벤치마크에서는 GPT가 확실히 앞섭니다. FrontierMath Tier 1-3에서 40.3%로 단독 1위이고, Gemini 3 Pro는 AIME 95%에 머물렀습니다. 수학 추론 전반에서 GPT-5.2가 가장 강합니다.

GPQA Diamond에서는 92.4%로, Gemini 3.1 Pro의 94.3%에는 못 미치지만 Claude의 91.3%보다는 높습니다. SWE-Bench Verified에서 80.0%로 3위이지만, 3사 모두 80% 대에 있어 실질적인 차이는 미미합니다.

GPT-5의 가장 큰 구조적 변화는 추론 통합입니다. 이전에는 o-시리즈(o1, o3)라는 별도 추론 모델이 필요했습니다. GPT-5부터는 기본 모델에 심층 추론이 내장됐습니다. 4단계 사고 레벨(자동 조절)로, 프롬프트의 복잡도에 따라 모델이 자동으로 추론 깊이를 조절합니다.

API에서는 reasoning effort 파라미터로 추론 깊이를 조절합니다.

from openai import OpenAI

client = OpenAI()

# 기본: 모델이 자동으로 추론 깊이를 조절합니다
response = client.chat.completions.create(
    model="gpt-5.2",
    messages=[{
        "role": "user",
        "content": "AIME 2025의 15번 문제를 풀어주세요"
    }],
    reasoning={"effort": "high"}  # low, medium, high
)

print(response.choices[0].message.content)

세 모델의 추론 깊이 조절 방식을 비교하면, Gemini는 3단계 수동 선택(low/medium/high), Claude는 예산 토큰 기반 자동 조절, GPT는 effort 파라미터 기반 자동 조절입니다. 인터페이스는 다르지만, "작업의 난이도에 맞는 추론 비용을 쓴다"는 방향은 세 회사 모두 동일합니다.

GPT-5.3-Codex, 자기 자신을 만든 모델

GPT-5.3-Codex가 특별한 이유는 "자기 자신을 만드는 데 기여한 최초의 모델"이라는 점입니다. Codex 팀이 이 모델의 초기 버전을 사용해서 자체 학습을 디버깅하고, 배포를 관리하고, 테스트 결과를 진단했습니다.

Terminal-Bench 2.0에서 77.3%를 기록하며 코딩 특화 벤치마크 1위를 차지했습니다. Gemini 3.1 Pro의 68.5%, Claude Opus 4.6의 65.4%를 크게 앞서는 점수입니다. 토큰 효율성에서도 경쟁 모델 대비 2-4배 적은 토큰으로 같은 결과를 냅니다.

그런데 이 모델에는 전례 없는 꼬리표가 붙어 있습니다. OpenAI Preparedness Framework에서 사이버보안 도메인 최초의 "High" 위험 등급을 받았습니다. Sam Altman 스스로 "사이버보안 고위험 카테고리에 도달한 최초의 모델"이라고 인정했습니다. 감시 기관은 "High" 위험 임계치에 도달했음에도 배포 전 구체적인 정렬 오류 안전장치를 마련하지 않은 것으로 보인다고 주장했고, 캘리포니아의 AI 법률(SB 1047) 위반 의혹까지 제기됐습니다.

코딩 능력이 너무 강해서 오히려 보안 위험이 된다는 역설적 상황입니다.

오픈소스로의 전환, gpt-oss

OpenAI가 Apache 2.0 라이선스로 오픈 웨이트 모델을 공개한 것도 2026년의 중요한 변화입니다. gpt-oss-120b는 토큰당 5.1B 활성 파라미터로 단일 80GB GPU에서 실행 가능하고, o4-mini와 거의 동등한 성능입니다. gpt-oss-20b는 16GB 메모리의 엣지 디바이스에서 돌아갑니다.

가격은 100만 토큰당 입력 $0.039, 출력 $0.19입니다. Claude Opus 4.6의 128분의 1 수준입니다. 셀프호스팅을 하면 API 비용 자체가 사라집니다. 월 500만 토큰 이상을 처리하는 환경이라면 경제성이 뒤집히는 지점입니다.

"비영리 AI 연구소"로 시작한 OpenAI가 완전 상업 법인으로 전환하고, 동시에 오픈소스 모델을 내놓는 상황은 아이러니합니다. 하지만 비즈니스 관점에서는 합리적입니다. 오픈소스로 생태계를 넓히고, 프리미엄 API와 Codex 앱으로 수익을 올리는 이중 전략입니다.

논란의 연속

OpenAI의 2026년은 논란으로 점철되어 있습니다. 캐나다 Tumbler Ridge 학교 총격 사건에서 가해자의 계정을 차단했지만 당국에 통보하지 않은 점이 비판받았습니다. 미션 스테이트먼트에서 "safely"라는 단어를 삭제한 것도 논란이 됐습니다. 9년 동안 6번째 미션 변경입니다. "Adult Mode"에 반대한 VP Ryan Beiermeister가 해고된 사건도 있습니다.

Anthropic이 RSP 3.0에서 안전 서약을 삭제하고, OpenAI가 미션에서 "safely"를 삭제하는 흐름을 보면, AI 안전이 경쟁 압력 앞에서 후순위로 밀리고 있다는 우려가 타당해 보입니다.

벤치마크를 넘어서, 실전에서의 차이

개발자들이 실제로 느끼는 차이

벤치마크 점수가 4 Elo 차이로 수렴하는 시대에, 실제 사용 경험의 차이가 더 중요해졌습니다. 현업 개발자들 반응을 종합해 보면 패턴이 보입니다.

SonarSource의 코드 품질 분석에 따르면, Gemini 3 Pro는 81.72% 통과율을 달성하면서 인지 복잡도와 코드 장황함이 가장 낮았습니다. 간결하고 읽기 쉬운 코드를 생성하는 능력에서 Gemini가 앞선다는 평가입니다. 반면 Claude는 복잡한 문제를 끝까지 해결하는 완주 능력에서 강합니다. GPT-5.3-Codex는 토큰 효율성에서 독보적입니다.

코딩 에이전트 도구의 실제 사용 현황도 살펴볼 만합니다. Cursor가 개인 개발자와 소규모 팀에서 가장 널리 쓰이고, GitHub Copilot이 엔터프라이즈에서 강세입니다. Claude Code는 "가장 강력한 코딩 두뇌"로 포지셔닝되어, 복잡한 문제 해결의 최종 수단으로 활용됩니다. 재밌는 건 이 도구들 대부분이 백엔드에서 여러 모델을 선택적으로 사용한다는 점입니다.

태스크별 최적 모델 라우팅

a16z의 2026년 엔터프라이즈 AI 조사에 따르면, 81%의 기업이 3개 이상의 AI 모델을 사용합니다. 2025년의 68%에서 상승한 수치입니다. 단일 모델에 올인하는 시대가 끝났다는 뜻입니다.

태스크별로 정리하면 이렇습니다.

추상 추론과 과학 문제를 풀어야 한다면 Gemini 3.1 Pro가 최적입니다. ARC-AGI-2 77.1%, GPQA Diamond 94.3%가 이를 뒷받침합니다. 가격도 가장 저렴합니다.

실전 코딩, 특히 기존 코드베이스에서 이슈를 해결하는 작업이라면 Claude Opus 4.6이 가장 안정적입니다. SWE-Bench 80.8%와 에이전트 팀 기능이 복잡한 개발 워크플로에 적합합니다.

금융, 법률 같은 전문 영역의 지식 업무에서는 Claude가 확실히 앞섭니다. GDPval-AA 1,606 Elo, BigLaw Bench 90.2%는 경쟁 모델과 큰 격차입니다.

수학 추론이 핵심이라면 GPT-5.2입니다. AIME 만점은 다른 모델이 아직 못 따라옵니다.

터미널 기반 에이전틱 코딩이라면 GPT-5.3-Codex입니다. Terminal-Bench 77.3%로 이 영역 1위거든요.

대용량 비디오나 오디오 분석은 Gemini입니다. 처음부터 멀티모달로 설계됐고, 60fps 실시간 비디오 처리까지 됩니다.

비용이 최우선이라면 Gemini 3.1 Pro($2/$12)나, 더 싼 Gemini 2.5 Flash-Lite($0.10/$0.40)가 정답입니다. 월 500만 토큰 이상이면 gpt-oss 셀프호스팅도 고려할 만합니다.

이런 라우팅 전략이 단일 모델 대비 70-80% 낮은 비용으로 더 나은 결과를 낸다는 분석도 있습니다.

다음 그림은 태스크 유형별 최적 모델을 정리한 가이드입니다.

태스크별 최적 모델 라우팅 가이드

추상 추론은 Gemini, 실전 코딩과 엔터프라이즈는 Claude, 수학은 GPT가 각각 최적입니다. 81% 기업이 이미 3개 이상의 모델을 사용하고 있다는 점이 이 라우팅 전략의 현실성을 뒷받침합니다.

다만 현실적인 비용을 간과하면 안 됩니다. 멀티모델 라우팅을 도입하면 모델별 프롬프트 관리, API 추상화 레이어 구축, 출력 포맷 표준화, 장애 시 폴백 처리 같은 엔지니어링 오버헤드가 생기거든요. 소규모 팀이라면 하나의 모델에 집중하고 프롬프트를 최적화하는 편이 총비용에서 유리합니다. 라우팅 전략은 월 수천만 토큰 이상을 처리하는 규모에서 빛을 발합니다.

돈의 전쟁, 세 회사의 체급 차이

기술 경쟁 뒤에는 돈의 전쟁이 있습니다.

OpenAI는 $5,000억 이상의 밸류에이션에 $1,100억 펀딩 라운드를 마감했습니다. Amazon이 $500억, Nvidia가 $300억, SoftBank가 $300억을 넣었습니다. 2026년 예상 손실은 $140억이고, 2028년까지 연간 현금 소진이 $470억에 달할 전망입니다. 수익성 달성 목표는 2030년입니다.

Anthropic은 $3,800억 밸류에이션에 $300억 시리즈 G 라운드를 마감했습니다. 연간 매출 $140억으로, $40억이던 10개월 전에서 3.5배 성장했습니다. Claude Code만으로 연 $25억을 벌고 있습니다.

Google은 알파벳 자회사로서 별도 밸류에이션이 없지만, 자체 TPU 칩과 클라우드 인프라를 보유한 구조적 비용 우위가 있습니다. 같은 수준의 모델을 절반 이하의 가격에 제공할 수 있는 이유입니다.

Motley Fool의 분석에 따르면, OpenAI와 Anthropic의 매출 규모가 이미 상장 소프트웨어 기업 수준입니다. 두 회사 중 최소 한 곳이 2026년 하반기에서 2027년 사이에 IPO를 추진할 것으로 보입니다.

단일 승자가 사라진 시대를 맞이하며

Foundation Capital은 "2026년 말까지 AI 시장은 독점이 아닌 3-4개 플레이어의 경쟁 구도로 변화할 것"이라고 전망했습니다. 이미 그렇게 되고 있습니다.

LMArena의 블라인드 평가에서 4 Elo 차이라는 숫자가 말해주는 건 간단합니다. 범용적으로 "최고의 AI"를 고르는 건 더 이상 의미 없는 질문입니다. 중요한 건 "내 작업에 최적인 AI는 무엇인가"입니다.

Gemini 3.1 Pro는 ARC-AGI-2에서 31.1%를 77.1%로 끌어올리며, 추상 추론에서 사람의 두 배에 가까운 성능을 보여줬습니다. 이 도약의 의미는 단순히 벤치마크 점수가 아닙니다. Deep Think Mini를 통해 전문 추론 모델의 능력을 범용 모델에 통합하는 접근이 효과적이라는 걸 증명한 겁니다. 그런데 실전 작업 완수도에서 "가장 좌절스러운 모델"이라는 평가가 공존합니다.

Claude Opus 4.6은 코딩과 엔터프라이즈 영역에서 확실한 1위입니다. 에이전트 팀이라는 멀티 에이전트 협업 구조도 내놓았고요. 그런데 글쓰기 품질이 퇴보했고, RSP 3.0에서 핵심 안전 서약을 삭제했습니다.

GPT-5.2는 수학에서 만점을 찍었고, GPT-5.3-Codex는 터미널 기반 코딩에서 최강입니다. 그런데 사이버보안 High 위험이라는 꼬리표가 붙었고, 미션에서 "safely"가 사라졌습니다.

세 모델 모두 대단한 성능을 보여주면서도, 각각 뚜렷한 약점을 안고 있습니다. 그리고 세 회사 모두 안전에 대한 기존 약속을 후퇴시키고 있습니다. 성능 경쟁이 치열해질수록 안전이 뒷전으로 밀리는 구조, 솔직히 좀 걱정됩니다.

Anthropic CEO Dario Amodei는 "2026년 말이나 2027년 초에 거의 모든 영역에서 모든 인간보다 나은 AI 시스템이 등장할 것"이라고 예측했습니다. 그때가 되면 지금의 벤치마크 경쟁은 역사의 한 페이지가 되겠죠. 그때까지 개발자에게 남은 건 하나입니다. 하나의 모델에 묶이지 말고, 작업마다 최적의 도구를 고르는 감각을 기르는 것. 2026년 2월의 3파전이 남긴 가장 실용적인 교훈입니다.

참고 자료

Google Blog: Gemini 3.1 Pro (https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/)
Google DeepMind: Gemini 3.1 Pro Model Card (https://deepmind.google/models/model-cards/gemini-3-1-pro/)
Anthropic: Introducing Claude Opus 4.6 (https://www.anthropic.com/news/claude-opus-4-6)
OpenAI: Introducing GPT-5.2 (https://openai.com/index/introducing-gpt-5-2/)
OpenAI: Introducing GPT-5.3-Codex (https://openai.com/index/introducing-gpt-5-3-codex/)
SmartScope: Gemini 3.1 Pro Benchmark Analysis (https://smartscope.blog/en/generative-ai/google-gemini/gemini-3-1-pro-benchmark-analysis-2026/)
Artificial Analysis: Intelligence Index v4.0 (https://artificialanalysis.ai/models/gemini-3-1-pro-preview)
Tom's Guide: Gemini 3.1 Pro vs Claude Sonnet 4.6 (https://www.tomsguide.com/ai/i-tested-gemini-3-1-pro-vs-claude-sonnet-4-6-in-7-tough-challenges-and-there-was-one-clear-winner)
The New Stack: Gemini 3.1 Pro Review (https://thenewstack.io/googles-gemini-3-1-pro-is-mostly-great/)
VentureBeat: Deep Think Mini (https://venturebeat.com/technology/google-gemini-3-1-pro-first-impressions-a-deep-think-mini-with-adjustable)
Anthropic: RSP v3.0 (https://anthropic.com/responsible-scaling-policy/rsp-v3-0)
TIME: Anthropic Drops Flagship Safety Pledge (https://time.com/7380854/exclusive-anthropic-drops-flagship-safety-pledge/)
red.anthropic.com: 0-Days (https://red.anthropic.com/2026/zero-days/)
Fortune: GPT-5.3-Codex Cybersecurity Risks (https://fortune.com/2026/02/05/openai-gpt-5-3-codex-warns-unprecedented-cybersecurity-risks/)
SonarSource: Code Quality Analysis (https://www.sonarsource.com/blog/new-data-on-code-quality-gpt-5-2-high-opus-4-5-gemini-3-and-more/)
a16z: Enterprise AI Arms Race (https://a16z.com/leaders-gainers-and-unexpected-winners-in-the-enterprise-ai-arms-race/)
Anthropic: Series G Funding (https://www.anthropic.com/news/anthropic-raises-30-billion-series-g-funding-380-billion-post-money-valuation)
SWE-bench Leaderboard (https://www.vals.ai/benchmarks/swebench)
ARC Prize (https://arcprize.org/)