Claude Opus 4.6 vs Opus 4.5 비교 분석
작성일: 2026-02-07 | Anthropic Claude Opus 4.6 출시(2026-02-05) 기준
1. 개요
Anthropic은 2026년 2월 5일 Claude Opus 4.6을 발표했다. 전작 Opus 4.5 대비 코딩, 에이전트, 추론, 과학 분석 등 거의 전 영역에서 성능이 향상되었으며, 1M 토큰 컨텍스트 윈도우, Adaptive Thinking, Agent Teams 등 새로운 기능이 추가되었다. 다만 일부 사용자들 사이에서는 글쓰기 품질 저하 논란도 제기되고 있다.
2. 핵심 벤치마크 비교
| 벤치마크 | Opus 4.5 | Opus 4.6 | 변화 |
|---|---|---|---|
| Terminal-Bench 2.0 (에이전트 코딩) | 59.8% | 65.4% | +5.6pp |
| SWE-bench Verified (소프트웨어 엔지니어링) | 80.9% | 80.8% | -0.1pp (동률) |
| OSWorld (에이전트 컴퓨터 사용) | 66.3% | 72.7% | +6.4pp |
| BrowseComp (웹 리서치) | 67.8% | 84.0% | +16.2pp |
| ARC AGI 2 (추상 추론) | 37.6% | 68.8% | +31.2pp (거의 2배) |
| Humanity's Last Exam (도구 없음) | 30.8% | 40.0% | +9.2pp |
| Humanity's Last Exam (도구 사용) | 43.4% | 53.1% | +9.7pp |
| GPQA Diamond (대학원 수준 Q&A) | 87.0% | 91.3% | +4.3pp |
| GDPval-AA (경제적 가치 업무) | 1416 Elo | 1606 Elo | +190 Elo |
| Finance Agent (금융 분석) | 55.9% | 60.7% | +4.8pp |
| Long-context MRCR v2 (8-needle 1M) | 18.5% | 76.0% | +57.5pp |
| MCP Atlas (도구 협업) | 62.3% | 59.5% | -2.8pp (퇴보) |
| t2-bench Retail | 88.9% | 91.9% | +3.0pp |
주목할 점
- ARC AGI 2: 37.6% -> 68.8%로 거의 2배 향상. 추상적 추론 능력의 극적인 개선.
- BrowseComp: 16.2pp 상승. 웹 리서치 에이전트로서의 능력이 크게 강화.
- Long-context MRCR v2: 18.5% -> 76.0%. 컨텍스트 윈도우 확대(200K -> 1M)의 실질적 효과.
- MCP Atlas: 유일하게 Opus 4.5 대비 퇴보한 벤치마크 (-2.8pp). 대규모 도구 협업 시나리오에서의 약점.
- SWE-bench: 거의 동률. 순수 코드 작성 능력 자체보다는 에이전트 운용 능력에 최적화가 집중됨.
3. 주요 신규 기능
3.1 1M 토큰 컨텍스트 윈도우 (베타)
| 항목 | Opus 4.5 | Opus 4.6 |
|---|---|---|
| 컨텍스트 윈도우 | 200K 토큰 | 1M 토큰 (베타) |
| 최대 출력 토큰 | 32K | 128K |
| Long-context 검색 성능 | 18.5% | 76.0% |
Opus 클래스 모델 최초로 1M 토큰 컨텍스트를 지원한다. 단일 문서가 아닌 전체 레포지토리 히스토리, 특허 포트폴리오, 대규모 코드베이스를 한 번에 처리할 수 있는 수준. 200K 이상 프롬프트에는 프리미엄 요금($10/$37.50)이 적용된다.
3.2 Adaptive Thinking
Extended Thinking의 진화 버전. 모델이 요청의 복잡도를 자동 판단하여 심층 추론이 필요한 경우에만 확장 사고를 사용한다.
- 4단계 effort 레벨: low, medium, high(기본값), max
- 개발자가 지능/속도/비용 간의 trade-off를 세밀하게 제어 가능
- 단순 질문에는 빠르게, 복잡한 문제에는 깊게 사고
3.3 Agent Teams
Claude Code에서 여러 Claude 인스턴스를 동시에 실행하여 병렬 작업이 가능한 기능 (리서치 프리뷰).
- 각 에이전트가 독립적인 컨텍스트 윈도우(최대 1M)를 보유
- Mailbox Protocol로 에이전트 간 P2P 메시징
- Anthropic 데모: 16개 에이전트가 C 컴파일러를 처음부터 구축
- 순차 처리 대비 대규모 프로젝트에서 비약적 효율 향상
3.4 Context Compaction
대화가 컨텍스트 한계에 도달하면 이전 컨텍스트를 자동 요약/압축하여 긴 세션을 지속할 수 있게 해주는 기능. Claude Code에서 특히 유용.
3.5 Office 통합
- Claude in Excel: 대폭 업그레이드
- Claude in PowerPoint: 리서치 프리뷰로 신규 출시
- 스프레드시트 분석 -> 프레젠테이션 자동 생성 워크플로우 지원
4. 가격 정책
| 항목 | Opus 4.5 | Opus 4.6 |
|---|---|---|
| 입력 (표준) | $5 / 1M 토큰 | $5 / 1M 토큰 |
| 출력 (표준) | $25 / 1M 토큰 | $25 / 1M 토큰 |
| 입력 (200K+ 프리미엄) | N/A | $10 / 1M 토큰 |
| 출력 (200K+ 프리미엄) | N/A | $37.50 / 1M 토큰 |
| 최대 출력 | 32K 토큰 | 128K 토큰 |
표준 요금은 동일하게 유지. 200K 이상 프롬프트를 사용할 때만 프리미엄 요금이 적용된다.
5. 과학/전문 분야 성능
Opus 4.6은 과학 분야에서 특히 두드러진 향상을 보인다:
- 계산 생물학, 구조 생물학, 유기화학, 계통발생학: Opus 4.5 대비 약 2배 성능
- 금융 분석 에이전트: 55.9% -> 60.7%
- 경제적 가치 업무(GDPval-AA): 190 Elo 포인트 상승 (GPT-5.2 대비 144 Elo 앞섬)
- Vending-Bench 2 (장기 일관성): Opus 4.5 대비 $3,050.53 더 높은 수익 달성
6. 글쓰기 품질 논란
Opus 4.6의 가장 논쟁적인 측면은 글쓰기 품질이다.
부정적 반응
- 일부 사용자들이 기술 문서 작성, 일반 산문 품질 저하를 보고
- 추론 최적화를 위한 강화학습이 자연스러운 산문 품질을 희생했다는 이론 제기
- "Better Coding, Worse Writing?" — 코딩과 글쓰기 간 의도적 trade-off 가능성
긍정적 반응
- 창의적 의사결정 능력은 오히려 향상되었다는 평가
- 디자인 품질, 브랜드 아이덴티티, 편집 수준의 프레젠테이션 등 창의적/구조적 작업에서 진보
- 추가 프롬프팅 없이도 더 강한 창의적 결정을 내림
결론
- 코딩/에이전트 작업: Opus 4.6 권장
- 창작 글쓰기/기술 문서: Opus 4.5가 더 나을 수 있음
- 용도에 따라 모델을 선택하는 것이 바람직
7. 안전성 및 정렬
Anthropic에 따르면 Opus 4.6은 기만, 아첨(sycophancy), 사용자 망상 조장, 오용 협력 등 오정렬 행동 비율이 낮으며, Opus 4.5와 동등한 수준의 안전성을 유지한다.
8. 총평: 누가 어떤 모델을 써야 하는가
| 사용 사례 | 권장 모델 | 이유 |
|---|---|---|
| 에이전트 코딩 / 대규모 코드베이스 | Opus 4.6 | Terminal-Bench, OSWorld 대폭 향상 |
| 병렬 에이전트 작업 | Opus 4.6 | Agent Teams 기능 |
| 대규모 문서/코드 분석 | Opus 4.6 | 1M 컨텍스트, 76% 검색 성능 |
| 추상 추론 / 과학 분석 | Opus 4.6 | ARC AGI 2x, 과학 벤치마크 2x |
| 금융/기업 업무 | Opus 4.6 | GDPval-AA +190 Elo |
| 창작 글쓰기 / 산문 | Opus 4.5 | 글쓰기 품질 저하 보고 |
| 대규모 MCP 도구 협업 | Opus 4.5 | MCP Atlas 퇴보 |
| 예측 가능한 비용/지연 | Opus 4.5 | 낮은 지연시간, 예측 가능한 비용 |
Opus 4.6은 단순한 "업그레이드"가 아니라 전문화의 진화다. Opus 4.5가 안정적인 범용 모델로 남아있는 반면, Opus 4.6은 코딩/에이전트/추론/과학 분석에 특화된 엔터프라이즈 모델로 포지셔닝된다.
Sources
- Introducing Claude Opus 4.6 - Anthropic 공식
- Claude Opus 4.6 vs 4.5 Benchmarks (Explained) - Vellum
- Claude Opus 4.6: Better Coding, Worse Writing? - WinBuzzer
- Anthropic releases Opus 4.6 with new 'agent teams' - TechCrunch
- Building a C compiler with a team of parallel Claudes - Anthropic Engineering
- Anthropic launches Claude Opus 4.6 as AI moves toward a 'vibe working' era - CNBC
- Claude Opus 4.6 vs 4.5: Benchmarks, Context Window & Real Testing Results - SSNTPL
- Claude Opus 4.6 vs Opus 4.5: A Real-World Comparison - Cosmic
- Anthropic debuts Opus 4.6 with standout scores - The New Stack
- Claude Opus 4.6: Features, Benchmarks, and Pricing Guide - DigitalApplied

댓글
댓글을 작성하려면 이 필요합니다.