Claude Opus 4.6 vs Opus 4.5 비교 분석

2026.02.06 22:12조회 67

·2026.02.06 22:12·조회 67

작성일: 2026-02-07 | Anthropic Claude Opus 4.6 출시(2026-02-05) 기준

1. 개요

Anthropic은 2026년 2월 5일 Claude Opus 4.6을 발표했다. 전작 Opus 4.5 대비 코딩, 에이전트, 추론, 과학 분석 등 거의 전 영역에서 성능이 향상되었으며, 1M 토큰 컨텍스트 윈도우, Adaptive Thinking, Agent Teams 등 새로운 기능이 추가되었다. 다만 일부 사용자들 사이에서는 글쓰기 품질 저하 논란도 제기되고 있다.

2. 핵심 벤치마크 비교

벤치마크	Opus 4.5	Opus 4.6	변화
Terminal-Bench 2.0 (에이전트 코딩)	59.8%	65.4%	+5.6pp
SWE-bench Verified (소프트웨어 엔지니어링)	80.9%	80.8%	-0.1pp (동률)
OSWorld (에이전트 컴퓨터 사용)	66.3%	72.7%	+6.4pp
BrowseComp (웹 리서치)	67.8%	84.0%	+16.2pp
ARC AGI 2 (추상 추론)	37.6%	68.8%	+31.2pp (거의 2배)
Humanity's Last Exam (도구 없음)	30.8%	40.0%	+9.2pp
Humanity's Last Exam (도구 사용)	43.4%	53.1%	+9.7pp
GPQA Diamond (대학원 수준 Q&A)	87.0%	91.3%	+4.3pp
GDPval-AA (경제적 가치 업무)	1416 Elo	1606 Elo	+190 Elo
Finance Agent (금융 분석)	55.9%	60.7%	+4.8pp
Long-context MRCR v2 (8-needle 1M)	18.5%	76.0%	+57.5pp
MCP Atlas (도구 협업)	62.3%	59.5%	-2.8pp (퇴보)
t2-bench Retail	88.9%	91.9%	+3.0pp

주목할 점

ARC AGI 2: 37.6% -> 68.8%로 거의 2배 향상. 추상적 추론 능력의 극적인 개선.
BrowseComp: 16.2pp 상승. 웹 리서치 에이전트로서의 능력이 크게 강화.
Long-context MRCR v2: 18.5% -> 76.0%. 컨텍스트 윈도우 확대(200K -> 1M)의 실질적 효과.
MCP Atlas: 유일하게 Opus 4.5 대비 퇴보한 벤치마크 (-2.8pp). 대규모 도구 협업 시나리오에서의 약점.
SWE-bench: 거의 동률. 순수 코드 작성 능력 자체보다는 에이전트 운용 능력에 최적화가 집중됨.

3. 주요 신규 기능

3.1 1M 토큰 컨텍스트 윈도우 (베타)

항목	Opus 4.5	Opus 4.6
컨텍스트 윈도우	200K 토큰	1M 토큰 (베타)
최대 출력 토큰	32K	128K
Long-context 검색 성능	18.5%	76.0%

Opus 클래스 모델 최초로 1M 토큰 컨텍스트를 지원한다. 단일 문서가 아닌 전체 레포지토리 히스토리, 특허 포트폴리오, 대규모 코드베이스를 한 번에 처리할 수 있는 수준. 200K 이상 프롬프트에는 프리미엄 요금($10/$37.50)이 적용된다.

3.2 Adaptive Thinking

Extended Thinking의 진화 버전. 모델이 요청의 복잡도를 자동 판단하여 심층 추론이 필요한 경우에만 확장 사고를 사용한다.

4단계 effort 레벨: low, medium, high(기본값), max
개발자가 지능/속도/비용 간의 trade-off를 세밀하게 제어 가능
단순 질문에는 빠르게, 복잡한 문제에는 깊게 사고

3.3 Agent Teams

Claude Code에서 여러 Claude 인스턴스를 동시에 실행하여 병렬 작업이 가능한 기능 (리서치 프리뷰).

각 에이전트가 독립적인 컨텍스트 윈도우(최대 1M)를 보유
Mailbox Protocol로 에이전트 간 P2P 메시징
Anthropic 데모: 16개 에이전트가 C 컴파일러를 처음부터 구축
순차 처리 대비 대규모 프로젝트에서 비약적 효율 향상

3.4 Context Compaction

대화가 컨텍스트 한계에 도달하면 이전 컨텍스트를 자동 요약/압축하여 긴 세션을 지속할 수 있게 해주는 기능. Claude Code에서 특히 유용.

3.5 Office 통합

Claude in Excel: 대폭 업그레이드
Claude in PowerPoint: 리서치 프리뷰로 신규 출시
스프레드시트 분석 -> 프레젠테이션 자동 생성 워크플로우 지원

4. 가격 정책

항목	Opus 4.5	Opus 4.6
입력 (표준)	$5 / 1M 토큰	$5 / 1M 토큰
출력 (표준)	$25 / 1M 토큰	$25 / 1M 토큰
입력 (200K+ 프리미엄)	N/A	$10 / 1M 토큰
출력 (200K+ 프리미엄)	N/A	$37.50 / 1M 토큰
최대 출력	32K 토큰	128K 토큰

표준 요금은 동일하게 유지. 200K 이상 프롬프트를 사용할 때만 프리미엄 요금이 적용된다.

5. 과학/전문 분야 성능

Opus 4.6은 과학 분야에서 특히 두드러진 향상을 보인다:

계산 생물학, 구조 생물학, 유기화학, 계통발생학: Opus 4.5 대비 약 2배 성능
금융 분석 에이전트: 55.9% -> 60.7%
경제적 가치 업무(GDPval-AA): 190 Elo 포인트 상승 (GPT-5.2 대비 144 Elo 앞섬)
Vending-Bench 2 (장기 일관성): Opus 4.5 대비 $3,050.53 더 높은 수익 달성

6. 글쓰기 품질 논란

Opus 4.6의 가장 논쟁적인 측면은 글쓰기 품질이다.

부정적 반응

일부 사용자들이 기술 문서 작성, 일반 산문 품질 저하를 보고
추론 최적화를 위한 강화학습이 자연스러운 산문 품질을 희생했다는 이론 제기
"Better Coding, Worse Writing?" — 코딩과 글쓰기 간 의도적 trade-off 가능성

긍정적 반응

창의적 의사결정 능력은 오히려 향상되었다는 평가
디자인 품질, 브랜드 아이덴티티, 편집 수준의 프레젠테이션 등 창의적/구조적 작업에서 진보
추가 프롬프팅 없이도 더 강한 창의적 결정을 내림

결론

코딩/에이전트 작업: Opus 4.6 권장
창작 글쓰기/기술 문서: Opus 4.5가 더 나을 수 있음
용도에 따라 모델을 선택하는 것이 바람직

7. 안전성 및 정렬

Anthropic에 따르면 Opus 4.6은 기만, 아첨(sycophancy), 사용자 망상 조장, 오용 협력 등 오정렬 행동 비율이 낮으며, Opus 4.5와 동등한 수준의 안전성을 유지한다.

8. 총평: 누가 어떤 모델을 써야 하는가

사용 사례	권장 모델	이유
에이전트 코딩 / 대규모 코드베이스	Opus 4.6	Terminal-Bench, OSWorld 대폭 향상
병렬 에이전트 작업	Opus 4.6	Agent Teams 기능
대규모 문서/코드 분석	Opus 4.6	1M 컨텍스트, 76% 검색 성능
추상 추론 / 과학 분석	Opus 4.6	ARC AGI 2x, 과학 벤치마크 2x
금융/기업 업무	Opus 4.6	GDPval-AA +190 Elo
창작 글쓰기 / 산문	Opus 4.5	글쓰기 품질 저하 보고
대규모 MCP 도구 협업	Opus 4.5	MCP Atlas 퇴보
예측 가능한 비용/지연	Opus 4.5	낮은 지연시간, 예측 가능한 비용

Opus 4.6은 단순한 "업그레이드"가 아니라 전문화의 진화다. Opus 4.5가 안정적인 범용 모델로 남아있는 반면, Opus 4.6은 코딩/에이전트/추론/과학 분석에 특화된 엔터프라이즈 모델로 포지셔닝된다.

Sources

김성박