Claude Opus 4.7 출시 완전 정리 - 코딩 70% CursorBench, 비전 3.75MP, xhigh 레벨까지

최신 트렌드

Claude Opus 4.7 출시 완전 정리 - 코딩 70% CursorBench, 비전 3.75MP, xhigh 레벨까지

백엔드 개발자 김승원 2026. 4. 17. 09:58

들어가며

2026년 4월 16일, Anthropic이 Claude Opus 4.7을 출시했습니다. 2월에 공개된 Opus 4.6이 Arena Elo 1위에 올랐던 걸 기억하면, 두 달 만에 다음 버전이 나온 셈이죠. 2026년 4월 AI 코딩·모델 총정리가 4.6 시점 스냅샷이었다면, 이번 글은 그 지형도를 다시 바꾸는 4.7의 변화를 정리합니다.

이번 업데이트의 핵심 메시지는 명확합니다. "Opus 4.7은 소프트웨어 엔지니어링과 비전을 집중적으로 밀어올린 모델". CursorBench에서 58% → 70%로 12포인트 상승, 비전 정확도 54.5% → 98.5%로 44포인트 상승, 93-task 코딩 벤치마크 전체 +13% — 수치만 봐도 단순한 마이너 업데이트가 아닙니다. 동시에 토크나이저가 바뀌면서 같은 프롬프트에서 최대 1.35배 더 많은 토큰을 소비하게 됐고, API의 샘플링 파라미터가 제거되는 등 실무에 영향을 주는 비하위호환 변경도 있습니다.

이 글에서는 Opus 4.7의 벤치마크 수치, 새 기능(xhigh / task budgets / ultrareview), 가격과 토크나이저 변화, 그리고 백엔드 개발자 관점에서 "지금 4.6 → 4.7로 바꿀지, 아니면 기다릴지"에 대한 판단 기준을 정리했습니다. Claude Code 2.1.x 완전 정리와 함께 보면 올해 Claude 생태계의 변화 전체가 그려집니다.

1. 출시 정보 한눈에 보기

항목	내용
출시일	2026-04-16 (목)
가용 채널	Claude 제품, Anthropic API, AWS Bedrock, Google Cloud Vertex AI, Microsoft Foundry
가격 (입력/출력)	$5 / $25 per 1M 토큰 (4.6과 동일)
컨텍스트 윈도우	1M 토큰 (4.6과 동일, GA 상태)
위상	일반 이용 모델 중 가장 강력 (Mythos Preview보다는 약함)
Claude Code 통합	즉시 사용 가능, `/ultrareview` 명령어 추가

주목할 점은 Microsoft Foundry에 첫 공식 등판했다는 점입니다. 이제 Azure 기반 기업도 네이티브로 Opus 4.7을 쓸 수 있습니다.

2. 핵심 벤치마크 - 코딩과 비전

코딩 성능

벤치마크	Opus 4.6	Opus 4.7	변화
CursorBench	58%	70%	↑ +12p
93-task 코딩 벤치	기준	+13%	↑ 13%p
프로덕션 작업 해결량	기준	3배	↑ 3x
멀티스텝 워크플로우	기준	+14%	↑ 14%p

특히 주목할 만한 건 93-task 벤치마크에서 Opus 4.6도 Sonnet 4.6도 풀지 못하던 4개 태스크를 4.7이 해결했다는 점입니다. 단순 수치 개선이 아니라 "이전 세대가 닿지 못한 문제 영역"이 열린 것입니다.

비전 성능 - 가장 극적인 변화

지표	Opus 4.6	Opus 4.7	변화
시각 정확도	54.5%	98.5%	↑ +44p
최대 이미지 해상도	1.25MP / 1,568px	3.75MP / 2,576px	3배
문서 편집	기준	대폭 개선	-
차트/도형 해석	기준	대폭 개선	-

비전 쪽 변화는 사실상 세대 교체 수준입니다. 54% 수준에서는 스크린샷 기반 작업이 "되긴 되는데 믿고 쓸 정도는 아닌" 수준이었다면, 98.5%는 실무 자동화에 편입 가능한 영역입니다.

기타 벤치마크

GDPval-AA (금융/법률 지식 작업): 선도적 성능 유지
Finance Agent Evals: State-of-the-art 등급
경쟁 모델 대비: agentic coding에서 GPT-5.4와 Gemini 3.1 Pro 능가

3. 새 기능 1 - xhigh 노력 레벨

Opus 4.7에는 "xhigh"라는 새로운 효과 레벨이 추가됐습니다. 기존 4단계(low / medium / high / max)에서 5단계로 확장된 것이죠.

레벨	용도	토큰 소비	지연
low	간단한 질의, 단순 완성	최저	최저
medium	일반적인 작업	낮음	낮음
high	복잡한 논리, 일반 코딩	중간	중간
xhigh (NEW)	복잡한 멀티스텝 코딩	높음	높음
max	최대 추론이 필요한 극한 작업	최고	최고

기존엔 "high는 약간 부족하고, max는 과함"이던 영역에 대응합니다. 실무적으로는 대규모 리팩토링이나 여러 파일에 걸친 버그 수정에 xhigh가 최적이라는 평가가 많습니다. Claude Code 데스크톱 앱 병렬 세션 활용과 조합하면 비용/성능 밸런스를 더 세밀하게 조율 가능합니다.

4. 새 기능 2 - Task Budgets (공개 베타)

개별 태스크나 대화에 대해 최대 토큰 지출 한도를 미리 설정할 수 있는 기능입니다. API 사용자에게 공개 베타로 제공됩니다.

활용 시나리오

// API 호출 예시 (공식 스펙 공개 전 개념 예시)
{
  "model": "claude-opus-4-7",
  "task_budget": {
    "max_tokens": 50000,
    "on_exceed": "return_partial"  // 또는 "error"
  },
  "effort": "xhigh",
  "messages": [...]
}

비용 폭주 방지: "에이전트가 루프에 빠져 토큰을 계속 먹는" 사고 예방
예산 기반 자동화: 매월 운영 예산 안에서 자동화 워크플로우 설계 가능
멀티 테넌시: 고객별 토큰 한도 적용이 API 레벨에서 가능

SaaS에서 LLM을 통합할 때 오랫동안 골칫거리였던 "토큰 폭주 비용" 문제를 API 레벨에서 풀어주는 중요한 진전입니다.

5. 새 기능 3 - /ultrareview (Claude Code)

Claude Code 사용자에게 가장 눈에 띄는 변화는 /ultrareview 명령어입니다. 기존 /review보다 강력한 멀티패스 버그 탐지를 수행합니다.

동작 방식

# 사용
/ultrareview

# 내부적으로 수행되는 단계
1차 패스: 구조적/논리적 버그 탐색
2차 패스: 보안/취약점 관점 검토
3차 패스: 엣지 케이스, 레이스 컨디션
4차 패스: 1~3차 결과 교차 검증

→ 종합 보고서 생성

일반 리뷰가 "전체를 한 번 훑는" 느낌이었다면, ultrareview는 관점을 바꿔가며 여러 번 검사합니다. 프로덕션 출시 전 최종 체크에 적합합니다. Claude Code Agent Teams로 병렬 리뷰 구현하기와 비교하면, ultrareview는 순차 다각도 검증, Agent Teams는 병렬 분업 검증이라는 차이가 있습니다.

Auto Mode (Max 플랜)

Max 사용자에게는 Auto mode가 추가로 제공됩니다. Claude가 언제 파일을 검색하고, 언제 테스트를 실행하고, 언제 변경을 검증할지 스스로 판단하는 모드입니다. 사용자가 매번 지시하지 않아도 "엔지니어링 감각"을 가진 에이전트로 작동합니다.

6. 토크나이저 변경 - 가장 주의할 포인트

가격은 그대로($5/$25)지만, 실제 체감 비용은 달라질 수 있습니다. 토크나이저가 업데이트되면서 같은 텍스트가 1.0배~1.35배의 토큰으로 환산될 수 있기 때문입니다.

콘텐츠 유형	토큰 증가 비율	체감 영향
일반 영문 텍스트	~1.0x	영향 미미
한국어/중국어	~1.05~1.15x	소폭 증가
일반 코드	~1.10~1.20x	체감 있음
JSON / XML	~1.35x	크게 증가

API 사용자가 실제로 계산해볼 것

# 기존 예산 산정 예시
매월 API 호출: 100만 토큰 입력 + 50만 토큰 출력
기존 비용: 100 × $5 + 50 × $25 = $1,750

# 4.7로 전환 시 (JSON 응답 중심 파이프라인이라면)
입력 토큰: 100만 × 1.35 = 135만 토큰
출력 토큰: 50만 × 1.35 = 67.5만 토큰
신규 비용: 135 × $5 + 67.5 × $25 = $2,362.5

→ 동일한 작업에 실질 비용 35% 증가

특히 MCP 서버나 agentic 워크플로우에서 JSON을 대량으로 주고받는 파이프라인이라면 35% 비용 증가 가능성을 미리 예산에 반영해야 합니다.

7. API 호환성 붕괴 - 샘플링 파라미터 제거

Opus 4.7에서 temperature, top_p 같은 샘플링 파라미터가 제거됐습니다. 기존 API 호출 코드를 그대로 쓰면 에러가 날 수 있으니 마이그레이션 전 체크 필수.

마이그레이션 체크리스트

# Before (Opus 4.6)
{
  "model": "claude-opus-4-6",
  "temperature": 0.7,
  "top_p": 0.9,
  "messages": [...]
}

# After (Opus 4.7) - 샘플링 파라미터 제거
{
  "model": "claude-opus-4-7",
  "effort": "xhigh",  // 대신 effort 레벨로 제어
  "messages": [...]
}

기존에 temperature로 결정적 출력을 원했다면, effort 레벨로 대체
top_p 기반 튜닝이 핵심이었던 파이프라인은 재설계 필요
프로덕션 마이그레이션 전 카나리 배포 + 응답 품질 비교 테스트 권장

8. 안전 기능 - Mythos + Project Glasswing

Opus 4.7은 "자동으로 금지된 사이버보안 용도를 탐지하고 차단"하는 첫 Claude 모델입니다. 이건 Anthropic이 별도로 진행한 두 이니셔티브의 결과물입니다.

배경이 된 두 프로젝트

Mythos Preview: Anthropic의 최상위 실험 모델 (아직 일반 공개 X). 이 모델에서 검증된 사이버보안 안전장치가 Opus 4.7에 이식됨
Project Glasswing: 합법적 보안 연구자와 악용 시도를 구분하는 기법 연구

Cyber Verification Program

정상적인 보안 전문가가 차단 없이 방어 작업(침투 테스트, 취약점 분석 등)을 할 수 있도록 하는 사전 인증 프로그램도 동시 출범했습니다. 일반 사용자는 악용 시도가 차단되지만, 인증된 레드팀/보안 연구자는 정당한 작업을 계속할 수 있습니다.

기만성·아첨성 지표

Opus 4.6 대비 deception score와 sycophancy score가 낮게 유지되었다는 점도 공식 발표에 포함됐습니다. 즉 "더 똑똑해지되, 덜 아첨하고 덜 거짓말하는" 방향의 개선입니다.

9. 지금 바로 4.7로 바꿔야 할까 - 판단 기준

"신버전이 나왔다고 바로 갈아타야 하나?"라는 질문에 대한 체크리스트입니다.

즉시 전환 권장

상황	이유
이미지/스크린샷 기반 자동화	비전 정확도 54.5% → 98.5% 차이가 결정적
복잡한 멀티파일 리팩토링	93-task 벤치 +13%, 미해결 태스크 4개 해결
agentic 코딩 파이프라인	프로덕션 작업 해결 3배
Max 플랜 사용자	Auto mode 자동 이용 가능
Claude Code 사용자	`/ultrareview` 즉시 활용 가능

신중 검토 (또는 대기)

상황	이유
JSON/XML 중심 대량 API 파이프라인	토크나이저 변경으로 비용 최대 35% 증가
temperature/top_p로 세밀하게 튜닝된 서비스	샘플링 파라미터 제거로 동작 변경 가능
4.6 성능에 만족 중인 일반 작업	당장의 개선폭이 작음, 비용 리스크만 증가
외부 감사 중인 프로덕션	안정기 진입 후 전환하는 편이 안전

10. 실무 전환 전략

단계적 롤아웃 시나리오

Phase 1 (1주차): 개발 환경
  → Claude Code /ultrareview, Auto mode 체험
  → xhigh 레벨로 주요 작업 재실행, 품질 비교

Phase 2 (2~3주차): 스테이징
  → JSON 응답 중심 파이프라인의 실제 토큰 증가폭 측정
  → task_budget 적용 후 비용 폭주 시나리오 테스트

Phase 3 (4~6주차): 카나리 배포
  → 트래픽 5~10%만 4.7로 라우팅
  → 응답 품질, 비용, 지연 지표 수집

Phase 4 (7주차+): 전면 전환
  → 품질 이상 없고 비용 증가 예산 내라면 100% 전환
  → 그렇지 않으면 영역별 분리 운영 (예: 코드 작업만 4.7, 일반 질의 4.6)

비용 모니터링 포인트

토큰 증가율: 4.6 대비 실제 몇 배 토큰을 쓰고 있는가?
효과 대비 비용: 품질 개선이 비용 증가를 상쇄하는가?
xhigh vs max: xhigh가 max 대비 충분하다면 비용 크게 절약 가능
task_budget 활용률: 한도에 걸리는 태스크 비율 추적 → 설계 개선 포인트

마치며

Claude Opus 4.7의 핵심 포인트를 정리합니다.

코딩과 비전, 두 축이 동시에 전진: CursorBench 58% → 70%, 시각 정확도 54.5% → 98.5%. 두 수치 모두 마이너 업데이트라고 부르기 어려운 폭입니다. 특히 비전 쪽은 세대 교체에 가까워 스크린샷 기반 자동화가 현실적 영역으로 진입했습니다.
xhigh로 성능/비용의 새로운 지점: 기존 high는 부족하고 max는 과한 영역에 정확히 꽂히는 옵션입니다. 멀티파일 리팩토링 같은 "복잡도는 높지만 max까지는 필요 없는" 작업에 최적이라고 평가됩니다.
task_budget으로 LLM 비용 공포의 제도화된 해법: 그동안 개별 팀이 래퍼 레이어에서 구현하던 토큰 한도 체크를 API가 직접 지원합니다. SaaS 멀티 테넌시에서 특히 유용합니다.
토크나이저와 API 비하위호환은 진짜 주의: JSON/XML 중심 파이프라인은 비용 35% 증가 가능성, temperature/top_p 제거는 기존 코드와 호환 붕괴. "그대로 모델 이름만 바꾸면" 낭패 봅니다. 프론티어 모델 가격 비교 기반 전략
첫 사이버보안 자동 차단 모델: Mythos + Glasswing의 산물로, 일반 악용은 자동 차단하면서 인증된 보안 전문가에게는 권한을 부여하는 구조. 엔터프라이즈 도입 시 컴플라이언스 측 설득이 한층 수월해집니다.

2월 Opus 4.6, 3월 GPT-5.4 / Gemini 3.1 Pro, 4월 Opus 4.7 — 분기에 한 번이던 프론티어 모델 출시가 월 단위가 됐습니다. 모델 선택을 "한 번 고르고 쓰는" 관점에서 "주기적으로 재평가하는" 관점으로 바꿔야 할 때입니다. 다음 포스트에서는 Opus 4.7을 실제로 Claude Code와 Spring AI에 붙여본 경험을 정리해 볼 예정입니다.

'최신 트렌드' 카테고리의 다른 글

Claude Skills 완벽 가이드 - 프롬프트 반복에서 탈출하는 재사용 가능한 AI 워크플로우 (2)	2026.04.17
OpenAI Codex 2026년 4월 대규모 업데이트 - 인앱 브라우저, Computer Use, GPT-5.3-Codex-Spark까지 (1)	2026.04.17
Karpathy nanochat 완벽 분석 - $100으로 만드는 나만의 ChatGPT 풀스택 (0)	2026.04.16
2026년 4월 AI 코딩·모델 총정리 - Cursor 3, Windsurf, Claude Code 그리고 프론티어 모델 3파전 (2)	2026.04.16
Claude Code 데스크톱 앱 대규모 리디자인 총정리 - 병렬 세션부터 Routines 자동화까지 (1)	2026.04.16

현재글Claude Opus 4.7 출시 완전 정리 - 코딩 70% CursorBench, 비전 3.75MP, xhigh 레벨까지

개발 일상 | 백엔드 김승원의 실무 노트

3~7년차 백엔드 개발자를 위한 실무 의사결정 노트. Spring/JPA/Kafka/아키텍처/AI 통합 등 현업에서 부딪힌 선택과 트레이드오프를 정리합니다.

spring boot, Java, 백엔드, spring ai, ai 에이전트, DevOps, JPA, GPT-5.4, docker, LLM, codex, openai, 오픈소스 AI, PostgreSQL, github actions, ai agent, AI 코딩, Anthropic, claude code, MCP,

Today :
Yesterday :

개발 일상 | 백엔드 김승원의 실무 노트