들어가며
2026년 4월 16일, OpenAI가 Codex 플랫폼을 대규모로 리뉴얼했습니다. 같은 날 Anthropic이 Claude Opus 4.7을 내놓은 것과 겹치면서 AI 코딩 도구 양대 산맥이 동시에 업데이트를 쏟아낸 셈입니다. Claude Opus 4.7 출시 완전 정리
이번 Codex 업데이트의 핵심은 세 가지입니다. 첫째, 인앱 브라우저와 macOS computer-use가 내장돼 "코드 작성 → 브라우저 확인 → 네이티브 앱 테스트"가 Codex 안에서 완결됩니다. 둘째, GPT-5.3-Codex-Spark라는 실시간 코딩 전용 경량 모델이 등장해 1,000+ tok/s의 초고속 응답을 보여줍니다. 셋째, Memory 시스템이 프리뷰로 공개돼 세션 간 컨텍스트 이월이 가능해졌습니다.
이 글에서는 Codex 4월 업데이트의 전체 변경사항을 정리하고, GPT-5.4 vs GPT-5.3-Codex 벤치마크 비교, 그리고 Cursor 3, Windsurf, Claude Code와의 시장 비교 맥락에서 Codex가 어디에 위치하는지 풀어봅니다.
1. 이번 업데이트 한눈에 보기
| 카테고리 | 신규 기능 | 핵심 포인트 |
|---|---|---|
| 워크스페이스 | 인앱 브라우저, macOS Computer Use | 로컬/공개 페이지 확인 + 네이티브 앱 클릭/타이핑 |
| 모델 | GPT-5.3-Codex-Spark | 실시간 코딩 전용 경량 모델, 1000+ tok/s |
| 작업 관리 | 스레드 채팅, 스케줄 자동화, Task 사이드바 | 프로젝트 폴더와 독립, 대화 이력 유지 |
| PR 워크플로우 | GitHub PR 검사, 코멘트 리뷰 | Codex 안에서 PR 검토 완결 |
| 아티팩트 | PDF, 스프레드시트, 문서, 프레젠테이션 프리뷰 | 생성된 파일 즉시 확인 |
| 메모리 | Memory 시스템 (프리뷰) | 이전 작업 컨텍스트를 후속 세션에서 활용 |
| 인프라 | SSH 원격 접속 (알파), 다중 터미널/윈도우 | 원격 서버 직접 접속, 병렬 작업 |
| OS 통합 | macOS 메뉴바, Windows 시스템 트레이 | 상시 대기 + 빠른 접근 |
| 플러그인 | Marketplace 설치, MCP API 확장 | 에코시스템 확대 |
2. 인앱 브라우저 + macOS Computer Use
Codex가 "코드만 짜는 도구"에서 "코드를 짜고, 결과를 보고, 앱을 테스트하는 풀스택 워크스페이스"로 확장됐습니다.
인앱 브라우저
- 로컬 개발 서버(localhost:3000 등)와 공개 URL 모두 지원
- 인증이 필요 없는 페이지를 Codex 안에서 바로 렌더링
- 코드 수정 → 브라우저 확인 → 피드백 루프가 앱 내부에서 완결
macOS Computer Use
# Codex가 할 수 있는 것
- 화면 보기 (sight)
- 마우스 클릭
- 키보드 타이핑
# 활용 예시
"Xcode 시뮬레이터를 열고 로그인 화면에서
이메일 필드에 test@example.com 입력 후
로그인 버튼 클릭해서 에러가 발생하는지 확인해줘"
GPT-5.4의 네이티브 computer-use 능력(OSWorld 75%)이 Codex 안에 직접 탑재된 형태입니다. 이건 Claude Code의 데스크톱 프리뷰 패널이나 Cursor의 Design Mode와는 접근이 다릅니다. "UI 요소를 지목"하는 게 아니라 실제로 화면을 보고 클릭하고 타이핑합니다.
3. GPT-5.3-Codex-Spark - 실시간 코딩의 시작
GPT-5.3-Codex의 경량화 버전으로, "실시간 코딩을 위해 설계된 첫 모델"이라는 타이틀을 달고 나왔습니다.
| 항목 | GPT-5.3-Codex | GPT-5.3-Codex-Spark | GPT-5.4 |
|---|---|---|---|
| 토큰 속도 | 61.9 tok/s | 1,000+ tok/s | ~40 tok/s |
| 포지셔닝 | 프론티어 코딩 특화 | 실시간/인라인 완성 | 범용 추론 + 코딩 |
| 컨텍스트 | 400K | 미공개 (소형) | 1,050K |
| 가용 | Codex / API | ChatGPT Pro 리서치 프리뷰 | 전 채널 |
Spark의 실무 의미
1,000+ tok/s는 사실상 "타이핑하는 순간 완성 결과가 즉시 나오는" 수준입니다. GitHub Copilot의 인라인 제안보다도 빠른 응답을 목표로 합니다. 아직 리서치 프리뷰 단계이지만, Codex의 Tab 완성 / 인라인 편집 경험이 한 단계 올라갈 것으로 예상됩니다.
4. GPT-5.4 vs GPT-5.3-Codex - 뭘 써야 하나
Codex 사용자에게 가장 실질적인 질문은 "5.4로 바꿀지, 5.3-Codex를 유지할지"입니다.
벤치마크 비교
| 벤치마크 | GPT-5.3 Codex | GPT-5.4 | 우위 |
|---|---|---|---|
| SWE-Bench Verified | ~80% | ~80% | 동등 |
| SWE-Bench Pro | 56.8% | 57.7% | 5.4 |
| Terminal-Bench 2.0 | 77.3% | 75.1% | Codex |
| OSWorld (Computer Use) | 64% | 75% | 5.4 |
| GDPval (지식 작업) | 미측정 | 83% | 5.4 |
| Toolathlon | 51.9% | 54.6% | 5.4 |
가격 비교
| 항목 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| 입력 | $1.75/M | $2.50/M |
| 출력 | $14.00/M | $15.00/M |
| 컨텍스트 | 400K | 1,050K |
| 토큰 효율 | 기준 | 복잡한 작업에서 47% 절감 |
선택 가이드
| 상황 | 추천 모델 | 이유 |
|---|---|---|
| 대규모 코드베이스 리팩토링 | GPT-5.4 | 1,050K 컨텍스트 + 복잡 작업 47% 토큰 절감 |
| 터미널 중심 워크플로우 | GPT-5.3 Codex | Terminal-Bench 2.2p 우위 |
| computer-use 자동화 | GPT-5.4 | OSWorld 75% (11p 격차) |
| 고처리량 API 파이프라인 | GPT-5.3 Codex | 입력 30% 저렴, 61.9 tok/s |
| 코딩 + 비코딩 통합 | GPT-5.4 | GDPval 83% — 금융/법률 지식 작업 가능 |
| 인라인 빠른 완성 | Codex-Spark | 1,000+ tok/s 초저지연 |
5. Memory 시스템 - 세션 간 컨텍스트 이월
Codex에 Memory 기능이 프리뷰로 도입됐습니다. 이전 세션에서의 작업 컨텍스트(어떤 파일을 수정했는지, 어떤 결정을 내렸는지, 반복적인 지시 패턴 등)를 기억하고, 후속 세션에서 활용합니다.
실무 기대 효과
# 기존 (Memory 없이)
세션 1: "Spring Boot에서 Redis 캐시 레이어 구현해줘" → 완료
세션 2: "같은 프로젝트에서 Kafka 연동도 해줘"
→ 다시 프로젝트 구조/컨벤션/설정 전체 설명 필요
# Memory 활성화 후
세션 1: "Spring Boot에서 Redis 캐시 레이어 구현해줘" → 완료
세션 2: "같은 프로젝트에서 Kafka 연동도 해줘"
→ Memory가 프로젝트 구조, 설정 패턴, 네이밍 컨벤션을
이전 세션에서 가져옴 → 즉시 일관된 코드 생성
Claude Code에도 CLAUDE.md와 auto-memory가 있지만, Codex의 Memory는 "모델 자체가 이전 작업을 기억"하는 접근이라는 점에서 차이가 있습니다. CLAUDE.md가 명시적 지침이라면, Codex Memory는 암묵적 패턴 학습에 가깝습니다.
6. 스레드 채팅 + 스케줄 자동화
Codex의 대화가 "스레드" 단위로 분리됩니다. 프로젝트 폴더와 독립적이라서, 여러 프로젝트에 대한 작업을 하나의 Codex 인스턴스에서 스레드별로 관리할 수 있습니다.
스케줄 자동화
스레드에 스케줄을 걸어놓으면 대화 이력을 유지한 채 자동 실행됩니다. Claude Code의 Routines와 비슷한 개념이지만, 차이점은 기존 대화의 컨텍스트를 보존한다는 것입니다.
# 활용 예시
스레드: "order-service 야간 점검"
스케줄: 매일 03:00
기존 대화: "이전 점검에서 N+1 이슈를 발견했고 수정함"
→ 다음 자동 실행 시 Memory + 대화 이력이 결합되어
"이전에 수정한 N+1 이슈가 재발하지 않았는지"까지 체크
7. Task 사이드바 + PR 워크플로우
Task 사이드바
작업 계획, 아티팩트, 요약을 한 곳에서 추적하는 패널입니다. 사이드바에서 현재 세션의 전체 작업 현황을 볼 수 있고, 각 작업의 상태(미시작/진행 중/완료)를 관리합니다.
PR 워크플로우 강화
- GitHub PR을 Codex 안에서 직접 검사
- 코멘트 리뷰, diff 확인, 수정 제안까지 앱 내부에서 완결
- 생성된 파일(PDF, 스프레드시트, 프레젠테이션)도 아티팩트 프리뷰어로 즉시 확인
8. 인프라 확장 - SSH, 다중 터미널, OS 통합
- SSH 원격 접속 (알파): 원격 서버에 직접 접속해 Codex 작업 가능. Claude Code의 SSH 확장과 동일한 방향
- 다중 터미널: 여러 터미널을 동시에 열어 빌드/테스트/로그를 병행
- 다중 윈도우: 독립된 Codex 윈도우를 여러 개 띄우기
- OS 통합: macOS 메뉴바, Windows 시스템 트레이에 상주. 바로 접근 가능
9. Claude Code vs Codex - 4월 기준 비교
같은 날 업데이트를 내놓은 두 도구를 비교합니다.
| 항목 | Claude Code | Codex |
|---|---|---|
| 최신 모델 | Opus 4.7 | GPT-5.4 / 5.3-Codex / Spark |
| 병렬 에이전트 | Agent Teams (실험) | 다중 윈도우 + 스레드 |
| 자동화 | Routines (스케줄/API/GitHub) | 스케줄 스레드 자동화 |
| 비전/UI | 프리뷰 패널 (HTML/PDF) | 인앱 브라우저 + macOS Computer Use |
| 메모리 | CLAUDE.md + auto-memory (파일 기반) | Memory 시스템 (모델 기반) |
| 컨텍스트 | 1M (Opus 4.7) | 1,050K (GPT-5.4) |
| 코딩 벤치 | CursorBench 70% | SWE-Bench Pro 57.7% |
| 실시간 모델 | - | Codex-Spark 1,000+ tok/s |
| Hooks | 4종 (command/HTTP/prompt/agent) | Marketplace + MCP 확장 |
| 인터페이스 | 터미널 CLI + 데스크톱 앱 | 데스크톱 앱 + CLI + IDE 익스텐션 |
두 도구의 방향성이 명확해졌습니다. Claude Code는 에이전트 오케스트레이션과 자동화 인프라(Agent Teams, Routines, Hooks 4종)에 집중하고, Codex는 워크스페이스 완결성과 속도(인앱 브라우저, Computer Use, Spark 1,000+ tok/s)에 집중합니다. Claude Code 데스크톱 리디자인
10. 도입 시 주의할 점
- macOS Computer Use는 보안 민감: 화면을 보고 클릭한다는 건 민감한 정보 노출 가능성을 의미합니다. 사내 보안 정책과 충돌할 수 있으니 허용 범위를 미리 정해야 합니다.
- Memory는 아직 프리뷰: 이전 세션에서 잘못된 패턴을 학습하면 후속 작업에 악영향 가능. 크리티컬한 작업에는 Memory off 권장.
- Spark는 ChatGPT Pro 한정: API 접근이 아닌 ChatGPT Pro 사용자에게만 리서치 프리뷰 제공. 프로덕션 파이프라인에 곧바로 통합은 불가.
- GPT-5.4 전환 시 토큰 효율: 복잡 작업에서 47% 절감이라는 수치는 매력적이지만, 입력 토큰 단가가 43% 비쌈($1.75 → $2.50). 실제 총비용은 작업 프로필에 따라 다르므로 PoC 계측 필수.
- 플러그인 생태계 확인: Marketplace가 활성화됐지만, 아직 Claude Code의 MCP 생태계만큼 성숙하진 않습니다. 필요한 플러그인이 있는지 먼저 체크.
마치며
OpenAI Codex의 2026년 4월 업데이트 핵심을 정리합니다.
- "코딩 → 확인 → 테스트" 루프의 완결: 인앱 브라우저 + macOS Computer Use로 Codex가 "코드만 짜는 도구"에서 "풀스택 AI 워크스페이스"로 진화했습니다. 특히 macOS 네이티브 앱 테스트(Xcode 시뮬레이터, Electron 앱 등)가 가능해진 건 다른 도구에 없는 차별점입니다.
- Codex-Spark의 가능성: 1,000+ tok/s는 "AI 응답을 기다린다"는 경험 자체를 없앱니다. 리서치 프리뷰 단계지만, 이 속도가 정식 출시되면 Tab 완성과 인라인 편집의 체감이 근본적으로 달라질 겁니다.
- Memory 시스템의 방향: 파일 기반 메모리(CLAUDE.md)와 모델 기반 메모리(Codex Memory)는 다른 접근입니다. 장기적으로는 둘 다 필요하지만, 현 시점에서는 명시적 제어가 가능한 파일 기반이 더 안정적입니다. Claude Code Hooks와 자동화 활용
- 모델 3종 체계의 정착: GPT-5.4(범용), GPT-5.3-Codex(코딩 특화), Codex-Spark(실시간). 작업 유형에 따라 모델을 바꿔 쓰는 전략이 현실적으로 가능해졌습니다. Claude 측의 Opus/Sonnet/Haiku 3종 구조와 대응됩니다.
- 4/16 양대 업데이트의 시사점: Claude Opus 4.7과 Codex 리뉴얼이 같은 날 출시된 건 우연이 아닙니다. AI 코딩 도구 경쟁이 "분기별 모델 출시"에서 "동시다발 기능 전쟁"으로 넘어갔음을 보여줍니다. 개발자 입장에서는 도구 선택보다 "각 도구의 강점을 빠르게 파악하고 조합하는 능력"이 더 중요해지고 있습니다. AI 엔지니어링 패러다임의 진화
'최신 트렌드' 카테고리의 다른 글
| MCP 서버 직접 만들기 - Spring Boot로 사내 시스템을 AI 에이전트에 연결하기 (0) | 2026.04.17 |
|---|---|
| Claude Skills 완벽 가이드 - 프롬프트 반복에서 탈출하는 재사용 가능한 AI 워크플로우 (2) | 2026.04.17 |
| Claude Opus 4.7 출시 완전 정리 - 코딩 70% CursorBench, 비전 3.75MP, xhigh 레벨까지 (0) | 2026.04.17 |
| Karpathy nanochat 완벽 분석 - $100으로 만드는 나만의 ChatGPT 풀스택 (0) | 2026.04.16 |
| 2026년 4월 AI 코딩·모델 총정리 - Cursor 3, Windsurf, Claude Code 그리고 프론티어 모델 3파전 (2) | 2026.04.16 |