최신 트렌드

OpenAI Codex 2026년 4월 대규모 업데이트 - 인앱 브라우저, Computer Use, GPT-5.3-Codex-Spark까지

백엔드 개발자 김승원 2026. 4. 17. 12:23

들어가며

2026년 4월 16일, OpenAI가 Codex 플랫폼을 대규모로 리뉴얼했습니다. 같은 날 Anthropic이 Claude Opus 4.7을 내놓은 것과 겹치면서 AI 코딩 도구 양대 산맥이 동시에 업데이트를 쏟아낸 셈입니다. Claude Opus 4.7 출시 완전 정리

이번 Codex 업데이트의 핵심은 세 가지입니다. 첫째, 인앱 브라우저와 macOS computer-use가 내장돼 "코드 작성 → 브라우저 확인 → 네이티브 앱 테스트"가 Codex 안에서 완결됩니다. 둘째, GPT-5.3-Codex-Spark라는 실시간 코딩 전용 경량 모델이 등장해 1,000+ tok/s의 초고속 응답을 보여줍니다. 셋째, Memory 시스템이 프리뷰로 공개돼 세션 간 컨텍스트 이월이 가능해졌습니다.

이 글에서는 Codex 4월 업데이트의 전체 변경사항을 정리하고, GPT-5.4 vs GPT-5.3-Codex 벤치마크 비교, 그리고 Cursor 3, Windsurf, Claude Code와의 시장 비교 맥락에서 Codex가 어디에 위치하는지 풀어봅니다.

1. 이번 업데이트 한눈에 보기

카테고리 신규 기능 핵심 포인트
워크스페이스 인앱 브라우저, macOS Computer Use 로컬/공개 페이지 확인 + 네이티브 앱 클릭/타이핑
모델 GPT-5.3-Codex-Spark 실시간 코딩 전용 경량 모델, 1000+ tok/s
작업 관리 스레드 채팅, 스케줄 자동화, Task 사이드바 프로젝트 폴더와 독립, 대화 이력 유지
PR 워크플로우 GitHub PR 검사, 코멘트 리뷰 Codex 안에서 PR 검토 완결
아티팩트 PDF, 스프레드시트, 문서, 프레젠테이션 프리뷰 생성된 파일 즉시 확인
메모리 Memory 시스템 (프리뷰) 이전 작업 컨텍스트를 후속 세션에서 활용
인프라 SSH 원격 접속 (알파), 다중 터미널/윈도우 원격 서버 직접 접속, 병렬 작업
OS 통합 macOS 메뉴바, Windows 시스템 트레이 상시 대기 + 빠른 접근
플러그인 Marketplace 설치, MCP API 확장 에코시스템 확대

2. 인앱 브라우저 + macOS Computer Use

Codex가 "코드만 짜는 도구"에서 "코드를 짜고, 결과를 보고, 앱을 테스트하는 풀스택 워크스페이스"로 확장됐습니다.

인앱 브라우저

  • 로컬 개발 서버(localhost:3000 등)와 공개 URL 모두 지원
  • 인증이 필요 없는 페이지를 Codex 안에서 바로 렌더링
  • 코드 수정 → 브라우저 확인 → 피드백 루프가 앱 내부에서 완결

macOS Computer Use

# Codex가 할 수 있는 것
- 화면 보기 (sight)
- 마우스 클릭
- 키보드 타이핑

# 활용 예시
"Xcode 시뮬레이터를 열고 로그인 화면에서
 이메일 필드에 test@example.com 입력 후
 로그인 버튼 클릭해서 에러가 발생하는지 확인해줘"

GPT-5.4의 네이티브 computer-use 능력(OSWorld 75%)이 Codex 안에 직접 탑재된 형태입니다. 이건 Claude Code의 데스크톱 프리뷰 패널이나 Cursor의 Design Mode와는 접근이 다릅니다. "UI 요소를 지목"하는 게 아니라 실제로 화면을 보고 클릭하고 타이핑합니다.

3. GPT-5.3-Codex-Spark - 실시간 코딩의 시작

GPT-5.3-Codex의 경량화 버전으로, "실시간 코딩을 위해 설계된 첫 모델"이라는 타이틀을 달고 나왔습니다.

항목 GPT-5.3-Codex GPT-5.3-Codex-Spark GPT-5.4
토큰 속도 61.9 tok/s 1,000+ tok/s ~40 tok/s
포지셔닝 프론티어 코딩 특화 실시간/인라인 완성 범용 추론 + 코딩
컨텍스트 400K 미공개 (소형) 1,050K
가용 Codex / API ChatGPT Pro 리서치 프리뷰 전 채널

Spark의 실무 의미

1,000+ tok/s는 사실상 "타이핑하는 순간 완성 결과가 즉시 나오는" 수준입니다. GitHub Copilot의 인라인 제안보다도 빠른 응답을 목표로 합니다. 아직 리서치 프리뷰 단계이지만, Codex의 Tab 완성 / 인라인 편집 경험이 한 단계 올라갈 것으로 예상됩니다.

4. GPT-5.4 vs GPT-5.3-Codex - 뭘 써야 하나

Codex 사용자에게 가장 실질적인 질문은 "5.4로 바꿀지, 5.3-Codex를 유지할지"입니다.

벤치마크 비교

벤치마크 GPT-5.3 Codex GPT-5.4 우위
SWE-Bench Verified ~80% ~80% 동등
SWE-Bench Pro 56.8% 57.7% 5.4
Terminal-Bench 2.0 77.3% 75.1% Codex
OSWorld (Computer Use) 64% 75% 5.4
GDPval (지식 작업) 미측정 83% 5.4
Toolathlon 51.9% 54.6% 5.4

가격 비교

항목 GPT-5.3 Codex GPT-5.4
입력 $1.75/M $2.50/M
출력 $14.00/M $15.00/M
컨텍스트 400K 1,050K
토큰 효율 기준 복잡한 작업에서 47% 절감

선택 가이드

상황 추천 모델 이유
대규모 코드베이스 리팩토링 GPT-5.4 1,050K 컨텍스트 + 복잡 작업 47% 토큰 절감
터미널 중심 워크플로우 GPT-5.3 Codex Terminal-Bench 2.2p 우위
computer-use 자동화 GPT-5.4 OSWorld 75% (11p 격차)
고처리량 API 파이프라인 GPT-5.3 Codex 입력 30% 저렴, 61.9 tok/s
코딩 + 비코딩 통합 GPT-5.4 GDPval 83% — 금융/법률 지식 작업 가능
인라인 빠른 완성 Codex-Spark 1,000+ tok/s 초저지연

5. Memory 시스템 - 세션 간 컨텍스트 이월

Codex에 Memory 기능이 프리뷰로 도입됐습니다. 이전 세션에서의 작업 컨텍스트(어떤 파일을 수정했는지, 어떤 결정을 내렸는지, 반복적인 지시 패턴 등)를 기억하고, 후속 세션에서 활용합니다.

실무 기대 효과

# 기존 (Memory 없이)
세션 1: "Spring Boot에서 Redis 캐시 레이어 구현해줘" → 완료
세션 2: "같은 프로젝트에서 Kafka 연동도 해줘"
         → 다시 프로젝트 구조/컨벤션/설정 전체 설명 필요

# Memory 활성화 후
세션 1: "Spring Boot에서 Redis 캐시 레이어 구현해줘" → 완료
세션 2: "같은 프로젝트에서 Kafka 연동도 해줘"
         → Memory가 프로젝트 구조, 설정 패턴, 네이밍 컨벤션을
            이전 세션에서 가져옴 → 즉시 일관된 코드 생성

Claude Code에도 CLAUDE.md와 auto-memory가 있지만, Codex의 Memory는 "모델 자체가 이전 작업을 기억"하는 접근이라는 점에서 차이가 있습니다. CLAUDE.md가 명시적 지침이라면, Codex Memory는 암묵적 패턴 학습에 가깝습니다.

6. 스레드 채팅 + 스케줄 자동화

Codex의 대화가 "스레드" 단위로 분리됩니다. 프로젝트 폴더와 독립적이라서, 여러 프로젝트에 대한 작업을 하나의 Codex 인스턴스에서 스레드별로 관리할 수 있습니다.

스케줄 자동화

스레드에 스케줄을 걸어놓으면 대화 이력을 유지한 채 자동 실행됩니다. Claude Code의 Routines와 비슷한 개념이지만, 차이점은 기존 대화의 컨텍스트를 보존한다는 것입니다.

# 활용 예시
스레드: "order-service 야간 점검"
스케줄: 매일 03:00
기존 대화: "이전 점검에서 N+1 이슈를 발견했고 수정함"

→ 다음 자동 실행 시 Memory + 대화 이력이 결합되어
   "이전에 수정한 N+1 이슈가 재발하지 않았는지"까지 체크

7. Task 사이드바 + PR 워크플로우

Task 사이드바

작업 계획, 아티팩트, 요약을 한 곳에서 추적하는 패널입니다. 사이드바에서 현재 세션의 전체 작업 현황을 볼 수 있고, 각 작업의 상태(미시작/진행 중/완료)를 관리합니다.

PR 워크플로우 강화

  • GitHub PR을 Codex 안에서 직접 검사
  • 코멘트 리뷰, diff 확인, 수정 제안까지 앱 내부에서 완결
  • 생성된 파일(PDF, 스프레드시트, 프레젠테이션)도 아티팩트 프리뷰어로 즉시 확인

8. 인프라 확장 - SSH, 다중 터미널, OS 통합

  • SSH 원격 접속 (알파): 원격 서버에 직접 접속해 Codex 작업 가능. Claude Code의 SSH 확장과 동일한 방향
  • 다중 터미널: 여러 터미널을 동시에 열어 빌드/테스트/로그를 병행
  • 다중 윈도우: 독립된 Codex 윈도우를 여러 개 띄우기
  • OS 통합: macOS 메뉴바, Windows 시스템 트레이에 상주. 바로 접근 가능

9. Claude Code vs Codex - 4월 기준 비교

같은 날 업데이트를 내놓은 두 도구를 비교합니다.

항목 Claude Code Codex
최신 모델 Opus 4.7 GPT-5.4 / 5.3-Codex / Spark
병렬 에이전트 Agent Teams (실험) 다중 윈도우 + 스레드
자동화 Routines (스케줄/API/GitHub) 스케줄 스레드 자동화
비전/UI 프리뷰 패널 (HTML/PDF) 인앱 브라우저 + macOS Computer Use
메모리 CLAUDE.md + auto-memory (파일 기반) Memory 시스템 (모델 기반)
컨텍스트 1M (Opus 4.7) 1,050K (GPT-5.4)
코딩 벤치 CursorBench 70% SWE-Bench Pro 57.7%
실시간 모델 - Codex-Spark 1,000+ tok/s
Hooks 4종 (command/HTTP/prompt/agent) Marketplace + MCP 확장
인터페이스 터미널 CLI + 데스크톱 앱 데스크톱 앱 + CLI + IDE 익스텐션

두 도구의 방향성이 명확해졌습니다. Claude Code는 에이전트 오케스트레이션과 자동화 인프라(Agent Teams, Routines, Hooks 4종)에 집중하고, Codex는 워크스페이스 완결성과 속도(인앱 브라우저, Computer Use, Spark 1,000+ tok/s)에 집중합니다. Claude Code 데스크톱 리디자인

10. 도입 시 주의할 점

  • macOS Computer Use는 보안 민감: 화면을 보고 클릭한다는 건 민감한 정보 노출 가능성을 의미합니다. 사내 보안 정책과 충돌할 수 있으니 허용 범위를 미리 정해야 합니다.
  • Memory는 아직 프리뷰: 이전 세션에서 잘못된 패턴을 학습하면 후속 작업에 악영향 가능. 크리티컬한 작업에는 Memory off 권장.
  • Spark는 ChatGPT Pro 한정: API 접근이 아닌 ChatGPT Pro 사용자에게만 리서치 프리뷰 제공. 프로덕션 파이프라인에 곧바로 통합은 불가.
  • GPT-5.4 전환 시 토큰 효율: 복잡 작업에서 47% 절감이라는 수치는 매력적이지만, 입력 토큰 단가가 43% 비쌈($1.75 → $2.50). 실제 총비용은 작업 프로필에 따라 다르므로 PoC 계측 필수.
  • 플러그인 생태계 확인: Marketplace가 활성화됐지만, 아직 Claude Code의 MCP 생태계만큼 성숙하진 않습니다. 필요한 플러그인이 있는지 먼저 체크.

마치며

OpenAI Codex의 2026년 4월 업데이트 핵심을 정리합니다.

  • "코딩 → 확인 → 테스트" 루프의 완결: 인앱 브라우저 + macOS Computer Use로 Codex가 "코드만 짜는 도구"에서 "풀스택 AI 워크스페이스"로 진화했습니다. 특히 macOS 네이티브 앱 테스트(Xcode 시뮬레이터, Electron 앱 등)가 가능해진 건 다른 도구에 없는 차별점입니다.
  • Codex-Spark의 가능성: 1,000+ tok/s는 "AI 응답을 기다린다"는 경험 자체를 없앱니다. 리서치 프리뷰 단계지만, 이 속도가 정식 출시되면 Tab 완성과 인라인 편집의 체감이 근본적으로 달라질 겁니다.
  • Memory 시스템의 방향: 파일 기반 메모리(CLAUDE.md)와 모델 기반 메모리(Codex Memory)는 다른 접근입니다. 장기적으로는 둘 다 필요하지만, 현 시점에서는 명시적 제어가 가능한 파일 기반이 더 안정적입니다. Claude Code Hooks와 자동화 활용
  • 모델 3종 체계의 정착: GPT-5.4(범용), GPT-5.3-Codex(코딩 특화), Codex-Spark(실시간). 작업 유형에 따라 모델을 바꿔 쓰는 전략이 현실적으로 가능해졌습니다. Claude 측의 Opus/Sonnet/Haiku 3종 구조와 대응됩니다.
  • 4/16 양대 업데이트의 시사점: Claude Opus 4.7과 Codex 리뉴얼이 같은 날 출시된 건 우연이 아닙니다. AI 코딩 도구 경쟁이 "분기별 모델 출시"에서 "동시다발 기능 전쟁"으로 넘어갔음을 보여줍니다. 개발자 입장에서는 도구 선택보다 "각 도구의 강점을 빠르게 파악하고 조합하는 능력"이 더 중요해지고 있습니다. AI 엔지니어링 패러다임의 진화