들어가며지난 두 글에서 영상 생성 AI 시장 정리(Grok·Veo·Kling·Runway 4파전)와 Grok Imagine API 통합을 다뤘습니다. 그런데 실제로 운영해보면 알게 됩니다 — 영상 "생성"은 전체 파이프라인의 30%밖에 안 됩니다. 나머지 70%는 자막, 트랜지션, BGM, 워터마크 같은 후처리에 들어갑니다.이 글은 AI가 생성한 짧은 클립들을 받아서 "바로 X·인스타·유튜브 숏츠에 올릴 수 있는 완성된 숏폼"으로 만드는 자동화 파이프라인을 다룹니다. 핵심 도구는 두 가지입니다.FFmpeg: 영상 합치기, 자막 burn-in, 워터마크, BGM 합성, 포맷 변환의 표준OpenAI Whisper / GPT-4o Transcribe: 음성을 자막으로 변환, $0.003~$0.006/분의 합리..