들어가며지난 두 편에서 방어선 구축으로 비용·폭주·드리프트를 잡았고, LLM-as-Judge로 품질을 자동 감시하는 구조를 만들었습니다. 이제 남은 마지막 축은 "안전"입니다.운영하는 AI 에이전트가 사고를 내는 방식은 크게 세 가지입니다.개인정보 누출: 주민번호·전화·카드번호가 프롬프트에 섞여 공급자 서버로 흘러감프롬프트 인젝션: 악성 입력이 시스템 지시를 덮어써 도구를 멋대로 호출탈옥(Jailbreak): 정책 우회 패턴으로 금지된 응답을 유도오늘 글은 이 세 가지를 입구·본체·출구 3단 가드레일로 막는 실전 코드입니다. 최신 방어 기법과 오픈 소스(NeMo Guardrails, Rebuff, Presidio)까지 다룹니다.1. 위협 모델"뭘 막아야 하느냐"부터 정리해야 가드레일이 과잉도 부족도 안 ..