Claude API 3

사내 MCP 가드레일 레이어 구축 - 모든 에이전트가 공유하는 중앙 방어 허브 설계

들어가며지난 세 편에서 1인 팀도 적용 가능한 AI 에이전트 방어 스택을 완성했습니다.#127 방어선 구축 - 비용·폭주·드리프트#128 LLM-as-Judge - 품질 자동 채점#129 보안 가드레일 - PII·인젝션·탈옥 방어스택이 커지면서 현실의 병목이 드러납니다. "에이전트가 20개인데 가드레일 코드를 20곳에 복붙하고 있다"는 게 전형적입니다. 한 곳 고치면 19곳이 뒤처지고, 버전이 뒤섞이면 보안 회귀(regression)가 매 주 생깁니다.해결책은 가드레일을 중앙 MCP 서버로 밀어내는 것입니다. 에이전트는 이 서버에 tool 호출 한 번으로 "이 프롬프트 검증해 줘"만 요청하고, 반응하는 로직은 전부 중앙에서 관리합니다. 오늘 글은 이 허브를 코드 레벨로 구축합니다.1부 - 왜 MCP 허브..

최신 트렌드 2026.04.22

LLM 보안 가드레일 실전 - PII 스캐너·프롬프트 인젝션 탐지·탈옥 방어를 코드 레벨로

들어가며지난 두 편에서 방어선 구축으로 비용·폭주·드리프트를 잡았고, LLM-as-Judge로 품질을 자동 감시하는 구조를 만들었습니다. 이제 남은 마지막 축은 "안전"입니다.운영하는 AI 에이전트가 사고를 내는 방식은 크게 세 가지입니다.개인정보 누출: 주민번호·전화·카드번호가 프롬프트에 섞여 공급자 서버로 흘러감프롬프트 인젝션: 악성 입력이 시스템 지시를 덮어써 도구를 멋대로 호출탈옥(Jailbreak): 정책 우회 패턴으로 금지된 응답을 유도오늘 글은 이 세 가지를 입구·본체·출구 3단 가드레일로 막는 실전 코드입니다. 최신 방어 기법과 오픈 소스(NeMo Guardrails, Rebuff, Presidio)까지 다룹니다.1. 위협 모델"뭘 막아야 하느냐"부터 정리해야 가드레일이 과잉도 부족도 안 ..

최신 트렌드 2026.04.22

LLM-as-Judge 실전 구축 - AI 에이전트 품질을 자동 채점하는 판사 모델 파이프라인

들어가며지난 AI 에이전트 방어선 구축 실전에서 비용·폭주·드리프트를 잡는 3-레이어를 깔았습니다. 골든 세트 회귀 테스트까지는 왔는데, 채점 방식이 단순 문자열 매칭이었다는 게 솔직한 한계였습니다."ProblemDetail"이라는 단어가 응답에 들어있다고 좋은 답변인지, "def"가 있다고 함수 설계가 맞는 건지. 진짜 품질은 의미 단위로 평가해야 합니다. 그걸 자동화하는 방법이 LLM-as-Judge입니다.오늘 글은 판사 모델로 골든 세트를 자동 채점하고, 인간 라벨과의 상관을 검증하고, 비용을 합리 수준으로 누르는 실전 판사 파이프라인을 코드 레벨로 쌓습니다.1부 - 판사 모델 선택과 프롬프트 설계 (편향·자기선호 회피)2부 - 채점 파이프라인 구현 (점수 + 이유 JSON 출력)3부 - 인간 라벨..

최신 트렌드 2026.04.21