들어가며얼마 전 운영팀에서 연락이 왔습니다. "결제 서비스가 느려진 것 같은데, 정확히 어떤 API가 어느 시점부터 느려졌는지 확인 가능해요?" 그런데 그 서비스에는 /actuator/health만 겨우 뚫려 있었습니다. Prometheus 연동도, 커스텀 메트릭도 없었습니다. 결국 로그를 긁어서 grep 돌리고, 엑셀에 붙여넣어 평균 응답 시간을 계산하는 데 퇴근 시간을 몽땅 썼습니다.3~7년차 백엔드 개발자라면 이런 경험이 낯설지 않을 것입니다. Spring Boot 프로젝트를 새로 만들 때 Actuator 의존성은 거의 반사적으로 추가하지만, 정작 health와 info 외에는 잘 쓰지 않는 경우가 많습니다. 그러다 장애가 터지면 "그때 메트릭 좀 더 붙여둘걸"이라는 후회가 밀려옵니다. 커스텀 He..