prometheus 2

Prometheus + Grafana 실전 구축 - Spring Boot 모니터링 완벽 가이드

들어가며"서버가 느린 것 같은데 원인을 모르겠어요", "장애가 발생했는데 언제부터인지 파악이 안 돼요 API Gateway 패턴의 Circuit Breaker와 장애 대응" - 모니터링이 없는 서비스에서 자주 듣는 말입니다. Prometheus와 Grafana는 오픈소스 모니터링의 사실상 표준(de facto standard)으로, CNCF 졸업 프로젝트이기도 합니다. 2026 백엔드 기술 스택에서의 모니터링 선택 이번 글에서는 Prometheus의 아키텍처와 PromQL, Grafana 대시보드 구축, Spring Boot Micrometer 연동, 커스텀 메트릭 작성, AlertManager 알림 설정까지 실전 수준으로 다루겠습니다.1. Prometheus 아키텍처Pull 모델Prometheus는 모..

DevOps 2026.04.09

Kafka 운영 가이드 - 모니터링부터 장애 대응까지

Kafka 운영, 왜 어려운가?Apache Kafka는 대규모 실시간 데이터 파이프라인의 핵심 인프라로 자리 잡았습니다. 하지만 프로덕션 환경에서 Kafka를 안정적으로 운영하는 것은 단순히 클러스터를 띄우는 것과는 차원이 다른 문제입니다. Consumer Lag이 갑자기 치솟거나, 브로커가 다운되거나, 디스크가 가득 차는 상황에 빠르게 대응하려면 체계적인 모니터링과 장애 대응 전략이 필수입니다.이 글에서는 실무에서 바로 적용할 수 있는 Kafka 운영 노하우를 모니터링, 장애 대응, 클러스터 관리 세 가지 축으로 정리합니다.1. Consumer Lag 모니터링 - 운영의 첫 번째 관문Consumer Lag은 프로듀서가 토픽에 쓴 최신 오프셋과 컨슈머가 실제로 읽은 오프셋의 차이를 의미합니다. Lag이 ..

Kafka 2026.03.31