Kafka 운영, 왜 어려운가?Apache Kafka는 대규모 실시간 데이터 파이프라인의 핵심 인프라로 자리 잡았습니다. 하지만 프로덕션 환경에서 Kafka를 안정적으로 운영하는 것은 단순히 클러스터를 띄우는 것과는 차원이 다른 문제입니다. Consumer Lag이 갑자기 치솟거나, 브로커가 다운되거나, 디스크가 가득 차는 상황에 빠르게 대응하려면 체계적인 모니터링과 장애 대응 전략이 필수입니다.이 글에서는 실무에서 바로 적용할 수 있는 Kafka 운영 노하우를 모니터링, 장애 대응, 클러스터 관리 세 가지 축으로 정리합니다.1. Consumer Lag 모니터링 - 운영의 첫 번째 관문Consumer Lag은 프로듀서가 토픽에 쓴 최신 오프셋과 컨슈머가 실제로 읽은 오프셋의 차이를 의미합니다. Lag이 ..