들어가며며칠 전 새벽, 운영 중인 API 서비스가 일부 사용자에게만 접속이 안 된다는 알람이 울렸습니다. 서버는 멀쩡했고, 부하도 정상이었습니다. 결국 원인은 CNAME 체인 중간에 낡은 레코드 하나가 남아 있어서, 특정 지역의 Recursive Resolver만 이상한 IP를 캐싱하고 있었던 것이었습니다. 원인을 찾는 데 40분, 수정은 2분이 걸렸습니다.이런 경험, 한 번쯤 있으시죠? 백엔드 개발자는 DNS와 CDN을 "그냥 도메인 찍으면 어딘가로 가는 것"으로 여기다가, 실제 장애가 터지면 dig 명령어부터 당황스러워집니다. TTL이 뭔지는 아는데 왜 지금 이 값이 먹히고 있는지, Cache-Control의 s-maxage와 max-age가 어떻게 다른지, CloudFront와 Cloudflare ..