[Spot 안정성 작업 스토리] Thanos·S3 기반 장기 저장 — PVC(EBS)에서 S3로 전환

Prometheus 메트릭: Thanos Sidecar + S3 로 장기 저장 전환
Loki 로그: S3 chunks backend (이미 적용)
Tempo 트레이스: S3 backend

분류: 스토리지 아키텍처 · 환경: Staging EKS · 상태: ✅ 적용
시리즈: Spot 불안정 대응 — (1) Staging Spot 다양화 / (2) Thanos·S3 저장 전환

발견 계기

Spot이 너무 자주 빠져서 매번 모니터링 도구와 DB 클라이언트가 망가지는 현상을 체감했습니다. Spot 중단이 일어날 때마다:

"왜 Spot 재기동 후에도 복구가 안 되지?" 원인을 파고들다 PVC(EBS)가 AZ에 귀속되는 구조적 한계를 발견해 S3 중심으로 재설계했습니다. (이후 Spot 다양화 작업과 병행 진행)

PVC는 단기 버퍼(WAL 등) 용도로만 최소한 유지하고, 장기 데이터는 모두 S3로 보냅니다.

Spot 안정성 작업을 하며 **"인프라 스토리지 계층도 동시에 다시 봐야 한다"**는 인식을 얻음. 한 계층의 문제(노드 변동성)가 다른 계층의 제약(AZ 귀속 스토리지)을 드러내는 사례.

원칙: 쿠버네티스처럼 노드·AZ가 수시로 바뀌는 런타임에서는 상태를 AZ에 묶이지 않는 저장소(S3)에 두는 게 자연스럽다.