Skip to content

250315-플랫폼 장애"

요약

  • 이름 : "플랫폼 장애"
  • 사고 기간 : "2025.03.15 13:30 ~ 2025.03.15 18:50"
  • 영향 서비스 : "HAII-P-PRJ-PLATFORM 프로젝트 내 (API, APIGW, AUTH, REDIS-PROXY) 사용 서비스"
  • 복구 여부 : "O"
  • 처리 날짜 : "2025.03.15 18:50"

내용

  • Haii-p-prj-platform 프로젝트 내 (api, apigw, auth , redis-proxy)를 이용하는 모든 상용 서비스에 대하여, 장애 발생

원인

  • 2025.03.14 10:40분경, haii-groundwork의 Repository 업그레이드 작업 (Container Registry -> Artifact Registry) 실시 이후, 배포 테스트 미 실시. 이후, 일요일 저녁에 GKE pod들의 정기 자동 재시작 과정에서, Repository 참조에 실패, 이후 이미지를 정상적으로 import하지 못하여 해당 Pod들이 정상적으로 실행되지 못함.

장애 대응 내용

  • 2025.03.15 18:30분경, 상황 전파 helm chart 내 이미지 경로 하드코딩으로 인한 이미지 pull불가가 주원인으로 판단 이후, haii-groundwork 프로젝트 및 기타 상용기 프로젝트들에 적용된 Repository 업그레이드 작업을 롤백. GKE Pod들의 정상적인 복원을 확인

조치 내용

  • 추가 확인 결과, 주원인은 하드 코딩이 아닌, ‘”haii-groundwork” 프로젝트의Artifact 저장소 접근 권한 미부여’가 주원인으로 판단 ,필요 권한들을 IAM을 통해 시스템 계정들에 부여. haii-d-platform에서 업그레이드를 재실시한 결과, 이상이 없는 것을 확인. 2025.03.17 16:30분경, haii-groundwork 업그레이드 Redirection 재 실시. 2025.03.17 16:35 분경, 다음 목록의 상용기 프로젝트들 업그레이드 Redirection 재 실시.
- haii-p-prj-anzeilax
- haii-p-prj-azt
- haii-p-prj-forme
- haii-p-prj-mgarden
- haii-p-prj-mindcheck
- haii-p-prj-strokcare
- haii-p-prj-tess
- haii-p-prj-ume
- haii-p-prj-ai