ai-startup
CHAPTER 70 / 100
읽기 약 2분
FUNCTION
인시던트 관리: 장애 대응 프로세스
핵심 개념
on-call·runbook·post-mortem·실전 — 1인 창업 인시던트.
본문
1인 창업 인시던트 = 위기
[현실]
- 새벽 3시 다운
- 본인이 유일한 응답자
- 자동 모니터 필수
- 빠른 복구 절차
[목표]
- MTTR (Mean Time To Recover) < 30분
- 사용자 무중단 인식 < 5분
- 재발 방지자동 모니터링
[필수 도구]
- Better Stack (uptime + status page)
- Sentry (에러)
- Vercel Analytics
- Stripe alerts
- DB monitoring (Supabase)
[알림 채널]
- Slack #incidents
- 이메일
- SMS (위급 시)
- PagerDuty (고급)
[모니터링 대상]
- API endpoints (모든 GET·POST)
- DB connection
- Stripe webhook
- AI API
- Background jobsSeverity 분류
[P0 - Critical]
- 결제 실패
- 데이터 유출
- 전체 다운
→ 즉시 응답 (5분 내)
[P1 - High]
- 핵심 기능 50% 다운
- 일부 사용자 영향
→ 30분 내 응답
[P2 - Medium]
- 비핵심 기능
- UX 문제
→ 4시간 내
[P3 - Low]
- 작은 버그
- 개선
→ 24시간 내Runbook (장애 대응 가이드)
# DB Connection Limit Exceeded
## 증상
- 502 errors
- "too many connections" 로그
## 원인
- Connection pool 누수
- 트래픽 급증
## 즉시 조치 (5분)
1. Supabase Dashboard → Database → Restart pool
2. Vercel → Functions → Redeploy
3. Status page 업데이트
## 진단 (15분)
- Sentry에서 어떤 endpoint?
- Connection logs 확인
- 가장 많은 connection 사용 query?
## 재발 방지
- Connection pool size 조정
- Query timeout 추가
- N+1 query 검출Post-Mortem 템플릿
# Incident: [Date] - [Title]
## Summary
한 줄 요약
## Timeline
- 14:30 — Sentry alert
- 14:32 — On-call ack
- 14:45 — 원인 파악
- 15:00 — 임시 조치
- 15:30 — 영구 fix 배포
- 16:00 — 모니터링 확인
## Impact
- 영향 사용자: 234명
- 다운타임: 30분
- 매출 손실: 추정 $XX
## Root Cause
구체적 원인
## What Went Well
- 빠른 감지
- 명확한 runbook
## What Went Wrong
- Connection pool 모니터링 X
- DR 절차 모호
## Action Items
- [ ] Connection pool 알림 추가
- [ ] Runbook 업데이트
- [ ] DR 훈련 quarterly
## Lessons
- 미래에 어떻게 더 잘?Status Page
[목적]
- 사용자에게 투명한 상태
- CS 부담 감소
[도구]
- Better Stack ($25/mo)
- Statuspage (Atlassian)
- Hyperping ($19/mo)
- 자체 구축
[자동화]
- Heartbeat 모니터 → 자동 incident
- 사용자가 status.example.com 확인
- 이메일·SMS 구독1인 창업 — 실용 접근
[필수 (Day 1)]
- Sentry (무료)
- Better Stack (uptime)
- Status page
[2주 내]
- Runbook 5~10개 (가장 흔한 인시던트)
- Slack #incidents 채널
- 자동 알림 룰
[3개월 내]
- DR 절차 문서
- 백업 자동
- 1회 DR 시뮬레이션
[6개월+]
- PagerDuty (큰 사용자)
- SLA 약속 (99.9%)
- 정기 post-mortem휴가 시 대응
[1주 휴가]
- 신뢰할 수 있는 도구 (자동화)
- 핵심 모니터만 (PagerDuty)
- 친구에게 backup (위급 시)
- 사전에 사용자에게 안내
[1개월 휴가]
- 외주 또는 friend
- 명확한 runbook
- 결제·보안만 응답
- 나머지는 24시간 후 처리다음 챕터
CH.71 "데이터 기반 결정".
AI 프롬프트
🤖 AI에게 잘 물어보는 법 — 모델·전략별 프롬프트
무료
월 $0 — 검증·시작 단계
인시던트 관리을 무료 도구만으로 시작하는 방법을 알려줘.
소자본
월 $20~50 — MVP·초기 운영
월 $20~50 예산으로 인시던트 관리을 검증·MVP 단계까지 진행하는 전략은?
프로덕션
월 $200~500 — 성장 단계
인시던트 관리을 프로덕션 단계로 확장할 때 필요한 도구·운영 체계는?
스택
풀스택 — 도구 조합 분석
2026년 인시던트 관리 관련 도구 5개를 조합한 추천 스택을 알려줘.
⭐ 이것만 기억하세요
인시던트 관리: 장애 대응 프로세스는 이 3가지만 확실히 잡으세요
1.1인 창업 = 자동 모니터링 필수
2.Severity 분류 + Runbook = 빠른 대응
3.Post-Mortem로 재발 방지 — 인시던트가 학습 기회
공유하기
진행도 70 / 100