ai-startup

CHAPTER 70 / 100

읽기 약 2분

FUNCTION

인시던트 관리: 장애 대응 프로세스

핵심 개념

on-call·runbook·post-mortem·실전 — 1인 창업 인시던트.

본문

1인 창업 인시던트 = 위기

📋 코드 (11줄)

[현실]
- 새벽 3시 다운
- 본인이 유일한 응답자
- 자동 모니터 필수
- 빠른 복구 절차


[목표]
- MTTR (Mean Time To Recover) < 30분
- 사용자 무중단 인식 < 5분
- 재발 방지

자동 모니터링

📋 코드 (21줄)

[필수 도구]
- Better Stack (uptime + status page)
- Sentry (에러)
- Vercel Analytics
- Stripe alerts
- DB monitoring (Supabase)


[알림 채널]
- Slack #incidents
- 이메일
- SMS (위급 시)
- PagerDuty (고급)


[모니터링 대상]
- API endpoints (모든 GET·POST)
- DB connection
- Stripe webhook
- AI API
- Background jobs

Severity 분류

📋 코드 (20줄)

[P0 - Critical]
- 결제 실패
- 데이터 유출
- 전체 다운
→ 즉시 응답 (5분 내)

[P1 - High]
- 핵심 기능 50% 다운
- 일부 사용자 영향
→ 30분 내 응답

[P2 - Medium]
- 비핵심 기능
- UX 문제
→ 4시간 내

[P3 - Low]
- 작은 버그
- 개선
→ 24시간 내

Runbook (장애 대응 가이드)

MARKDOWN📋 코드 (24줄)

# DB Connection Limit Exceeded

## 증상
- 502 errors
- "too many connections" 로그

## 원인
- Connection pool 누수
- 트래픽 급증

## 즉시 조치 (5분)
1. Supabase Dashboard → Database → Restart pool
2. Vercel → Functions → Redeploy
3. Status page 업데이트

## 진단 (15분)
- Sentry에서 어떤 endpoint?
- Connection logs 확인
- 가장 많은 connection 사용 query?

## 재발 방지
- Connection pool size 조정
- Query timeout 추가
- N+1 query 검출

Post-Mortem 템플릿

MARKDOWN📋 코드 (36줄)

# Incident: [Date] - [Title]

## Summary
한 줄 요약

## Timeline
- 14:30 — Sentry alert
- 14:32 — On-call ack
- 14:45 — 원인 파악
- 15:00 — 임시 조치
- 15:30 — 영구 fix 배포
- 16:00 — 모니터링 확인

## Impact
- 영향 사용자: 234명
- 다운타임: 30분
- 매출 손실: 추정 $XX

## Root Cause
구체적 원인

## What Went Well
- 빠른 감지
- 명확한 runbook

## What Went Wrong
- Connection pool 모니터링 X
- DR 절차 모호

## Action Items
- [ ] Connection pool 알림 추가
- [ ] Runbook 업데이트
- [ ] DR 훈련 quarterly

## Lessons
- 미래에 어떻게 더 잘?

Status Page

📋 코드 (15줄)

[목적]
- 사용자에게 투명한 상태
- CS 부담 감소

[도구]
- Better Stack ($25/mo)
- Statuspage (Atlassian)
- Hyperping ($19/mo)
- 자체 구축


[자동화]
- Heartbeat 모니터 → 자동 incident
- 사용자가 status.example.com 확인
- 이메일·SMS 구독

1인 창업 — 실용 접근

📋 코드 (19줄)

[필수 (Day 1)]
- Sentry (무료)
- Better Stack (uptime)
- Status page

[2주 내]
- Runbook 5~10개 (가장 흔한 인시던트)
- Slack #incidents 채널
- 자동 알림 룰

[3개월 내]
- DR 절차 문서
- 백업 자동
- 1회 DR 시뮬레이션

[6개월+]
- PagerDuty (큰 사용자)
- SLA 약속 (99.9%)
- 정기 post-mortem

휴가 시 대응

📋 코드 (12줄)

[1주 휴가]
- 신뢰할 수 있는 도구 (자동화)
- 핵심 모니터만 (PagerDuty)
- 친구에게 backup (위급 시)
- 사전에 사용자에게 안내


[1개월 휴가]
- 외주 또는 friend
- 명확한 runbook
- 결제·보안만 응답
- 나머지는 24시간 후 처리

다음 챕터

CH.71 "데이터 기반 결정".

AI 프롬프트

🤖 AI에게 잘 물어보는 법 — 모델·전략별 프롬프트

무료

월 $0 — 검증·시작 단계

인시던트 관리을 무료 도구만으로
시작하는 방법을 알려줘.

소자본

월 $20~50 — MVP·초기 운영

월 $20~50 예산으로 인시던트 관리을
검증·MVP 단계까지 진행하는 전략은?

프로덕션

월 $200~500 — 성장 단계

인시던트 관리을 프로덕션 단계로
확장할 때 필요한 도구·운영 체계는?

스택

풀스택 — 도구 조합 분석

2026년 인시던트 관리 관련 도구 5개를
조합한 추천 스택을 알려줘.

⭐ 이것만 기억하세요

인시던트 관리: 장애 대응 프로세스는 이 3가지만 확실히 잡으세요

1.1인 창업 = 자동 모니터링 필수

2.Severity 분류 + Runbook = 빠른 대응

3.Post-Mortem로 재발 방지 — 인시던트가 학습 기회

💬 이 챕터 질문 보기

AI-STARTUP · CH.70 — 질문하거나 답변을 확인하세요

→

진행도 70 / 100

← 커리큘럼으로 ← 목록으로 (AI 1인 창업)