3 pillars 그 후 — 4 추가 신호의 *6개월 후* 운영 노트
3 pillars 가 더 이상 충분하지 않은 이유 발행 후 6개월. 4 추가 신호 (events / user journeys / deploy correlation / similarity) 가 운영에서 어떻게 작동했는지의 후속.
3 pillars 가 더 이상 충분하지 않은 이유 후 6개월. 4 추가 신호의 운영 평가.
6개월 데이터
신호 | MTTR 기여 (이전 vs 이후) | 운영 부담
─────────────────────────┼──────────────────────────┼─────────────
1. Events | 53 → 31 분 (-22) | 낮음
2. User journeys | 31 → 24 분 (-7) | 중
3. Deploy correlation | 24 → 17 분 (-7) | 중간
4. Similarity matching | 17 → 23 분 (+6) *후퇴* | 높음Similarity matching 이 역효과. 이유는 다음 섹션.
4 신호의 진짜 가치 vs 운영 부담
Events — 가장 높은 ROI
이벤트 stream 박는 데 2주. MTTR -22 분. ROI 가장 큼. 모든 조직이 제일 먼저 박아야 할 신호.
User journeys — 좋지만 비싸다
journey 추적에 데이터 수집 + 저장 비용 큼. MTTR -7 분. 여전히 양수 ROI 지만 Events 의 1/3.
Deploy correlation — 의외로 복잡
각 deploy 와 영향 받은 metric / segment 자동 매핑이 예상보다 어려움. 수동 라벨링 으로 보완 필요. MTTR -7 분.
Similarity matching — 후퇴
가장 큰 발견. 과거 인시던트 vector matching 이 false positive 가 너무 많음. 첫 알람과 함께 5개의 비슷한 과거 사례 가 떴는데, 5개 중 1개만 진짜 관련. 나머지 4개를 검토 / 기각 하는 데 시간 추가.
해결 시도 — vector similarity 임계 0.7 → 0.95 로 올림. false positive 줄음. 하지만 진짜 비슷한 케이스 도 놓침. 재현율 -50%.
결론 — similarity matching 은 현재 상태로는 net negative. 별도 명시적 검색 (사람이 trigger) 으로 후퇴.
6개월의 누적 효과
시작 MTTR: 53 분 (3 pillars 만)
종료 MTTR: 23 분 (3 pillars + 3 신호, similarity 제외)
순 개선: -30 분 (-57%)원래 4 신호로 23분 예상했지만 similarity 제거 후 23분. similarity 가 net negative 인 발견이 6개월의 가장 큰 학습.
다음 6개월의 시도
similarity matching 의 net positive 패턴 — 우리 가설:
- 수동 trigger 시 만 vector search 활성화
- 2 단계 검색 — 첫 단계 1차 매칭, 두 번째 단계 사람이 어느 게 비슷한지 선택
- 과거 사례를 자동 표시 가 아니라 사람이 검색 하면 보여줌
이 패턴으로 Q3 측정 예정.
누가 이 글을 읽으면 좋은가
이미 3 pillars + alpha 시도 중인 모든 SRE / 플랫폼 리드. 우리 데이터가 우리 워크로드 한정 이지만, similarity matching 의 false positive 문제 는 공통 함정 일 가능성. 도입 전 에 명시적 trigger 모드부터.
비슷한 글
에이전틱 DevOps 12개월 후 — 첫 가설 중 무엇이 *맞았고* 무엇이 *틀렸나*
12개월 전 다음 10년의 DevOps는 에이전틱이다 의 가설들. 12개월의 데이터로 어느 가설이 맞고 어느 게 틀렸는지의 정직한 평가.
백재민
GitHub Actions vs 자체 호스팅 — *진짜 비용* 비교 (12개월 데이터)
GitHub Actions 가 *비싸 보임* 은 표면. 12개월 자체 호스팅 vs SaaS 비교 — 단순 *분당 비용* 이 아니라 *총 운영 비용* 으로.
백재민
백링크 0 도메인이 LLM 답변에 인용되기까지 — 6개월 GEO 실험
새 도메인, 백링크 0, DA 0. 그 상태에서 *LLM 답변 인용을 받는* 6개월 실험. 4 단계 + 측정 가능한 결과.
백재민