SRE vs Platform Engineering vs DevOps — 무엇이 다르고, 같은가
셋이 같은 그림을 다른 각도에서 보고 있다고 말하면 편하지만, 그건 답이 아니다. 책임 경계·SLO·플랫폼 책임 모델이 어떻게 다른지.
세 분야는 같은 우주에 있지만, 누구의 신뢰성·누구의 생산성을 책임지느냐가 다르다. DevOps = 문화, SRE = 신뢰성을 측정 가능한 책임으로, Platform Engineering = 생산성을 제품으로.
한 문단 정의
- DevOps — 개발과 운영의 분단을 지우고 같은 책임으로 묶는 문화 운동. 도구나 직무가 아니다.
- SRE (Site Reliability Engineering) — Google 이 DevOps 원칙을 측정 가능한 신뢰성 책임으로 구현한 방법론. SLO, error budget, postmortem 같은 측정 가능한 도구 가 핵심.
- Platform Engineering — 사내 내부 개발자 플랫폼(IDP, Internal Developer Platform) 을 제품 처럼 만드는 분야. 사용자(=개발자) 의 생산성 이 측정 대상.
이렇게 갈라진다
DevOps (문화)
│
│
┌───────────────────┴───────────────────┐
▼ ▼
SRE (운영 책임) Platform Engineering
(개발자 경험 책임)
책임: 시스템 신뢰성 책임: 개발자 생산성
측정: SLO, SLI, error budget 측정: 온보딩 시간, 빌드 성공률,
주체: 운영을 직접 함 배포 리드 타임, 개발자 만족도
주체: 플랫폼을 *제품* 으로 만듦가장 자주 헷갈리는 두 가지
1. "SRE 가 DevOps 다" 라는 말의 정확도
부분적으로 맞다. Google 의 입장은 "class SRE implements interface DevOps" 다. 즉 SRE 는 DevOps 원칙을 어떻게 구현할지 의 한 답이다. 단, 유일한 답 이 아니다.
다른 답:
- NoOps — 운영을 자동화로 사라지게 한다는 비전. 현실에선 부분만 작동.
- GitOps — 깃을 진실의 단일 출처로 두는 운영 패턴.
- Platform-as-a-product — Platform Engineering 의 다른 이름.
2. Platform Engineering 이 DevOps 의 재포장 인가
아니다. 핵심 차이는 책임의 방향 이다.
- DevOps 는 Dev 와 Ops 의 합병 을 말한다.
- Platform Engineering 은 Ops 가 Dev 의 고객 이라는 관점이다.
후자는 SRE/플랫폼 엔지니어가 내부 개발자를 사용자로 두고 그들의 만족도를 측정 하는 데까지 간다. 제품 매니저가 있는 SRE 팀 을 떠올리면 된다.
SLO 와 Error Budget — SRE 의 핵심 도구
이 둘이 SRE 를 다른 모든 운영 문화와 가장 명확히 가른다.
- SLO (Service Level Objective) — 우리가 약속하는 신뢰성의 수준. 예: "월간 99.9% 가용성".
- Error Budget — SLO 와 100% 의 차이. 예: 99.9% SLO 라면 월 43분의 다운타임이 허용된 예산.
이 예산이 핵심이다. 예산이 남았을 때만 새 기능을 빠르게 배포한다. 예산을 다 썼으면 신기능 배포를 멈추고 신뢰성에 자원을 돌린다. 속도와 안정성의 트레이드오프를 측정 가능한 결정으로 바꾸는 것이 error budget 의 본질이다.
어느 직무를 채용할 것인가
조직 단계에 따라 다르다.
| 단계 | 우선순위 | 추천 |
|---|---|---|
| 20명 미만 | 빠른 출시 | DevOps 마인드의 풀스택 엔지니어 |
| 20–100명 | 운영 신뢰성 | SRE 1–2명 |
| 100–500명 | 개발자 경험 | Platform Engineer 팀 신설 |
| >500명 | 위 셋 다 | SRE + Platform + Security 별도 |
작은 조직에서 Platform Engineering 팀을 먼저 만드는 건 거의 항상 비효율 이다. 만들 플랫폼의 사용자 수 가 부족하다.
정리
같은 단어처럼 들리지만 책임이 다르다.
- DevOps 가 왜 를 묻는다.
- SRE 가 얼마나 안정적이어야 하는가 를 측정한다.
- Platform Engineering 이 개발자 경험을 어떻게 제품화할 것인가 를 답한다.
세 개가 같이 있으면 좋지만, 조직 단계가 그것을 정한다.
FAQ
Q. 우리는 SRE 를 채용해야 하나, Platform Engineer 를 채용해야 하나? A. 운영 사고가 자주 나면 SRE. 개발자들이 빌드/배포 환경 때문에 시간을 많이 쓰면 Platform Engineer. 둘 다면 SRE 먼저.
Q. DevOps 엔지니어 라는 직무는 의미가 있나? A. 마케팅 직무명에 가깝다. 실제 일을 보면 SRE 일 이거나 Platform Engineer 일 인 경우가 대부분이다.
Q. Agentic DevOps 가 이 셋을 다 대체하나? A. 아니다. 에이전트는 SRE/Platform Engineer 의 시간을 바꾼다. 에이전트가 1차 트리아지·반복 운영을 다루는 동안, 사람은 설계·예산·정책 결정 에 집중한다. → DevOps의 진화 — 2009-2026 도 함께 보면 좋다.
비슷한 글
에이전틱 DevOps 12개월 후 — 첫 가설 중 무엇이 *맞았고* 무엇이 *틀렸나*
12개월 전 다음 10년의 DevOps는 에이전틱이다 의 가설들. 12개월의 데이터로 어느 가설이 맞고 어느 게 틀렸는지의 정직한 평가.
백재민
3 pillars 그 후 — 4 추가 신호의 *6개월 후* 운영 노트
3 pillars 가 더 이상 충분하지 않은 이유 발행 후 6개월. 4 추가 신호 (events / user journeys / deploy correlation / similarity) 가 운영에서 어떻게 작동했는지의 후속.
백재민
GitHub Actions vs 자체 호스팅 — *진짜 비용* 비교 (12개월 데이터)
GitHub Actions 가 *비싸 보임* 은 표면. 12개월 자체 호스팅 vs SaaS 비교 — 단순 *분당 비용* 이 아니라 *총 운영 비용* 으로.
백재민