에이전틱 DevOps 12개월 후 — 첫 가설 중 무엇이 *맞았고* 무엇이 *틀렸나*
12개월 전 다음 10년의 DevOps는 에이전틱이다 의 가설들. 12개월의 데이터로 어느 가설이 맞고 어느 게 틀렸는지의 정직한 평가.
백재민
블로그
엔지니어링·제품·공공섹터에서 본 DevOps 실행 레이어
12개월 전 다음 10년의 DevOps는 에이전틱이다 의 가설들. 12개월의 데이터로 어느 가설이 맞고 어느 게 틀렸는지의 정직한 평가.
백재민
Q2 의 4 메이저 출시 (AI 에이전트 GA, 통합 마켓플레이스 베타, OpenShift Operator, FIPS-validated 빌드) + 12 minor 변경의 정리.
백재민
SaaS 스타트업의 채용 신호와 *완전히 다른* 신호가 온프레 스타트업에 작동. 6 hire 의 결과로 정리한 *우리 신호*.
백재민
3 pillars 가 더 이상 충분하지 않은 이유 발행 후 6개월. 4 추가 신호 (events / user journeys / deploy correlation / similarity) 가 운영에서 어떻게 작동했는지의 후속.
백재민
GitHub Actions 가 *비싸 보임* 은 표면. 12개월 자체 호스팅 vs SaaS 비교 — 단순 *분당 비용* 이 아니라 *총 운영 비용* 으로.
백재민
GUI 데모는 *5분*. CLI 투어는 *30초*. 우리 제품의 멘탈 모델이 가장 빨리 전달되는 도구.
백재민
새 도메인, 백링크 0, DA 0. 그 상태에서 *LLM 답변 인용을 받는* 6개월 실험. 4 단계 + 측정 가능한 결과.
백재민
글로벌 SaaS 영업 가이드는 한국 엔터프라이즈에 *그대로* 적용 안 됨. 우리가 6 한국 고객사에서 본 5가지 한국 특수성과 대응.
백재민
클라우드 DR 가이드는 *모든 것을 다중 region* 가정. 폐쇄망에서는 *region 이 없음*. 4 가지 자원 분류와 각각의 다중화 전략.
백재민
ISO 27001 인증을 *문서 작업* 으로 보고 시작하면 6개월 후 좌절. 인증은 *조직 운영 자체* 를 바꾼다. 작은 팀의 *현실적* 도입 가이드.
백재민
"멀티 에이전트 시스템" 이 2026년의 hype. 우리가 시도하고 *부서뜨린* 케이스 5개. *단일 에이전트 + 좋은 도구* 가 거의 항상 답인 이유.
백재민
첫 9개월 동안 통합 마켓플레이스를 *명시적으로 거부*. 12개월차에 *결정을 뒤집었다*. 그 결정의 4가지 변수.
백재민
에이전트가 사람을 대체한다는 얘기가 아니다. 사람과 에이전트가 같은 권한 모델·같은 감사 트레이스 안에서 일한다는 얘기다. 그 차이가 다음 10년을 정의한다.
백재민
MCP 서버 구현의 *공식 가이드* 가 다루는 곳 + *실전에서 만난 5가지* — JSON-RPC 변환, 권한 분기, error semantics, lifecycle, 격리.
백재민
2023년 답: 거의 항상 RAG. 2026년 답: *조건부*. 4가지 결정 변수와, 둘을 *조합* 하는 게 답인 케이스.
백재민
창업 첫 9개월. 사람·돈·제품·시장의 결정 23개. 그 중 *7개* 가 옳았고, *6개* 가 틀렸으며, *나머지* 는 아직 모른다. 솔직한 기록.
백재민
Zero Trust 는 *경계 없음* 을 가정하고, 폐쇄망은 *경계 있음* 을 전제. 둘이 충돌하는 게 아니라 *경계 안에서도 zero trust* 가 답이다.
백재민
클라우드 LLM 을 못 쓰는 환경에서 *Llama 3 / Qwen 2.5* 를 self-hosted 로 운영하는 9개월. GPU 배분, throughput, fine-tuning, 모델 갱신 — 가이드에 안 나오는 4 가지.
백재민
처음에 *LLM 호출 비용은 작다* 라고 가정했고, 6개월 후 청구서가 *$4,200* 였다. 6가지 패턴으로 *$890* 으로 줄인 6주.
백재민
코드 어시스트는 클라우드면 충분하지만, 운영 자동화는 그렇지 않다. 데이터 경계·실행 권한·감사 의무가 만드는 세 가지 구조적 제약.
백재민
7 개 enterprise 도구의 onprem 모델을 비교. 각자 *어떤 가정* 으로 짰고, *그 가정이 누구를 배제* 하는지. CollabOps 가 *다른 가정* 으로 시작한 이유.
백재민
에이전트가 production 에서 행동하면, 그 행동을 *되돌릴 수 있어야* 한다. 단순 "ctrl+z" 가 아니다. 4가지 롤백 전략과 각각 작동하지 않는 시나리오.
백재민
CollabOps 의 최소 요구는 *VM 1대 + 8 vCPU + 16 GB + 200 GB SSD + 내부 IP*. 이 한 줄이 *6개월의 아키텍처 결정* 을 압축한다. 그 결정의 내부.
백재민
AI 에이전트가 *내가 못 한다* 라고 결정하는 순간 사람에게 인계한다. 그 인계 화면이 *제대로 설계되지 않으면* 사람이 *처음부터 다시* 한다.
백재민
고객이 *k8s 가 없어도, 인프라 전문성이 없어도*, *기존 시스템이 무엇이든* 들어갈 수 있어야 한다. 17개 PoC 에서 본 온프레 환경 5분류와 각각의 도입 경로.
백재민
모든 modern B2B 가 *SaaS first* 인 시대에 우리는 *self-hosted first*. 4 가지 이유와, 그 결정의 *역설적 성장 효과*.
백재민
한 미국 연방 고객을 위해 *FIPS 140-3 검증된 암호화* 만 쓰도록 시스템 전체를 다시 짠 6개월. 그 작업의 시간·돈·정치 비용.
백재민
CollabOps AI 에이전트가 *베타 8개월* 후 GA. 그 8개월 동안 *4번의 출시 보류 결정* 과 그 이유들.
백재민
Cosign 도입 자체는 *2주*. 키 회전 정책 정착에 *7개월*. 그 갭에서 만난 4가지 부서지는 가정.
백재민
LLM 에이전트의 *메모리* 는 *모든 것을 저장* 하는 게 아니라 *무엇을 잊을지 결정* 하는 문제다. 4 종류의 메모리, 4 종류의 잊기 정책.
백재민
우리는 SBOM 을 *감사용 PDF* 로 시작했다가, 6개월 후 *인시던트 응답의 1차 도구* 로 끝났다. 그 변환의 4가지 단계.
백재민
SLSA Level 2 까지는 *공짜에 가깝다*. Level 3 부터가 *진짜 비용*. 18개월 동안 우리가 쓴 시간·돈·정치적 비용의 실측.
백재민
통합 대시보드도, 단순한 자동화 엔진도 아니다. 상태·권한·실행이 한 평면에 살아 있다는 게 무슨 뜻인지.
백재민
BD 인력 없이 엔지니어 + 솔루션 아키텍트 둘이서 첫 3개 엔터프라이즈 고객을 만든 18개월. 5가지 전술과 *작동하지 않은* 3가지.
백재민
두 도구의 비교 글은 많지만 *폐쇄망* 관점에서 본 글은 거의 없다. 4가지 평가축에서 둘이 *언제 어떻게 다른지*.
백재민
2020년의 Dockerfile 베스트 프랙티스 중 *5가지* 가 2026년에 *반대로* 작동한다. 무엇이 바뀌었나.
백재민
"테스트가 느려서 병렬화" 라는 답은 *때로 맞지 않는다*. 병렬도를 늘리며 측정한 6개월의 데이터.
백재민
금융 IT 통제의 *4-eyes* 원칙을 *그대로* 구현하면 *배포 파이프라인이 멈춘다*. 6개 은행에서 본 *실제 작동* 패턴 4가지.
백재민
처음 spec을 읽었을 때 든 생각, 6개월 동안 직접 도구 어댑터를 짜며 부딪힌 함정들, 그리고 DevOps 에이전트에 왜 이게 결정적이었는지.
백재민
처음에 *3 OS × 3 Node 버전 = 9 잡* 으로 시작. 6개월 후 *4축 × 평균 5* 가 되어 *원래 빌드 시간의 100배*. 매트릭스 비용을 *처음부터* 계산하는 법.
백재민
Renovate 도입 후 *PR 의 60%* 가 자동 생성됐고, *5%* 가 production 을 깨뜨렸다. 그 5% 의 4가지 패턴.
백재민
모노레포 vs 폴리레포 논쟁은 *답이 없는* 게 아니라 *조건부 답이 있는* 문제. 5가지 변수가 결정을 가른다. 우리가 7 케이스에서 본 패턴.
백재민
같은 질문을 7개 고객사 보안팀에 던졌고, 답이 *완전히 갈렸다*. 답을 가르는 4가지 변수와, 우리가 추천하는 *경계의 위치*.
백재민
TIPS 신청서를 *작성하는* 시점은 너무 늦다. 통과하는 신청서의 4가지 자료가 *발생하는* 곳은 *작성 6개월 전* 이다. 무엇을 미리 누적해야 하는지.
백재민
모든 PR 에 ephemeral 환경을 띄운다는 결정은 *유혹적* 이다. 12개월간 측정한 진짜 비용은 *클라우드 청구서가 아니라 다른 곳* 에 있었다.
백재민
첫 온프레 고객사에서 부서진 클라우드-CI 가정들의 목록. 이론이 아니라 실제로 어디서, 어떻게 무너졌는지를 순서대로.
백재민
feature flag 를 *on/off 토글* 로 시작했지만, 9개월 후에는 *organization 의 가장 자주 변경되는 인프라 표면* 이 되었다. 그 변환점에서 무엇이 달라지는가.
백재민
GitOps 가 *git 이 진실의 단일 출처* 라는 명제 위에 서 있다. K-ISMS 인증의 일부 통제는 *그 명제* 와 직접 충돌한다. 6 지점과 우회 패턴.
백재민
Canary 가 잘 작동한다는 가정은 *대부분 맞다*. 그런데 그 *대부분* 의 바깥에 7가지 패턴이 있다. 우리가 직접 겪거나 가까이서 본 사례를 분해.
백재민
도구마다 흩어진 권한 정책을 *하나의 그래프* 로 모은 4개월의 재설계. 왜 RBAC 가 부족했고, ABAC 가 답이 아니었으며, *그래프 기반 위임* 이 결정적이었나.
백재민
책에 나오는 error budget 은 깔끔하다. 1년 동안 *실제로 적용한* error budget 은 깔끔하지 않다. 4분기 각각이 무엇을 가르쳤는지의 후일담.
백재민
셋이 같은 그림을 다른 각도에서 보고 있다고 말하면 편하지만, 그건 답이 아니다. 책임 경계·SLO·플랫폼 책임 모델이 어떻게 다른지.
백재민
인터넷이 없는 환경에서 SCA·의존성 스캔이 의미가 있으려면 CVE / OSV / 벤더 advisory 를 *내부에서* 유지해야 한다. 4 종류의 데이터 소스, 4가지 동기화 함정, 한 가지 검증.
백재민
logs / metrics / traces 가 모두 정상으로 보였다. 그런데 사용자 23명이 23분 동안 결제를 못 했다. 그 갭에서 "관측 가능성의 3 pillars" 의 한계가 드러났다.
백재민
공공·금융섹터 클라우드 전환 19개 프로젝트를 가까이서 봤다. 6개는 일정대로, 5개는 끝나지 않았고, 8개는 가운데. 그 8개에서 *같은 5가지가 같은 순서로* 부서졌다.
백재민
47 개의 장기 AWS access key 를 OIDC workload identity 로 갈아끼웠다. 6개월 후 감사 trail 이 한 배포당 47줄에서 1줄로 줄었다. 마이그레이션 6단계와 그 사이 함정.
백재민
$48k 아낀다고 생각하고 self-hosted 로 갔다. 실제로는 $11k 아꼈다. 나머지 $37k 가 어디로 갔는지의 분해.
백재민
"보안을 왼쪽으로(Shift Left)" 라는 슬로건 너머 — DevSecOps가 실제로 무엇이고, 어디서 실패하며, 온프레미스 환경에서는 어떻게 달라지는가.
백재민
4 고객사를 Jenkins 에서 옮겼다. 3개는 순조로웠고 1개는 7개월 걸렸다. 그 차이는 파이프라인이 아니라 *Jenkins 가 외부에 안 보이게 보관해 온 5가지* 였다.
백재민
GitHub Actions 표현식의 "거의 비슷한" 80% 를 받아들이지 못해서 PEG 파서를 직접 짠 6개월. 무엇을 깎아냈고, 무엇을 추가했고, 후속 비용이 어떻게 됐는지.
백재민
DevOps는 17년 동안 다섯 단계를 거쳤다. 각 단계가 무엇을 풀었고, 무엇을 남겨 두었는지, 그리고 지금 우리가 어디에 와 있는지.
백재민
온프레미스 환경에서 도구 통합이 실패하는 구조적 이유와, 위에 한 겹 더 쌓는 대신 실행 레이어가 필요한 까닭.
백재민