폐쇄망에서 Llama / Qwen 운영 — 9개월의 실전 노트
클라우드 LLM 을 못 쓰는 환경에서 *Llama 3 / Qwen 2.5* 를 self-hosted 로 운영하는 9개월. GPU 배분, throughput, fine-tuning, 모델 갱신 — 가이드에 안 나오는 4 가지.
작년 6월부터 한 폐쇄망 고객사에서 Llama 3.2 와 Qwen 2.5 를 self-hosted 로 운영 중이다. 도입 가이드는 모델 다운로드 + vLLM + GPU 까지만 다룬다. 그 다음 9개월 의 실전이 가이드에 없는 4 가지를 만들었다.
1 — GPU 배분이 모델별 다름
처음 모든 모델에 동일한 A100 1장 가정. 6주 후 깨짐.
모델 | 권장 GPU 구성 | 처리량 (req/s)
─────────────────────────┼────────────────────────────┼──────────────
Llama 3.2 8B | A100 40GB × 1 | 4~6
Llama 3.3 70B | A100 80GB × 2 (tensor parallel) | 0.8~1.2
Qwen 2.5 7B (Korean) | A100 40GB × 1 | 5~7
Qwen 2.5 32B | A100 80GB × 1 | 2~3
Mixtral 8x7B | A100 80GB × 2 | 2~4함정 — 큰 모델이 항상 좋은 게 아님. 70B 가 8B 보다 5~6배 느린데 정확도 15% 만 좋음. 작업 종류에 따라 작은 모델이 정답.
2 — throughput vs latency trade-off
GPU 배분이 끝나면 다음 결정 — batch 크기. 큰 batch = throughput ↑ + latency ↑.
batch=1: latency 200ms, throughput 1.5 req/s
batch=8: latency 800ms, throughput 6 req/s
batch=16: latency 1.2s, throughput 8 req/s
batch=32: latency 2.5s, throughput 9 req/s (수확체감)대화형 인터페이스 = batch 작게 (latency 우선). 배치 분석 = batch 크게 (throughput 우선). 둘 다 필요 면 별도 endpoint 로 분리.
3 — Fine-tuning 의 실제 비용
"우리 도메인에 맞게 fine-tune" 가설. 6개월 후 결과 — 대부분의 케이스에서 fine-tuning 비용 > 가치.
이유:
- 데이터 큐레이션 이 가장 비싸 — 수천 개 라벨링된 예시 필요
- re-training 사이클 — 새 모델 출시 시 다시 fine-tune
- RAG 가 더 싸고 더 신선 — 도메인 지식이 문서면 RAG 가 답
Fine-tune 이 답인 경우 — style / format 통일 필요할 때 (예: 항상 한국어 존댓말). 그 외는 RAG.
4 — 모델 갱신은 분기 1회 작업
새 모델 (Llama 3.4, Qwen 3 등) 이 나오면 그냥 교체 하는 게 아니다. 갱신 = 작은 프로젝트.
모델 갱신 체크리스트:
1. 새 모델 download + 검증 (체크섬, 라이선스)
2. vLLM / text-generation-inference 호환 버전 확인
3. GPU memory profile 재측정
4. 우리 prompt template 호환성 검증
5. *우리 도메인 평가셋* 으로 정확도 비교 (이전 모델 vs 신 모델)
6. fine-tune 했으면 재 fine-tune 필요성 판단
7. Canary 배포 (10% 트래픽 → 비교)
8. 100% 전환 또는 롤백7~8 단계는 전 패턴 — 에이전트 롤백 전략 그대로.
9개월의 비용 표
초기 셋업 (6주): $48,000 (인건비)
GPU 임대 (월 평균): $3,200
운영 (월 평균): $4,500 (인건비)
fine-tune 시도 + 폐기: $11,000
모델 갱신 (분기 1회): $6,000
─────────────────────────────────────────
9개월 총: ~$132,000같은 워크로드를 클라우드 LLM API 로 했을 때 추정 — $280,000. self-hosted 가 55% 절감. 다만 컴플라이언스 가치 는 별도 — 폐쇄망 고객은 이게 없으면 PoC 자체가 시작 안 됨.
누가 이 글을 읽으면 좋은가
지금 self-hosted LLM 도입을 검토 또는 초기 단계 인 팀. 가이드만 보고 가면 모델 다운로드 → vLLM 부팅 까지는 빠르지만, 위 4 영역 에서 각각 6주 잡혀 있음. 그걸 처음부터 일정에 박는 게 정답.
비슷한 글
에이전틱 DevOps 12개월 후 — 첫 가설 중 무엇이 *맞았고* 무엇이 *틀렸나*
12개월 전 다음 10년의 DevOps는 에이전틱이다 의 가설들. 12개월의 데이터로 어느 가설이 맞고 어느 게 틀렸는지의 정직한 평가.
백재민
3 pillars 그 후 — 4 추가 신호의 *6개월 후* 운영 노트
3 pillars 가 더 이상 충분하지 않은 이유 발행 후 6개월. 4 추가 신호 (events / user journeys / deploy correlation / similarity) 가 운영에서 어떻게 작동했는지의 후속.
백재민
GitHub Actions vs 자체 호스팅 — *진짜 비용* 비교 (12개월 데이터)
GitHub Actions 가 *비싸 보임* 은 표면. 12개월 자체 호스팅 vs SaaS 비교 — 단순 *분당 비용* 이 아니라 *총 운영 비용* 으로.
백재민