폐쇄망에서 Llama / Qwen 운영 — 9개월의 실전 노트

클라우드 LLM 을 못 쓰는 환경에서 *Llama 3 / Qwen 2.5* 를 self-hosted 로 운영하는 9개월. GPU 배분, throughput, fine-tuning, 모델 갱신 — 가이드에 안 나오는 4 가지.

백재민
백재민
CollabOps 창업자
폐쇄망에서 Llama / Qwen 운영 — 9개월의 실전 노트

작년 6월부터 한 폐쇄망 고객사에서 Llama 3.2Qwen 2.5 를 self-hosted 로 운영 중이다. 도입 가이드는 모델 다운로드 + vLLM + GPU 까지만 다룬다. 그 다음 9개월 의 실전이 가이드에 없는 4 가지를 만들었다.

1 — GPU 배분이 모델별 다름

처음 모든 모델에 동일한 A100 1장 가정. 6주 후 깨짐.

모델                    | 권장 GPU 구성              | 처리량 (req/s)
─────────────────────────┼────────────────────────────┼──────────────
Llama 3.2 8B           | A100 40GB × 1               | 4~6
Llama 3.3 70B          | A100 80GB × 2 (tensor parallel) | 0.8~1.2
Qwen 2.5 7B (Korean)   | A100 40GB × 1               | 5~7
Qwen 2.5 32B           | A100 80GB × 1               | 2~3
Mixtral 8x7B            | A100 80GB × 2               | 2~4

함정 — 큰 모델이 항상 좋은 게 아님. 70B 가 8B 보다 5~6배 느린데 정확도 15% 만 좋음. 작업 종류에 따라 작은 모델이 정답.

2 — throughput vs latency trade-off

GPU 배분이 끝나면 다음 결정 — batch 크기. 큰 batch = throughput ↑ + latency ↑.

batch=1:    latency 200ms,  throughput 1.5 req/s
batch=8:    latency 800ms,  throughput 6 req/s
batch=16:   latency 1.2s,   throughput 8 req/s
batch=32:   latency 2.5s,   throughput 9 req/s  (수확체감)

대화형 인터페이스 = batch 작게 (latency 우선). 배치 분석 = batch 크게 (throughput 우선). 둘 다 필요별도 endpoint 로 분리.

3 — Fine-tuning 의 실제 비용

"우리 도메인에 맞게 fine-tune" 가설. 6개월 후 결과 — 대부분의 케이스에서 fine-tuning 비용 > 가치.

이유:

  • 데이터 큐레이션 이 가장 비싸 — 수천 개 라벨링된 예시 필요
  • re-training 사이클 — 새 모델 출시 시 다시 fine-tune
  • RAG 가 더 싸고 더 신선 — 도메인 지식이 문서면 RAG 가 답

Fine-tune 이 답인 경우 — style / format 통일 필요할 때 (예: 항상 한국어 존댓말). 그 외는 RAG.

RAG vs Fine-tune 결정 가이드

4 — 모델 갱신은 분기 1회 작업

새 모델 (Llama 3.4, Qwen 3 등) 이 나오면 그냥 교체 하는 게 아니다. 갱신 = 작은 프로젝트.

모델 갱신 체크리스트:

1. 새 모델 download + 검증 (체크섬, 라이선스)
2. vLLM / text-generation-inference 호환 버전 확인
3. GPU memory profile 재측정
4. 우리 prompt template 호환성 검증
5. *우리 도메인 평가셋* 으로 정확도 비교 (이전 모델 vs 신 모델)
6. fine-tune 했으면 재 fine-tune 필요성 판단
7. Canary 배포 (10% 트래픽 → 비교)
8. 100% 전환 또는 롤백

7~8 단계는 전 패턴에이전트 롤백 전략 그대로.

9개월의 비용 표

초기 셋업 (6주):                  $48,000  (인건비)
GPU 임대 (월 평균):              $3,200
운영 (월 평균):                   $4,500  (인건비)
fine-tune 시도 + 폐기:            $11,000
모델 갱신 (분기 1회):             $6,000
─────────────────────────────────────────
9개월 총:                         ~$132,000

같은 워크로드를 클라우드 LLM API 로 했을 때 추정 — $280,000. self-hosted 가 55% 절감. 다만 컴플라이언스 가치 는 별도 — 폐쇄망 고객은 이게 없으면 PoC 자체가 시작 안 됨.

누가 이 글을 읽으면 좋은가

지금 self-hosted LLM 도입을 검토 또는 초기 단계 인 팀. 가이드만 보고 가면 모델 다운로드 → vLLM 부팅 까지는 빠르지만, 위 4 영역 에서 각각 6주 잡혀 있음. 그걸 처음부터 일정에 박는 게 정답.

태그#llm#on-prem#llama#qwen#gpu#ai