폐쇄망 환경에서 내부 LLM 서버 구축 아키텍처

728x90

— Ollama vs vLLM 비교, RAG 연계, LDAP 인증까지

1️⃣ 왜 내부 LLM 서버인가?

최근 기업들은 GPT-4나 Claude 같은 클라우드 기반 LLM을 적극 도입하고 있지만,
보안상 인터넷이 차단된 폐쇄망(망분리 환경)에서는 외부 모델 사용이 불가능합니다.

이때 필요한 것이 바로 내부 LLM 서버(Local LLM Infrastructure)입니다.
즉, 오픈소스 기반 모델을 사내 인프라에 직접 배포하고,
내부 사용자들이 안전하게 활용할 수 있도록 하는 구조죠.

2️⃣ 내부 LLM 서버 구축의 핵심 목표

구분	목표
🔐 보안성	외부 통신 차단된 환경에서도 안전하게 운영
⚙️ 운영성	관리자 중심의 유지보수 및 버전 관리 용이
🧠 활용성	사내 문서, 매뉴얼, 정책 문서를 LLM과 결합 (RAG)
👥 통합성	LDAP 등 사내 인증 시스템과 연계
🚀 확장성	모델 업그레이드 및 다중 사용자 처리 가능 구조

3️⃣ 내부 LLM 서버 구성의 전체 아키텍처

아래는 폐쇄망 내에서 LLM 서버를 구성할 때의 전형적인 구조입니다.

[사용자 PC]
    ↓ HTTPS
[Nginx Reverse Proxy]
    ↓
[OpenWebUI or ChatUI]  ← LDAP 연동
    ↓
[LLM Server Layer]
   ├─ Ollama (or vLLM)
   ├─ Model Storage (Quantized models)
   └─ Scheduler / API Gateway
    ↓
[RAG Layer]
   ├─ Vector DB (Chroma, Milvus, FAISS)
   ├─ Embedding Model (BGE, E5 등)
   └─ Document Loader / Indexer
    ↓
[사내 데이터]
   ├─ 내부 매뉴얼, 보고서
   ├─ 기술문서, ERP 로그
   └─ 위키, 정책 문서

이 구조를 기반으로, 주요 구성요소를 하나씩 살펴보겠습니다.

4️⃣ Ollama vs vLLM — 핵심 비교

항목	Ollama	vLLM
기본 역할	로컬 환경에서 손쉬운 모델 배포 및 관리	대규모 모델 서비스 및 API 서버 최적화
지원 모델	Llama, Mistral, Qwen, Gemma 등 주요 모델	대부분의 HuggingFace 모델, 커스텀 모델
성능 최적화	로컬 Inference 중심, 모델 관리 용이	Tensor Parallelism, Continuous Batching
설치 난이도	매우 쉬움 (단일 명령)	Python + CUDA 설정 필요
API 방식	OpenAI 호환 REST API 제공	OpenAI 호환 API 제공 (더 빠름)
GPU 활용	단일 GPU 또는 CPU	다중 GPU 분산 지원
운영 대상	개발자용, 테스트용, 소규모 팀	서비스형, 다중 사용자 환경
장점	경량, 유지보수 쉬움, 빠른 모델 교체	고성능, 동시요청 처리, 세밀한 튜닝 가능
단점	대규모 동시요청 처리엔 한계	설치/운영 복잡도 높음

✅ 요약 추천

소규모/POC/파일럿 환경 → Ollama
정식 서비스/다중 사용자 운영 → vLLM

5️⃣ 유지보수 및 업그레이드 전략

📦 1. 모델 관리

Ollama의 경우 Modelfile 기반으로 버전 관리 가능
ollama pull qwen2:7b ollama run qwen2
vLLM은 model weights를 직접 관리해야 하므로
사내 Git-LFS 또는 MinIO에 저장하는 방식을 권장합니다.

🔄 2. 업그레이드

Ollama: 바이너리 교체만으로 버전 업그레이드 가능
(운영서버 다운타임 거의 없음)
vLLM: Python 패키지 재설치 및 환경 재빌드 필요
(conda, pip, docker 기반 관리 추천)

🧰 3. 로그 및 모니터링

Prometheus + Grafana 연계로 GPU 메모리, latency 모니터링
OpenWebUI의 Usage Log 기능 활용 (누가, 언제, 어떤 모델 사용)

6️⃣ 사내 RAG (Retrieval-Augmented Generation) 구축

사내 지식데이터를 LLM에 연결하기 위해선 RAG 계층이 필수입니다.

🔧 구성 예시

구성요소	역할
Embedding Model	문서 벡터화 (예: bge-m3, e5-base)
Vector DB	벡터 저장 및 검색 (예: Chroma, Milvus, FAISS)
Retriever	유사 문서 검색
LLM	검색된 문서를 기반으로 답변 생성

📘 데이터 흐름

사용자 질문 → 임베딩 → 유사 문서 검색 → 문서+질문 → LLM → 답변 생성

💡 내부 문서 반영 전략

사내 위키 / 매뉴얼 / 정책문서 → PDF or Markdown 변환
주기적 인덱싱 (cron job or Airflow)
권한별 문서 접근 제어 (LDAP 그룹 기반)

7️⃣ LDAP 인증을 통한 사용자 연계

보안성이 중요한 폐쇄망에서는 사내 인증 시스템(AD/LDAP) 과 연계가 필수입니다.

🔐 구성 방식

[사용자 로그인 요청]
    ↓
[OpenWebUI / Portal]
    ↓ LDAP 인증 (bind)
[LDAP Server]
    ↓
[Role Mapping → Access Control]

🔧 구현 방법

OpenWebUI는 Auth Providers에 LDAP 연동 기능을 제공합니다.
AUTH_MODE: ldap LDAP_SERVER: ldap://ldap.company.local LDAP_BASE_DN: ou=users,dc=company,dc=local LDAP_USER_ATTRIBUTE: uid LDAP_BIND_DN: cn=admin,dc=company,dc=local LDAP_PASSWORD: ****
인증 후, 그룹에 따라 접근 가능한 모델/기능 제한 가능
(예: 관리자 전용 GPT-4, 일반직원용 Qwen)

8️⃣ 운영 시 고려사항

항목	설명
GPU 관리	NVIDIA GPU 드라이버, CUDA 버전 일치 필수
네트워크	외부망 차단 시 내부 모델/패키지 캐시 구성 필요
스토리지	모델 용량 큼 (7B 기준 8~16GB)
백업	모델, 벡터DB, 로그를 주기적으로 백업
접근제어	LDAP 그룹 기반 접근 제어 + Nginx Basic Auth 병행 가능

9️⃣ 지속적인 고도화 방향

단계	내용
1단계	Ollama 기반 LLM + OpenWebUI 구축
2단계	vLLM 전환 및 다중 사용자 처리
3단계	RAG 구축 및 사내 데이터 연계
4단계	LDAP 통합 인증 및 Role 기반 접근
5단계	모델 평가 시스템 도입 (Langfuse, Evals)
6단계	사내 파인튜닝 환경 구축 (LoRA, PEFT)

마무리 — 내부 LLM은 “작은 AI 플랫폼”이다

폐쇄망 환경의 LLM 서버는 단순한 모델 서버가 아니라
“사내 지식 플랫폼”의 기반 인프라입니다.

Ollama → 빠른 실험과 배포
vLLM → 대규모 운영 안정성
RAG → 사내 지식 반영
LDAP → 보안 및 접근제어

이 네 가지를 중심으로 단계적으로 확장해 나가면,
기업 내부에서도 ChatGPT 수준의 경험을 안전하게 제공합니다.

✍️ 작성자 한마디
폐쇄망에서의 LLM 구축은 “기술”보다 “운영 체계”가 핵심입니다.
GPU 자원, 인증 체계, 사내 문서 구조를 잘 파악하고
Ollama → vLLM → RAG → Auth로 이어지는 성숙 단계 전략으로 접근해 보세요.