본문 바로가기

vllm11

[폐쇄망에서 살아남기 EP.00] 인터넷 없는 서버에서 ChatGPT급 AI를 만듭니다 — 시리즈 예고 🔒 폐쇄망에서 살아남기 — 시리즈 예고✅ 인터넷 없는 서버에서 ChatGPT급 AI 서비스를 만드는 전체 과정✅ vLLM + Ollama + LiteLLM + OpenWebUI, 18편 완전 실전 가이드✅ 복사-붙여넣기로 바로 따라할 수 있는 모든 명령어와 설정 파일 시리즈 첫 글 📋 시리즈 목차 EP.01 폐쇄망에서 LLM을 돌려야 하는 이유 → 작성예정회사에서 ChatGPT 쓰고 싶다... "보안 규정상 외부 클라우드 AI 서비스 사용 불가." 공공기관, 금융권, 군, 대기업… 망분리 환경에서 일해본 분이라면 다들 한 번쯤 겪어본 장면일 거예요.그런데 가만히 생각해보면, 틀린 말은 아니에요. 업무 데이터를 외부 서버로 보내는 건 진짜 위험하니까요. 문제는 "안 된다"에서 끝나버리는 것이었어요. ".. 2026. 4. 15.
맥미니 M4로 홈서버 + AI 로컬 LLM 구축하기 — 모델별 선택 가이드 (2026) 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.핵심 요약맥미니 M4는 초저전력(대기 4~7W), 통합 메모리 아키텍처, 89만원이라는 가격으로 홈서버 + AI 로컬 추론 서버의 최적 선택지가 되고 있다. M4 Pro 64GB로 실제 운영 중인 경험을 바탕으로 모델별 선택 기준과 구축 방법을 정리한다.왜 맥미니가 AI 서버로 주목받는가2026년 현재, DDR5 메모리 가격이 반년 만에 3~4배 폭등하면서 조립 PC의 가성비가 크게 흔들리고 있다. 32GB RAM을 맞추려면 램 값만 수십만 원인 상황에서, 맥미니의 통합 메모리 아키텍처는 이 가격 폭등의 영향을 받지 않는다.Apple Silicon은 CPU, GPU, RAM이 하나의 칩에 통합되어 있다. 일반 PC에서 .. 2026. 4. 14.
2026 로컬 LLM 한국어 성능 심층 비교 — EXAONE vs Qwen 3.5 vs Gemma 4(RAG·에이전트 기준) 🤖 2025 로컬 LLM 한국어 성능 심층 비교 요약RAG·에이전트 용도로 EXAONE 3.5/4.0 vs Qwen 2.5/3 vs Gemma 3 등 로컬 실행 가능한 주요 모델을 벤치마크·실용성 양면에서 비교합니다.Mac Apple Silicon(Ollama) + NVIDIA GPU(vLLM) 혼합 환경 기준으로 모델 크기별 최적 선택지를 제시합니다.🗺️ 들어가며 — 2025년 로컬 LLM 한국어 지형도한국어 로컬 LLM 생태계는 2025년을 기점으로 뚜렷한 양강 구도로 재편되고 있습니다. 순수 한국어 품질을 최우선으로 하는 EXAONE 계열과, 에이전트·도구 호출 생태계의 성숙도에서 앞서는 Qwen 계열의 경쟁이 핵심입니다. Gemma 3는 멀티모달과 양자화 효율에서 빠르게 치고 올라오고 있고요... 2026. 4. 12.
Ollama vs vLLM 완전 비교 — V100 3장 환경에서 동시 사용자 20명 서빙하기 🎯 한 줄 결론5명 이하 → 현재 Ollama + Qwen3-Coder-30B-A3B 유지가 합리적. 단일 사용자 속도·품질 모두 우위.5~10명 → vLLM 전환을 권장. Continuous Batching이 효과를 발휘하기 시작하는 분기점.10~20명 → vLLM 필수. Ollama 대비 처리량 3~5배, 개인당 레이턴시 안정성 압도적 우위.최적 구성: vLLM(GPU 0,1) + Qwen3-14B FP16 메인 / Ollama(GPU 2) + 1.5B 자동완성 분리.\🚀 시작하며 — 삽질의 기록과 질문Qwen3-Coder-30B-A3B를 Ollama로 돌리다 보니 어느 순간 팀원들이 동시에 쓰기 시작했고, 응답이 순서를 기다리며 밀리는 게 체감되기 시작했습니다. "그냥 vLLM으로 바꾸면 되는 .. 2026. 4. 10.
(수정)Claude Code + vLLM 폐쇄망 최적 구성 — V100 3장에서 Opus/Sonnet/Haiku 모델 분리하기 🔄 [2025.04.10 업데이트] 이 글의 모델 추천에 오류가 있었습니다이 글에서 추천한 Qwen2.5-Coder-14B는 현재 사용 중인 Qwen3-Coder-30B-A3B (Ollama Q4) 대비 코딩 품질이 낮습니다. Qwen3 기술보고서 기준으로 Qwen3-Coder는 Intelligence Index 20점 vs Qwen2.5-14B 수준이며, 세대 차이가 성능 격차를 만듭니다.오류가 발생한 배경: vLLM에서 Qwen3-Coder-30B-A3B를 올렸을 때 --enforce-eager + PP=3 조합으로 속도가 너무 느려져서 "돌아가는 대안"으로 Qwen2.5-Coder-14B를 선택했는데, 이것이 실제로는 모델 품질 후퇴였습니다.정정된 권장 구성:단일~소수 사용자 → Ollama + .. 2026. 4. 10.
폐쇄망 Ollama→vLLM 전환기 EP.3 — 실행 명령어 해부와 트러블슈팅 🔧 시리즈폐쇄망 Ollama → vLLM 전환기✔ EP.1 서버 환경 사전 점검✔ EP.2 컨테이너 이미지 & 모델 반입▶ EP.3 vLLM 실행 및 트러블슈팅 ← 현재 글EP.4 성능 튜닝 & 운영컨테이너 이미지와 모델 파일이 서버에 올라갔다면, 이제 진짜 vLLM을 켤 차례입니다.하지만 podman run 한 줄 치면 바로 되는 것처럼 보여도, V100 환경에서는 생각보다 많은 함정이 있습니다. BF16 에러, NCCL 통신 실패, OOM(Out of Memory), SELinux 차단 등 — 이 글에서는 실행 명령어의 모든 플래그를 하나하나 설명하고, 실제로 마주치는 에러별 해결법을 정리합니다.📑 목차1. 실행 전 사전 확인2. 실행 명령어 완전 분석3. 정상 기동 확인4. API 호출 테스트5.. 2026. 4. 7.
반응형

▲ TOP