본문 바로가기

ollama15

[폐쇄망 LLM 구축기 EP.01] 왜 내부망에서 LLM을 돌려야 하는가 🎯 이 글에서 얻어가는 것· 회사 보안팀이 클라우드 AI를 막는 진짜 이유· 2026년 오픈소스 LLM이 진짜로 ChatGPT 대체 가능한가?· 18편짜리 폐쇄망 LLM 구축 시리즈의 전체 로드맵← 시리즈 시작 📋 시리즈 목차 EP.02 전체 아키텍처 → 회사에서 AI 쓰고 싶으신 분 손!저도 그랬어요. 사내에 반복되는 코드 리뷰, 회의록 요약, 사내 문서 검색을 어떻게든 자동화해보겠다고 알아봤는데 절차나 법 이런게 문제더라구요. "특히 망분리 규정 위반"공공기관, 금융권, 군, 일부 대기업처럼 망분리가 적용된 환경에선 인터넷에 연결된 어떤 서비스도 사내 데이터를 처리할 수 없거든요. Copilot도, Claude도, ChatGPT Enterprise도 똑같이 막힙니다. 그래서 결심했어요. "외부에.. 2026. 4. 17.
[폐쇄망에서 살아남기 EP.00] 인터넷 없는 서버에서 ChatGPT급 AI를 만듭니다 — 시리즈 예고 🔒 폐쇄망에서 살아남기 — 시리즈 예고✅ 인터넷 없는 서버에서 ChatGPT급 AI 서비스를 만드는 전체 과정✅ vLLM + Ollama + LiteLLM + OpenWebUI, 18편 완전 실전 가이드✅ 복사-붙여넣기로 바로 따라할 수 있는 모든 명령어와 설정 파일 시리즈 첫 글 📋 시리즈 목차 EP.01 폐쇄망에서 LLM을 돌려야 하는 이유 → 작성예정회사에서 ChatGPT 쓰고 싶다... "보안 규정상 외부 클라우드 AI 서비스 사용 불가." 공공기관, 금융권, 군, 대기업… 망분리 환경에서 일해본 분이라면 다들 한 번쯤 겪어본 장면일 거예요.그런데 가만히 생각해보면, 틀린 말은 아니에요. 업무 데이터를 외부 서버로 보내는 건 진짜 위험하니까요. 문제는 "안 된다"에서 끝나버리는 것이었어요. ".. 2026. 4. 15.
맥미니 M4로 홈서버 + AI 로컬 LLM 구축하기 — 모델별 선택 가이드 (2026) 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.핵심 요약맥미니 M4는 초저전력(대기 4~7W), 통합 메모리 아키텍처, 89만원이라는 가격으로 홈서버 + AI 로컬 추론 서버의 최적 선택지가 되고 있다. M4 Pro 64GB로 실제 운영 중인 경험을 바탕으로 모델별 선택 기준과 구축 방법을 정리한다.왜 맥미니가 AI 서버로 주목받는가2026년 현재, DDR5 메모리 가격이 반년 만에 3~4배 폭등하면서 조립 PC의 가성비가 크게 흔들리고 있다. 32GB RAM을 맞추려면 램 값만 수십만 원인 상황에서, 맥미니의 통합 메모리 아키텍처는 이 가격 폭등의 영향을 받지 않는다.Apple Silicon은 CPU, GPU, RAM이 하나의 칩에 통합되어 있다. 일반 PC에서 .. 2026. 4. 14.
2026 로컬 LLM 한국어 성능 심층 비교 — EXAONE vs Qwen 3.5 vs Gemma 4(RAG·에이전트 기준) 🤖 2025 로컬 LLM 한국어 성능 심층 비교 요약RAG·에이전트 용도로 EXAONE 3.5/4.0 vs Qwen 2.5/3 vs Gemma 3 등 로컬 실행 가능한 주요 모델을 벤치마크·실용성 양면에서 비교합니다.Mac Apple Silicon(Ollama) + NVIDIA GPU(vLLM) 혼합 환경 기준으로 모델 크기별 최적 선택지를 제시합니다.🗺️ 들어가며 — 2025년 로컬 LLM 한국어 지형도한국어 로컬 LLM 생태계는 2025년을 기점으로 뚜렷한 양강 구도로 재편되고 있습니다. 순수 한국어 품질을 최우선으로 하는 EXAONE 계열과, 에이전트·도구 호출 생태계의 성숙도에서 앞서는 Qwen 계열의 경쟁이 핵심입니다. Gemma 3는 멀티모달과 양자화 효율에서 빠르게 치고 올라오고 있고요... 2026. 4. 12.
Ollama vs vLLM 완전 비교 — V100 3장 환경에서 동시 사용자 20명 서빙하기 🎯 한 줄 결론5명 이하 → 현재 Ollama + Qwen3-Coder-30B-A3B 유지가 합리적. 단일 사용자 속도·품질 모두 우위.5~10명 → vLLM 전환을 권장. Continuous Batching이 효과를 발휘하기 시작하는 분기점.10~20명 → vLLM 필수. Ollama 대비 처리량 3~5배, 개인당 레이턴시 안정성 압도적 우위.최적 구성: vLLM(GPU 0,1) + Qwen3-14B FP16 메인 / Ollama(GPU 2) + 1.5B 자동완성 분리.\🚀 시작하며 — 삽질의 기록과 질문Qwen3-Coder-30B-A3B를 Ollama로 돌리다 보니 어느 순간 팀원들이 동시에 쓰기 시작했고, 응답이 순서를 기다리며 밀리는 게 체감되기 시작했습니다. "그냥 vLLM으로 바꾸면 되는 .. 2026. 4. 10.
OpenWebUI RAG 설정 최적화 완벽 가이드 — bge-m3 vs nomic-embed-text vs qwen3-embedding 비교 📌 이 글에서 다루는 내용OpenWebUI RAG 검색 품질이 왜 별로인지, 어떤 설정을 바꿔야 하는지 — bge-m3 / nomic-embed-text / qwen3-embedding 임베딩 모델 실전 비교와 Chunk Size, Hybrid Search, Reranker까지 한 번에 정리합니다.로컬 LLM 셋업하고 RAG 연결까지 됐는데, 막상 문서 기반으로 질문하면 엉뚱한 답이 나오는 경험 다들 있으실 거예요. 저도 처음엔 "모델이 멍청한 건가?" 싶었는데, 알고 보니 임베딩 모델 선택이랑 청킹 설정이 문제인 경우가 대부분이었어요. 이 글에서는 OpenWebUI 기준으로 RAG 품질을 실질적으로 끌어올리는 방법을 단계별로 정리해봤습니다.🔍 RAG 품질이 낮은 진짜 이유RAG(Retrieval-A.. 2026. 4. 10.
반응형

▲ TOP