본문 바로가기
Tech/AI & LLM

2026 로컬 LLM 한국어 성능 심층 비교 — EXAONE vs Qwen 3.5 vs Gemma 4(RAG·에이전트 기준)

by Hoft 2026. 4. 12.
🤖 2025 로컬 LLM 한국어 성능 심층 비교 요약

RAG·에이전트 용도로 EXAONE 3.5/4.0 vs Qwen 2.5/3 vs Gemma 3 등 로컬 실행 가능한 주요 모델을 벤치마크·실용성 양면에서 비교합니다.
Mac Apple Silicon(Ollama) + NVIDIA GPU(vLLM) 혼합 환경 기준으로 모델 크기별 최적 선택지를 제시합니다.

🗺️ 들어가며 — 2025년 로컬 LLM 한국어 지형도

한국어 로컬 LLM 생태계는 2025년을 기점으로 뚜렷한 양강 구도로 재편되고 있습니다. 순수 한국어 품질을 최우선으로 하는 EXAONE 계열과, 에이전트·도구 호출 생태계의 성숙도에서 앞서는 Qwen 계열의 경쟁이 핵심입니다. Gemma 3는 멀티모달과 양자화 효율에서 빠르게 치고 올라오고 있고요.

이 글에서는 RAG·문서 요약에이전트·Function Calling이라는 두 가지 실용 목적에 집중하여, Mac Apple Silicon + NVIDIA GPU 혼합 환경에서 실제로 선택할 수 있는 모델들을 심층 분석합니다.

📌 이 글의 분석 범위
  • 한국어 특화 파인튜닝 모델: EXAONE 3.5/4.0/Deep, Bllossom, EEVE-Korean
  • 글로벌 다국어 강자: Qwen 2.5/3, Gemma 3, Llama 3.x, Mistral, DeepSeek-R1
  • 실행 환경: Ollama(Mac M-시리즈) + vLLM(NVIDIA GPU)
  • 벤치마크: KMMLU, KoBEST, Ko-MT-Bench, LogicKor, Wikidocs 실용성 테스트

🇰🇷 한국어 특화 모델 분석

EXAONE 3.5 — 로컬 한국어 LLM의 사실상 표준

LG AI Research의 EXAONE 3.5는 현재 한국어 로컬 LLM 생태계에서 가장 강력한 선택지입니다. 2.4B / 7.8B / 32B 세 가지 크기로 제공되며, Ollama 공식 라이브러리에 등록되어 아래 명령 하나로 즉시 실행할 수 있습니다.

ollama run exaone3.5:7.8b

처음부터 한국어-영어 이중 언어 모델로 설계되어, 다국어 모델에서 흔히 발생하는 코드 스위칭(한국어 출력 중 중국어 혼입) 문제가 거의 없습니다. 32B 기준 KoMT-Bench 8.05, LogicKor 9.06을 달성했습니다.

⚠️ 주의: 라이선스가 EXAONE AI Model License 1.1-NC(비상업적 용도)로 제한되어 있어, 상업 프로젝트에는 별도 라이선스 확인이 필요합니다.
크기 VRAM(FP16) Q4 VRAM 컨텍스트 특이사항
2.4B ~5GB ~1.5GB 32K 경량 디바이스용
7.8B ~16GB ~4.5GB 32K 가성비 최강 추천
32B ~64GB ~19GB 32K 품질 최상위

EXAONE 4.0 / Deep — 에이전트와 추론의 진화형

EXAONE 4.0(32B, 1.2B)은 128K 컨텍스트 윈도우와 네이티브 Tool Use/Function Calling을 탑재한 차세대 버전입니다. BFCL-v3와 Tau-Bench에서 검증된 도구 호출 능력이 특징이며, 일반 채팅과 체인오브소트 추론 모드를 상황에 따라 전환할 수 있는 하이브리드 추론 아키텍처를 채택했습니다.

EXAONE Deep은 추론 특화 변형으로, 7.8B 모델이 OpenAI o1-mini급 수학·논리 추론을 주장합니다. 두 모델 모두 Ollama에서 Modelfile을 통해 실행 가능합니다.

Bllossom — 상업 라이선스가 필요하다면

서울과기대 MLPLab의 Bllossom은 Llama 3/3.1/3.2 기반으로 100~250GB의 한국어 데이터로 풀 파인튜닝한 모델입니다. 30,000개 이상의 한국어 토큰을 어휘에 추가해 기본 Llama 대비 한국어 컨텍스트를 25% 더 효율적으로 처리합니다. Meta Community License로 상업적 사용이 가능하다는 점이 최대 강점입니다. AICA-5B 변형은 RAG 시 무관한 정보를 자체적으로 필터링하는 기능을 학습했습니다.

🌍 글로벌 다국어 모델: 한국어 성능 현황

Qwen 2.5 / 3 — 에이전트 용도 1순위

Alibaba의 Qwen 2.5는 128K 컨텍스트, 네이티브 Function Calling, 안정적인 JSON 출력을 모두 갖춘 범용 강자입니다. 7B/14B/32B/72B의 풍부한 크기 옵션과 Apache 2.0 라이선스가 매력적입니다.

다만 실제 한국어 대화 품질은 주의가 필요합니다. Wikidocs 한국어 실용성 테스트에서 14B 모델이 42.1/100(27위)에 그쳤고, 한국어 출력 중 간헐적으로 중국어 문자가 혼입되는 코드 스위칭 문제도 보고됩니다. 에이전트 파이프라인에서는 최강이지만, 순수 한국어 생성 품질은 EXAONE이 앞섭니다.

💡 Qwen 3의 한국어 최적화 동향

Qwen 3(0.6B~235B MoE)은 100개 이상 언어를 지원하며, "Making Qwen3 Think in Korean with Reinforcement Learning" 연구처럼 한국어 추론 강화를 위한 파인튜닝 연구도 활발히 진행 중입니다. 2026년 4월 기준 Qwen 3.5 변형들이 한국의 K-AI 리더보드 1~4위를 석권하며 한국어 성능의 새 기준을 제시하고 있습니다.

Gemma 3 — 자원 효율적 배포의 새 기준

Google의 Gemma 3(4B/12B/27B)는 전작 대비 2배 많은 다국어 학습 데이터와 CJK 인코딩이 개선된 토크나이저로 한국어 성능이 크게 향상됐습니다. LMSys Arena에서 27B IT 모델이 Elo 1339를 기록, DeepSeek-V3(1318)과 Llama-3-405B(1257)를 상회했습니다.

특히 QAT(Quantization-Aware Training) 모델이 제공되어 BF16 대비 3배 적은 메모리로도 품질을 유지합니다. Mac Apple Silicon에서 Ollama로 12B/27B를 실행하기에 가장 효율적인 글로벌 모델입니다.

피해야 할 모델: DeepSeek-R1, 기본 Llama 3.x

DeepSeek-R1은 추론 능력이 탁월하지만 Wikidocs 한국어 실용성 테스트에서 10.5/100이라는 충격적인 점수를 기록했습니다. 사고 과정에서 중국어가 빈번히 혼입되어 한국어 에이전트로는 사실상 사용 불가합니다. 기본 Llama 3.x도 한국어 학습 비중이 전체의 약 0.06%에 불과해 반드시 Bllossom 같은 한국어 파인튜닝 버전을 사용해야 합니다.

📊 벤치마크로 보는 한국어 성능 지형도

모델 크기 KoBEST Wikidocs 실용성 컨텍스트 라이선스
EXAONE 3.5 7.8B 0.792 47.4/100 32K NC
EXAONE 3.5 32B 최상위 32K NC
Qwen 2.5 14B 42.1/100 128K Apache 2.0
Qwen 2.5 72B GPT-4급 128K Apache 2.0
Gemma 3 27B 양호 128K Gemma ToS
Llama 3.3 70B 낮음 47.4/100 128K Meta CL
Bllossom 8B LogicKor SOTA 128K Meta CL
DeepSeek-R1 전체 낮음 10.5/100 128K MIT
벤치마크 해석 주의사항: KMMLU는 전문 지식 기반 객관식 평가라 점수가 높아도 실제 대화 품질과 괴리가 있을 수 있습니다. Wikidocs 실용성 점수(어휘·문법·문화·추론 종합)를 함께 참고하세요.

🍎 Mac Apple Silicon — Ollama 환경 배포 가이드

Ollama 0.19 버전부터 Apple의 MLX 프레임워크를 백엔드로 채택하여 M4 Max 기준 디코딩 속도가 58→112 tok/s로 93% 향상됐습니다 (32GB 이상 통합 메모리 필요).

칩 / 메모리 추천 모델 (Q4_K_M) 예상 속도
M1/M2 (16GB) EXAONE 3.5 2.4B, Qwen 2.5 7B ~14-16 tok/s
M2/M3 Pro (36GB) EXAONE 3.5 7.8B, Qwen 2.5 14B, Gemma 3 12B ~22-28 tok/s
M3/M4 Pro (48GB) EXAONE 3.5 32B (Q4), Qwen 2.5 32B, Gemma 3 27B ~15-22 tok/s
M2/M3/M4 Ultra (96GB+) Qwen 2.5 72B ~20-30 tok/s
🔑 양자화 선택 원칙 (한국어 특화)

한국어는 비라틴 문자 체계로 공격적인 양자화에 영어보다 민감합니다. Q5_K_M이 품질·메모리의 최적 균형점이며, Q4_K_M도 대부분 허용 가능합니다. Q3 이하에서는 한국어 생성 품질이 크게 저하되므로 피하세요. Gemma 3의 QAT 모델은 양자화를 학습에 반영해 저비트에서도 유리합니다.

🖥️ NVIDIA GPU — vLLM 환경 배포 가이드

vLLM은 PagedAttention 기반의 효율적 KV 캐시 관리와 연속 배칭으로 다수의 동시 요청 처리에 최적화되어 있습니다. Function Calling 활성화 명령:

vllm serve LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct \
  --enable-auto-tool-choice \
  --tool-call-parser hermes \
  --max-model-len 32768
GPU 추천 모델 (FP16) 처리량(tok/s) 용도
RTX 4090 (24GB) EXAONE 3.5 7.8B 또는 Qwen 2.5 14B ~104 (8B), ~69 (14B) 단일 사용자 RAG·에이전트
A100 (80GB) EXAONE 4.0 32B 또는 Qwen 2.5 32B ~120+ 프로덕션 RAG, 다중 사용자
2×A100 / H100 Qwen 2.5 72B ~30-60 최상위 품질, 대규모 배칭

 

🔍 RAG 파이프라인 최적화 — 한국어 특수성

한국어 RAG 구축에서 가장 자주 놓치는 함정은 토크나이저 효율 차이입니다. BPE 기반 토크나이저(GPT-4, Llama 등)에서 한국어 텍스트는 동일 내용의 영어 대비 약 2.36배 더 많은 토큰을 소비합니다. 128K 컨텍스트라도 실질적으로는 약 54K 분량의 한국어 텍스트만 처리하는 셈입니다.

목적 추천 임베딩 모델 특이사항
범용 다국어 BGE-M3 (BAAI) Ollama 직접 실행 가능
최고 품질 Qwen3-Embedding-8B 2025년 오픈소스 임베딩 최상위
한국어 전용 jhgan/ko-sroberta-multitask 한국어 RAG hit rate 최고
💡 한국어 청킹 전략
  • 사실형 Q&A: 256 토큰 단위 분할
  • 서술형 문서: 512~1,024 토큰
  • 오버랩: 10~20%(50~100 토큰) 권장
  • BM25 구성 시 Nori(한국어 형태소 분석기) 활용 → 정확한 용어 매칭 보존

🤖 에이전트 & Function Calling 성능 비교

에이전트/Tool Use 관점에서 중요한 세 가지 요소는 FC 정확도, JSON 출력 안정성, 다단계 추론 능력입니다.

모델 FC 네이티브 JSON 안정성 한국어 품질 추천 용도
Qwen 2.5 32B ✅ (Qwen-Agent) 최상 중상 에이전트 최우선
EXAONE 4.0 32B ✅ (BFCL-v3) 최상 한국어 에이전트
Mistral Large 3 ✅ (네이티브) 다국어 에이전트
Gemma 3 27B ⚠️ (제한적) 중상 멀티모달 RAG
EXAONE 3.5 7.8B ⚠️ (구조화 출력) 최상 경량 한국어 RAG
8B 이하 소형 모델은 복잡한 Function Calling 프롬프트에서 자주 실패합니다. 에이전트 용도라면 14B 이상을 권장하며, Ollama의 구조화 출력 강제 디코딩(format: json)으로 JSON 신뢰성을 보완할 수 있습니다.

🏆 최종 추천 — 용도·환경별 선택 가이드

RAG & 문서 요약 TOP 3

🥇 EXAONE 4.0 32B — 128K 컨텍스트 + 한국어 RAG 벤치마크 최고 + 네이티브 FC
비상업적 A100 권장
🥈 Qwen 2.5 32B-Instruct — 128K + 안정적 JSON + 범용 다국어
Apache 2.0 RTX 4090 / A100
🥉 Gemma 3 27B-IT (QAT) — 128K + 멀티모달 + 효율적 양자화
Gemma ToS Mac M3 Pro 48GB

에이전트 & Tool Use TOP 3

🥇 Qwen 2.5/3 32B — 가장 성숙한 FC + Qwen-Agent 생태계 + Apache 2.0
🥈 EXAONE 4.0 32B — 한국어 최적 + BFCL-v3 검증 + 하이브리드 추론
🥉 Mistral Large 3 — 최초급 네이티브 FC + 한국어 토크나이저 효율 2배

크기별 최강 모델 요약

크기 구간 한국어 최강 차선(상업 가능)
7~8B EXAONE 3.5 7.8B Bllossom 8B
12~14B Qwen 2.5 14B Gemma 3 12B, Mistral Nemo 12B
27~32B EXAONE 3.5/4.0 32B Qwen 2.5 32B, Gemma 3 27B
70B+ Qwen 2.5 72B Llama 3.3 70B + Bllossom FT

🔭 2026년 주목할 최신 모델 (2026년 4월 기준 업데이트)

📢 중요 업데이트

이 섹션은 초고 작성 이후 출시된 두 개의 주요 모델을 반영하여 추가되었습니다. Gemma 4(2026.04.02)Qwen 3.5(2026.02.16)는 기존 분석에서 누락된 최신 모델로, 로컬 LLM 생태계의 판도를 크게 바꿀 수 있는 수준의 성능 향상을 보여줍니다.

Gemma 4 — Google의 판도를 바꾼 최신 오픈 모델 (2026.04.02)

Google DeepMind가 2026년 4월 2일 출시한 Gemma 4는 Gemini 3 연구를 기반으로 한 사실상의 세대 교체입니다. 전작 Gemma 3과 비교해 벤치마크 점수가 말 그대로 급격하게 뛰었고, 무엇보다 라이선스가 기존의 까다로운 Gemma 토스에서 Apache 2.0으로 전환되어 상업적 활용의 장벽이 사라졌습니다.

모델 파라미터 아키텍처 컨텍스트 VRAM (Q4) Ollama
Gemma 4 E2B 2.3B 유효 / 5.1B 총합 Dense + PLE 128K ~4GB gemma4:e2b
Gemma 4 E4B 4.5B 유효 / 8B 총합 Dense + PLE 128K ~6GB gemma4:e4b (기본)
Gemma 4 26B MoE 4B 활성 / 26B 총합 MoE 256K ~16GB gemma4:26b
Gemma 4 31B Dense 31B Dense 256K ~20GB gemma4:31b

Gemma 4의 성능 향상은 수치로 보면 더욱 충격적입니다. AIME 2026(수학 추론)에서 Gemma 3 27B가 20.8%를 기록했던 반면 Gemma 4 31B는 89.2%를 달성했습니다. 에이전트 Tool Use 벤치마크(τ2-bench)도 6.6%에서 86.4%로 1,200% 향상되었습니다. Arena AI 텍스트 리더보드에서 31B 모델이 Elo 1452로 오픈 모델 전체 3위, 26B MoE가 1441로 6위를 기록하며 자신보다 20배 큰 모델들을 압도합니다.

한국어 성능의 경우 140개 이상 언어를 학습했고 Gemma 3 대비 명확히 개선되었습니다. 다만 실제 테스트에서 Claude나 GPT-5 계열과는 여전히 체감 격차가 있다는 평가가 있으며, 8B급 모델에서 한국어 복잡한 맥락 처리 시 표면적인 답변에 그치는 경우가 관찰됩니다. 31B Dense 모델에서는 이러한 격차가 상당히 줄어듭니다.

Gemma 4는 네이티브 멀티모달(텍스트+이미지 전 모델, E2B/E4B는 오디오, 26B/31B는 비디오까지), 네이티브 Function Calling, Thinking 모드 지원을 모두 갖추었습니다. 특히 에이전트 Tool Use 성능이 전작 대비 압도적으로 향상되어, RAG + 에이전트 통합 파이프라인에서의 활용 가능성이 크게 높아졌습니다. Ollama에서 이미 2.4M+ 다운로드를 기록하며 빠르게 커뮤니티 표준이 되고 있습니다.

💡 Gemma 4 로컬 실행 메모리 요구사항
  • E4B (기본 권장): Q4_K_M 기준 ~6GB VRAM — 대부분의 개발자 노트북에서 실행 가능
  • 26B MoE: Q4 기준 ~16GB — RTX 4090(24GB) 또는 Mac M2 Pro 32GB 이상
  • 31B Dense: Q4 기준 ~20GB — RTX 4090 또는 Mac M3 Pro 48GB 이상
  • Mac Apple Silicon: Metal 백엔드 자동 지원, llama.cpp / Ollama 모두 즉시 실행 가능

Qwen 3.5 — Alibaba의 멀티모달 에이전트 플래그십 (2026.02.16)

Qwen 3.5는 2026년 2월 16일 플래그십 397B-A17B를 시작으로, 2월 25일 122B/35B/27B, 3월 2일 소형 시리즈(0.8B~9B)까지 순차 출시된 9개 크기의 완전한 패밀리입니다. Qwen3-Next 아키텍처(하이브리드 어텐션 + 희소 MoE + 멀티토큰 예측)를 기반으로, 201개 언어를 지원하고 비전·언어 멀티모달이 기본으로 통합되었습니다.

모델 크기 (활성/총합) 컨텍스트 특징
Qwen3.5-397B-A17B 17B 활성 / 397B 총합 256K 플래그십 — 프론티어급 성능
Qwen3.5-122B-A10B 10B 활성 / 122B 총합 256K 에이전트 벤치 BFCL-V4 72.2 (최고)
Qwen3.5-35B-A3B 3B 활성 / 35B 총합 256K RTX 4090(24GB) Q4로 실행 가능
Qwen3.5-27B 27B Dense 256K GPQA Diamond 85.8% (Gemma 4 31B 84.3% 상회)
Qwen3.5-9B 9B Dense 32K GPT-OSS-120B 여러 벤치 상회 — 역대급 소형 효율
Qwen3.5-4B 4B Dense 32K 멀티모달 에이전트 베이스 모델로 설계

한국어 성능 측면에서 Qwen 3.5는 Qwen 3 계열이 한국 K-AI 리더보드 1~4위를 석권한 기반 위에서 201개 언어 지원과 멀티모달 통합으로 한 단계 더 나아갔습니다. 지시 따르기(Instruction Following) 벤치마크인 IFBench에서 76.5점으로 GPT-5.2(75.4)를 상회하며, 한국어 복잡한 지시 처리에서도 강점을 보입니다. 소형 9B 모델이 GPT-OSS-120B(13배 큰 모델)보다 GPQA Diamond, HMMT, MMMU-Pro에서 우수한 성능을 보이는 것도 주목할 만합니다.

# Ollama로 Qwen 3.5 실행 (소형 시리즈)
ollama run qwen3.5:9b
ollama run qwen3.5:4b

# 중형 / 대형은 vLLM 권장
vllm serve Qwen/Qwen3.5-35B-A3B --tensor-parallel-size 2
Qwen 3.5 vs Gemma 4 — 실용 비교 요약
항목 Qwen 3.5 Gemma 4
한국어 품질 매우 강함 (K-AI 리더보드 상위) Gemma 3 대비 개선, 8B급에서 한계 존재
에이전트 FC 최강 (BFCL-V4 72.2) 대폭 개선 (τ2-bench 86.4%)
멀티모달 기본 통합 (비전+언어) 텍스트+이미지+오디오+비디오
라이선스 Apache 2.0 Apache 2.0
컨텍스트 256K (대형) / 32K (소형) 128K (E2B/E4B) / 256K (26B/31B)
Ollama 지원 qwen3.5:9b 등 gemma4:e4b 등 (2.4M+ 다운로드)
소형 모델 효율 9B가 GPT-OSS-120B 상회 E4B(8B)가 frontier 기능 전부 탑재
RAG 용도 Qwen3-Embedding-8B 연계 최적 멀티모달 문서 처리 우위

기타 2025~2026 주목 모델

  • EXAONE 4.0 (LG AI Research): 128K 컨텍스트 + 네이티브 Tool Use + 하이브리드 추론. 한국어 에이전트 용도 로컬 최적
  • Qwen 3 계열: 한국 K-AI 리더보드 1~4위 석권, 사고/비사고 모드 전환, 119개 언어
  • K-EXAONE: 236B MoE(23B 활성), 256K 컨텍스트 — 국내 최대 규모 오픈소스 한국어 모델
  • Kanana 2(카카오): MoE 아키텍처(30B-A3B), Tool Calling 성능 3배 향상. GGUF/Ollama 지원 미비
  • Qwen 3.5 Flash (API 전용): $0.10/M 입력 토큰 — GPT-5-mini 대비 4배 저렴, 대규모 배칭 파이프라인용

2026년 4월 기준 업데이트된 최종 추천 요약

크기 구간 한국어 최강 상업 허용 대안 업데이트
4~8B급 EXAONE 3.5 7.8B Gemma 4 E4B (Apache 2.0) Gemma 4 E4B 추가
12~14B급 Qwen 3.5 9B Gemma 4 E4B / Qwen 2.5 14B Qwen 3.5 9B 추가
27~32B급 EXAONE 3.5/4.0 32B Gemma 4 31B / Qwen 3.5 27B Gemma 4 31B 추가
MoE 효율형 Qwen 3.5 35B-A3B Gemma 4 26B MoE 신규 카테고리
70B+급 Qwen 2.5 72B Qwen 3.5 122B-A10B Qwen 3.5 추가
2026년 4월 핵심 선택 원칙 (업데이트)
  • 순수 한국어 품질 + RAG → EXAONE 3.5/4.0 (비상업) or Bllossom (상업)
  • 에이전트 + FC + 상업 라이선스 → Qwen 3.5 27B/35B (Gemma 4 31B와 대등)
  • 멀티모달 + 오디오/비디오 로컬 처리 → Gemma 4 26B/31B (Apache 2.0)
  • 소형 에지 디바이스 → Gemma 4 E4B (6GB, 네이티브 FC + 멀티모달)
  • 양자화는 Q5_K_M 이상 유지 / 한국어 토큰 ×2.36 컨텍스트 예산 반영 필수
본 글은 2026년 4월 기준 공개된 벤치마크 및 커뮤니티 자료를 종합한 분석입니다. Gemma 4(2026.04.02)와 Qwen 3.5(2026.02~03) 섹션은 출시 직후 업데이트 추가분입니다. 모델 성능은 프롬프트 설계, 양자화 수준, 하드웨어 환경에 따라 크게 달라질 수 있습니다. 상업적 활용 시 각 모델의 라이선스를 반드시 직접 확인하시기 바랍니다.
반응형

▲ TOP