Ollama + Open WebUI 설치 가이드 — 내 PC에서 무료 AI 챗봇 돌리기

왜 로컬 AI인가 — ChatGPT 대신 내 PC에서 돌리는 이유

ChatGPT, Claude 같은 클라우드 AI 서비스는 편리하지만, 대화 내용이 외부 서버로 전송됩니다. 회사 내부 문서를 분석하거나, 개인 일기를 AI와 나누거나, 민감한 코드를 리뷰받고 싶을 때 데이터가 내 컴퓨터 밖으로 나가지 않는 로컬 AI가 필요합니다.

Ollama는 로컬에서 LLM을 실행하는 엔진이고, Open WebUI는 ChatGPT처럼 브라우저에서 대화할 수 있는 인터페이스입니다. 이 둘을 조합하면 완전 무료, 완전 오프라인, 내 PC에서만 동작하는 AI 챗봇이 만들어집니다. 설치부터 실제 대화까지 15분이면 됩니다.

필요한 PC 사양

로컬 AI는 모델 크기에 따라 필요한 사양이 다릅니다. 실용적으로 사용 가능한 최소 사양은 다음과 같습니다.

최소 사양 (7B 모델 기준): RAM 8GB, 저장 공간 10GB 이상 여유. CPU만으로도 가능하지만 응답이 느립니다 (토큰당 약 1~3초).

권장 사양 (13B~70B 모델): RAM 16GB 이상, NVIDIA GPU VRAM 8GB 이상 (RTX 3060 이상), 또는 Apple Silicon Mac (M1 이상, 통합 메모리 16GB). GPU가 있으면 응답 속도가 5~10배 빨라집니다.

실천 팁: 처음에는 7B 모델(약 4GB)부터 시작하세요. 본인 PC에서 속도가 괜찮다면 13B, 그 다음 70B로 올려가면 됩니다. M1 Mac 16GB면 13B 모델이 매우 쾌적합니다.

Ollama 설치 — OS별 1분 설치

macOS:

# Homebrew로 설치 (가장 간단)
brew install ollama

# 또는 공식 사이트에서 dmg 다운로드
# https://ollama.com/download

Windows:

# 공식 사이트에서 설치 파일 다운로드
# https://ollama.com/download
# OllamaSetup.exe 실행 → 설치 완료

Linux:

# 공식 설치 스크립트 (한 줄)
curl -fsSL https://ollama.com/install.sh | sh

설치 확인:

ollama --version
# 출력 예: ollama version 0.6.2

버전 번호가 나오면 설치 완료입니다.

AI 모델 다운로드 — ollama pull

Ollama가 설치되었으니 실제 AI 모델을 다운로드합니다. ollama pull 명령어 하나로 끝납니다.

추천 모델 (2026년 3월 기준):

# 입문용 — 가볍고 빠름 (4.7GB)
ollama pull llama3.2

# 한국어 특화 — 한국어 성능 우수 (4.9GB)
ollama pull gemma3:12b

# 코딩 특화 — 코드 생성/리뷰 (4.7GB)
ollama pull qwen2.5-coder:7b

# 고성능 — GPU VRAM 48GB 이상 필요 (40GB)
ollama pull llama3.3:70b

다운로드 진행 확인:

pulling manifest
pulling abc123def456... 100% ▕████████████████▏ 4.7 GB
verifying sha256 digest
writing manifest
success

설치된 모델 목록 확인:

ollama list

# 출력 예:
NAME               SIZE      MODIFIED
llama3.2:latest    4.7 GB    2 minutes ago
gemma3:12b         4.9 GB    5 minutes ago

터미널에서 바로 대화 테스트:

ollama run llama3.2

# 프롬프트가 나옴
>>> 서울에서 부산까지 KTX로 얼마나 걸려?
서울에서 부산까지 KTX로 약 2시간 30분 정도 소요됩니다...

# 종료: /bye 입력

여기까지만 해도 터미널에서 AI 대화가 가능합니다. 하지만 웹 UI를 붙이면 훨씬 편합니다.

Open WebUI 설치 — Docker 한 줄이면 끝

Open WebUI(GitHub Star 70,000+)는 ChatGPT와 거의 동일한 UI를 제공하는 오픈소스 프로젝트입니다. Docker가 가장 간단한 설치 방법입니다.

Docker가 없다면 먼저 설치:

# macOS
brew install --cask docker
# → Docker Desktop 앱 실행

# Windows
# https://www.docker.com/products/docker-desktop 에서 다운로드

# Linux (Ubuntu)
sudo apt update && sudo apt install -y docker.io
sudo systemctl start docker

Open WebUI 실행 (Docker 한 줄):

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

각 옵션의 의미:

-p 3000:8080          → 내 PC의 3000번 포트로 접속
--add-host=...        → Docker 컨테이너에서 호스트의 Ollama에 접근
-v open-webui:...     → 대화 기록을 영구 저장 (컨테이너 삭제해도 유지)
--restart always      → PC 재시작 시 자동 실행

Mac에서 Ollama가 Docker 외부에서 실행 중이면: 위 명령어 그대로 사용하면 됩니다. Open WebUI가 자동으로 host.docker.internal:11434에서 Ollama를 찾습니다.

첫 접속과 초기 설정

Docker 실행 후 브라우저에서 접속합니다.

http://localhost:3000

1단계: 계정 생성

처음 접속하면 회원가입 화면이 나옵니다. 이 계정은 로컬 전용이므로 이메일·비밀번호는 아무거나 입력해도 됩니다. 첫 번째로 가입한 계정이 자동으로 관리자(Admin)가 됩니다.

2단계: 모델 선택

로그인 후 상단 드롭다운에서 ollama pull로 다운로드한 모델이 보입니다. llama3.2를 선택하면 바로 대화를 시작할 수 있습니다.

3단계: 대화 시작

입력창에 메시지를 입력하면 ChatGPT와 동일한 경험으로 AI와 대화할 수 있습니다. 마크다운 렌더링, 코드 하이라이팅, 대화 이력 저장이 모두 지원됩니다.

실전 활용 — 이런 것들이 가능하다

회사 문서 분석 (RAG): Open WebUI의 왼쪽 사이드바에서 Documents 탭을 열고 PDF, TXT 파일을 업로드하면, AI가 해당 문서를 기반으로 답변합니다. 회사 내규, 제품 매뉴얼, 논문 등을 올려놓고 질문하면 됩니다. 데이터가 외부로 전송되지 않으므로 사내 문서도 안전합니다.

여러 모델 비교: 대화창에서 모델을 2개 선택하면 같은 질문에 대한 두 모델의 답변을 나란히 비교할 수 있습니다. llama3.2 vs gemma3를 비교해서 어떤 모델이 본인 용도에 맞는지 테스트할 때 유용합니다.

커스텀 시스템 프롬프트: 설정 → Models에서 모델별 시스템 프롬프트를 지정할 수 있습니다. "당신은 Python 전문 개발자입니다. 한국어로 답변하세요."처럼 역할을 미리 지정해두면 매번 입력할 필요가 없습니다.

트러블슈팅 — 자주 발생하는 오류

오류 1: Open WebUI에서 "Ollama not found" 또는 모델이 안 보임

Ollama가 실행 중인지 확인합니다.

# Ollama 상태 확인
curl http://localhost:11434/api/version
# 정상이면 {"version":"0.6.2"} 같은 응답

# Ollama가 안 떠있으면 실행
ollama serve

macOS에서 Ollama를 앱으로 설치했다면 메뉴바에 Ollama 아이콘이 있어야 합니다. 아이콘이 없으면 Ollama 앱을 실행하세요.

오류 2: Docker 실행 시 "port 3000 already in use"

# 3000번 포트가 사용 중이면 다른 포트로 변경
docker run -d -p 8888:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

# 접속: http://localhost:8888

오류 3: 응답이 매우 느림 (토큰당 5초 이상)

GPU가 활용되지 않고 CPU로만 동작하는 경우입니다. NVIDIA GPU가 있다면 아래를 확인하세요.

# NVIDIA 드라이버 확인
nvidia-smi

# Ollama가 GPU를 인식하는지 확인
ollama run llama3.2 --verbose
# 출력에 "gpu" 관련 줄이 있으면 GPU 사용 중

GPU가 없으면 7B 이하의 작은 모델을 사용하거나, ollama pull llama3.2:1b처럼 더 가벼운 양자화 모델을 사용하세요.

오류 4: "not enough memory" 에러

모델이 PC의 RAM/VRAM보다 큰 경우입니다. 더 작은 모델로 변경하세요.

# 현재 모델 크기 확인
ollama list

# 가벼운 모델로 교체
ollama pull phi3:mini    # 약 2.3GB
ollama pull tinyllama    # 약 637MB

업데이트와 관리

Ollama 업데이트:

# macOS (Homebrew)
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

모델 업데이트:

# 최신 버전으로 갱신
ollama pull llama3.2

# 안 쓰는 모델 삭제 (공간 확보)
ollama rm tinyllama

Open WebUI 업데이트:

# 최신 이미지 pull + 컨테이너 재생성
docker pull ghcr.io/open-webui/open-webui:main
docker stop open-webui && docker rm open-webui
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

-v open-webui:/app/backend/data로 데이터를 볼륨에 저장했기 때문에, 컨테이너를 삭제하고 다시 만들어도 대화 기록과 설정은 유지됩니다.

이 글에 소개된 서비스와 도구는 작성 시점 기준이며, 업데이트에 따라 변경될 수 있습니다.

'AI 개발 활용' 카테고리의 다른 글

Claude Desktop에 Playwright MCP 서버 연결해서 웹 자동화하기 (0)	2026.03.24
n8n 설치부터 AI 워크플로우 만들기 — 노코드 자동화 실전 가이드 (0)	2026.03.24
Claude Code에서 GitHub MCP 서버 연결하는 법 — PR 리뷰부터 이슈 관리까지 자동화 (0)	2026.03.23
Claude Code 시작하기 — 터미널에서 AI와 코딩하는 법 (설치부터 실전까지) (0)	2026.03.22
MCP 서버로 나만의 AI 에이전트 구축하기 - 실전 가이드 2026 (1)	2026.03.21