零基础完整教程:在 Linux 服务器或本地 Mac 上部署 Ollama 运行大模型,搭配 Open WebUI 提供 ChatGPT 级别的对话体验。
想在自己的机器上跑 Qwen、Llama、DeepSeek?这篇教程从零开始,带你完成完整部署,最后有一个和 ChatGPT 一样好看的界面。
Ollama 是一个让本地运行大模型变得简单的工具,类似 Docker 管理容器,Ollama 管理模型。一行命令下载并运行模型,自动处理模型格式、GPU 加速等复杂问题。
Open WebUI 是 Ollama 的最佳搭档,提供一个漂亮的 Web 界面,支持多模型切换、历史记录、知识库等功能。
| 模型规模 | 最低内存 | 推荐配置 | 说明 |
|---|---|---|---|
| 3B(如 Qwen2.5-3B) | 4GB RAM | 8GB RAM | 轻量任务 |
| 7B(如 Qwen2.5-7B) | 8GB RAM | 16GB RAM | 日常使用 |
| 14B(如 Qwen2.5-14B) | 16GB RAM | 32GB RAM | 高质量输出 |
| 70B(如 Llama-3-70B) | 64GB RAM | 128GB RAM + GPU | 接近 GPT-4 水平 |
有 NVIDIA GPU 的机器性能会大幅提升(速度提升 10-50 倍)。
# 官方一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
下载 官方安装包 直接安装。
# Ollama 已自动注册为 systemd 服务
sudo systemctl enable ollama
sudo systemctl start ollama
sudo systemctl status ollama
# 下载并立即运行(国内推荐 Qwen 系列)
ollama run qwen2.5:7b
# 其他推荐模型
ollama run deepseek-r1:7b # 推理能力强
ollama run llama3.2:3b # 轻量快速
ollama run nomic-embed-text # 文本向量化(知识库用)
# 只下载不运行
ollama pull qwen2.5:14b
# 查看已下载的模型
ollama list
下载速度取决于网络,7B 模型约 4-5GB,国内服务器建议挂代理或使用镜像。
# 如果 Ollama 在同一台机器上
docker run -d \
--name open-webui \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--restart always \
ghcr.io/open-webui/open-webui:main
# 如果使用 NVIDIA GPU
docker run -d \
--name open-webui \
--gpus all \
-p 3000:8080 \
-v ollama:/root/.ollama \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:ollama
# docker-compose.yml
version: '3'
services:
ollama:
image: ollama/ollama
restart: unless-stopped
volumes:
- ollama_data:/root/.ollama
ports:
- "11434:11434"
open-webui:
image: ghcr.io/open-webui/open-webui:main
restart: unless-stopped
depends_on:
- ollama
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- webui_data:/app/backend/data
volumes:
ollama_data:
webui_data:
docker compose up -d
# 访问 http://localhost:3000
首次访问 http://your-server:3000:
设置 → 连接,确认 Ollama API 地址正确设置 → 模型 → 选择默认模型
设置 → 界面 → 开启「保存聊天记录」
设置 → 高级 → 上下文长度:4096(根据模型支持调整)
如果需要从外网访问:
# Nginx 配置
server {
listen 443 ssl;
server_name ai.your-domain.com;
location / {
proxy_pass http://127.0.0.1:3000;
proxy_http_version 1.1;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection "upgrade";
proxy_set_header Host $host;
proxy_read_timeout 300s;
}
}
安全提醒:开放外网访问时必须启用 Open WebUI 的账号注册控制,防止被未授权使用。
# 测试 Ollama API
curl http://localhost:11434/api/generate \
-d '{"model":"qwen2.5:7b","prompt":"你好,介绍一下你自己","stream":false}'
# 预期:返回包含 response 字段的 JSON
在 Open WebUI 中选择模型发送一条消息,如果收到回复则部署成功。
Ollama + Open WebUI 是目前最简单的本地大模型方案,从安装到用起来通常不超过 1 小时。主要挑战是硬件配置——如果你的服务器内存不足,可以在 LocalClaw(insman.cn) 找服务商,他们通常有合适的 GPU 服务器资源可以提供。
手把手教你在云服务器上完整部署 OpenClaw AI Agent 框架,包含环境配置、服务编排、监控接入全流程。
完整的 ComfyUI 服务端部署教程,涵盖 Linux 安装、GPU 配置、API 服务暴露、常用工作流配置,适合个人和团队使用。
分析 Ollama 本地大模型在医疗、法律、金融、政务、制造业五类数据敏感行业中的实际应用场景和部署方案。
总结 Ollama 新手最常见的 9 个错误,从硬件评估失误到模型选错,每个错误附具体现象和解决方法。