Ollama 避坑指南：本地大模型新手最常犯的 9 个错误

本地大模型的门槛比云端 API 高很多，硬件、软件、模型选择每个环节都可能出错。这篇文章帮你绕过最常见的坑。

坑 1：低估内存需求，直接拉 70B 模型

现象：下载了 Llama-3-70B，运行后系统卡死，或者报 out of memory 错误。

原因：70B 模型需要约 40GB 内存（Q4 量化），普通电脑根本跑不动。

正确做法：按内存选模型

8GB 内存   → 最大用 7B 模型（Q4量化）
16GB 内存  → 最大用 13B 模型
32GB 内存  → 最大用 30B 模型
64GB+ 内存 → 可以尝试 70B

建议：先从 7B 开始，验证质量满足需求后再考虑更大的模型。

坑 2：不了解量化的影响，随便选版本

现象：同一个模型有 q4_0、q4_K_M、q5_K_M、q8_0 等多个版本，不知道选哪个。

量化速查表：

量化级别	内存占用	质量损失	推荐场景
q4_0	最小	较大	内存极度有限
q4_K_M	小	轻微	日常推荐
q5_K_M	中	极小	质量优先
q8_0	大	几乎无	有充足内存

# 推荐：q4_K_M（平衡内存和质量）
ollama pull qwen2.5:7b-instruct-q4_K_M

坑 3：让 Ollama 监听 0.0.0.0 但没做任何认证

现象：为了让同事访问，修改了 OLLAMA_HOST=0.0.0.0，结果被扫描器发现，GPU 算力被滥用。

原因：Ollama 本身没有认证机制，监听 0.0.0.0 就等于完全开放。

正确做法：

# 方式一：只监听内网 IP（不对外网开放）
OLLAMA_HOST=192.168.1.100:11434 ollama serve

# 方式二：通过 Nginx 反代 + Basic Auth
# nginx.conf
location /ollama/ {
    auth_basic "Restricted";
    auth_basic_user_file /etc/nginx/.htpasswd;
    proxy_pass http://127.0.0.1:11434/;
}

# 方式三：使用 Open WebUI 作为前端（有用户认证系统）

坑 4：每次对话都重新加载模型

现象：每条消息响应前都有 5-10 秒等待，模型没有保持在内存中。

原因：Ollama 默认 5 分钟无请求后卸载模型。

# 保持模型常驻内存
OLLAMA_KEEP_ALIVE=24h ollama serve

# 或者在每次请求时指定 keep_alive
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "你好",
  "keep_alive": "1h"
}'

坑 5：在对话界面切换模型后丢失上下文

现象：在 Open WebUI 中换了一个模型继续对话，AI 完全不记得之前的内容。

原因：不同模型的对话历史是隔离的，切换模型就是开始新对话。

最佳实践：对于需要上下文连续的工作，始终使用同一个模型，不要在对话中途切换。

坑 6：忽略系统 Prompt 的重要性

现象：模型回答质量参差不齐，有时跑题，有时格式混乱。

解决方案：创建自定义 Modelfile，设置针对性的系统提示词：

# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM qwen2.5:7b

SYSTEM """
你是一个专业的中文写作助手。
回答要求：
1. 使用规范的中文表达
2. 结构清晰，使用标题和列表
3. 回答要具体可执行，避免空话
4. 不确定的内容明确说明
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF

# 创建自定义模型
ollama create writing-assistant -f Modelfile

# 使用
ollama run writing-assistant

坑 7：把 Ollama 当成高并发 API 使用

现象：多个应用同时调用 Ollama，响应时间急剧增加，甚至超时。

原因：Ollama 默认是串行处理请求的（一次只跑一个请求），不适合高并发场景。

# 查看当前支持的并发数
# Ollama 的并行能力受 GPU 显存限制
# 通常建议不超过 CPU 核数 / 2

# 设置并行推理数量
OLLAMA_NUM_PARALLEL=2 ollama serve

实际建议：Ollama 适合 5 并发以下，高并发场景考虑 vLLM 或商用 API。

坑 8：错误评估模型质量

现象：试了几个问题感觉质量不错，部署给团队后收到大量投诉。

原因：模型在不同任务上质量差异很大，需要针对实际任务评估。

正确评估方法：

收集 20-50 个真实业务问题
同时用不同模型回答
让 3-5 人盲评打分
选分数最高的模型

不要只测"讲个笑话"这类简单问题。

坑 9：不设置磁盘空间告警

现象：模型越下越多，某天磁盘满了，Ollama 崩溃。

# 查看模型占用空间
ollama list
# 每个 7B 模型约 4-5GB，14B 约 8-9GB

# 删除不用的模型
ollama rm model-name

# 设置磁盘告警（加入 crontab）
# 当 ~/.ollama 目录超过 50GB 时告警
du -sh ~/.ollama | awk '{if ($1+0 > 50) print "Ollama 存储超过 50GB：" $1}'

总结

Ollama 的坑大多集中在硬件规划和安全配置上。在开始之前，先明确你的内存/显存，选合适的模型，做好网络隔离，后续使用会顺畅很多。

如果你需要在生产服务器上部署 Ollama 并提供给团队使用，LocalClaw（insman.cn）上的专业服务商可以帮你完成包含安全加固的完整部署。

Ollama 避坑指南：本地大模型新手最常犯的 9 个错误