新手入门：在旧显卡上跑通 Gemma 4 12B 模型

手把手教你安装 Ollama、下载 Gemma 4 12B 模型，并在旧显卡上成功运行，避免常见坑。

想体验最新的 AI 模型，但显卡太老？别担心，这篇教程会带你一步步在 8 年前的 GTX 1080 Ti 上跑通 Gemma 4 12B。你只需要跟着做，就能在本地和 AI 聊天了。

准备环境：安装 Ollama

Ollama 是一个让你在本地运行大模型的工具（简单说，就是帮你下载和启动 AI 的程序）。第一步，去 ollama.com 下载并安装它。安装完成后，打开终端（Windows 用户用命令提示符或 PowerShell，Mac 用户用终端），输入 ollama --version，能看到版本号就说明装好了。

下载并运行 Gemma 4 12B 模型

注意：Gemma 4 12B 自带一个图像识别模块（叫 vision projector，你可以理解为它想同时看图和文字），但旧版 Ollama（比如 0.30.2）加载它会崩溃。所以我们先去掉它，只保留文字功能。

拉取模型：在终端输入 ollama pull gemma4:12b，等待下载完成（文件约 7GB，需要一些时间）。
去掉图像模块：输入 ollama show gemma4:12b --modelfile > Modelfile，然后用文本编辑器打开生成的 Modelfile 文件，找到包含 FROM 的行，将其改为 FROM gemma4:12b 并删除所有包含 PROJECTOR 的行（如果不会，直接复制下面一行代替整个文件：FROM gemma4:12b）。
创建纯文字版模型：输入 ollama create gemma4-text -f Modelfile，等待几秒。

第一次运行：和 AI 对话

现在运行纯文字版模型：ollama run gemma4-text。如果一切顺利，你会看到提示符 >>>，输入任何问题，AI 就会回答。但注意：Gemma 4 默认会输出“思考过程”（reasoning channel，就是它心里想什么），可能导致你看不到最终答案。解决办法：在提问时加上 /set parameter num_predict 256 和 /set parameter think false，这样它就不会输出思考过程了。或者更简单，用 API 方式：写一个 Python 脚本调用 ollama 库，设置 "think": false。

验证是否成功：检查速度和质量

运行后，你会看到每秒生成的词数（tok/s）。在 GTX 1080 Ti 上，Q4 量化版本（一种压缩方式，让模型变小）大约 28 tok/s，速度足够日常聊天。但如果你发现回答中出现乱码（比如中文里混入日文或韩文字符），说明量化太狠了。这时候可以换成 Q8 量化版本（更精确，但文件更大，约 12.7GB），速度降到 19.5 tok/s，但文字更干净。Q8 版本需要两张显卡才能运行（如果你的电脑只有一张卡，可以试试，但可能爆显存）。

下一步可以做什么

现在你已经能本地运行 AI 了！可以尝试：

用 Python 调用 Ollama 的 API，写一个自己的聊天机器人。
调整 num_predict 参数控制回答长度。
尝试其他模型，比如 llama3 或 mistral，步骤类似。

记住：Q4 适合快速聊天，Q8 适合需要准确答案的场景。遇到问题，多查 Ollama 官方文档。

内容来源

DEV Ollama

发布时间

2026-06-06 01:32