新手入门:在旧显卡上跑通 Gemma 4 12B 模型
手把手教你安装 Ollama、下载 Gemma 4 12B 模型,并在旧显卡上成功运行,避免常见坑。
想体验最新的 AI 模型,但显卡太老?别担心,这篇教程会带你一步步在 8 年前的 GTX 1080 Ti 上跑通 Gemma 4 12B。你只需要跟着做,就能在本地和 AI 聊天了。
准备环境:安装 Ollama
Ollama 是一个让你在本地运行大模型的工具(简单说,就是帮你下载和启动 AI 的程序)。第一步,去 ollama.com 下载并安装它。安装完成后,打开终端(Windows 用户用命令提示符或 PowerShell,Mac 用户用终端),输入 ollama --version,能看到版本号就说明装好了。
下载并运行 Gemma 4 12B 模型
注意:Gemma 4 12B 自带一个图像识别模块(叫 vision projector,你可以理解为它想同时看图和文字),但旧版 Ollama(比如 0.30.2)加载它会崩溃。所以我们先去掉它,只保留文字功能。
- 拉取模型:在终端输入
ollama pull gemma4:12b,等待下载完成(文件约 7GB,需要一些时间)。 - 去掉图像模块:输入
ollama show gemma4:12b --modelfile > Modelfile,然后用文本编辑器打开生成的Modelfile文件,找到包含FROM的行,将其改为FROM gemma4:12b并删除所有包含PROJECTOR的行(如果不会,直接复制下面一行代替整个文件:FROM gemma4:12b)。 - 创建纯文字版模型:输入
ollama create gemma4-text -f Modelfile,等待几秒。
第一次运行:和 AI 对话
现在运行纯文字版模型:ollama run gemma4-text。如果一切顺利,你会看到提示符 >>>,输入任何问题,AI 就会回答。但注意:Gemma 4 默认会输出“思考过程”(reasoning channel,就是它心里想什么),可能导致你看不到最终答案。解决办法:在提问时加上 /set parameter num_predict 256 和 /set parameter think false,这样它就不会输出思考过程了。或者更简单,用 API 方式:写一个 Python 脚本调用 ollama 库,设置 "think": false。
验证是否成功:检查速度和质量
运行后,你会看到每秒生成的词数(tok/s)。在 GTX 1080 Ti 上,Q4 量化版本(一种压缩方式,让模型变小)大约 28 tok/s,速度足够日常聊天。但如果你发现回答中出现乱码(比如中文里混入日文或韩文字符),说明量化太狠了。这时候可以换成 Q8 量化版本(更精确,但文件更大,约 12.7GB),速度降到 19.5 tok/s,但文字更干净。Q8 版本需要两张显卡才能运行(如果你的电脑只有一张卡,可以试试,但可能爆显存)。
下一步可以做什么
现在你已经能本地运行 AI 了!可以尝试:
- 用 Python 调用 Ollama 的 API,写一个自己的聊天机器人。
- 调整
num_predict参数控制回答长度。 - 尝试其他模型,比如
llama3或mistral,步骤类似。
记住:Q4 适合快速聊天,Q8 适合需要准确答案的场景。遇到问题,多查 Ollama 官方文档。
内容来源
DEV Ollama
发布时间
2026-06-06 01:32