零基础也能跑通:用两台旧显卡让 35B 大模型动起来
学会下载 Ollama、安装驱动、选择量化版本,用两台旧 GTX 1080 Ti 跑通 Qwen3.6-35B-A3B 模型。
准备环境:你需要什么
在开始之前,先确认你的电脑有:
- 一台能上网的电脑,操作系统是 Windows 或 Linux(本文以 Windows 为例)。
- 至少一张 NVIDIA 显卡(比如 GTX 1080 Ti),显存加起来最好有 22 GB 以上。如果你只有一张卡,也可以跑,只是速度慢一点。
- 一个 i9-14900K 或类似性能的 CPU(其实普通中高端 CPU 也行,但速度会受影响)。
另外,你需要安装:
- NVIDIA 显卡驱动:版本至少 570 以上。去 NVIDIA 官网下载最新驱动。如果驱动太老,Ollama 会偷偷用 CPU 跑,你完全不知道!
- Ollama:一个超好用的 AI 模型运行工具。去 ollama.com 下载安装包,一路“下一步”装好即可。
安装步骤:从零到跑通
- 更新显卡驱动:打开设备管理器,找到显卡,右键更新驱动。或者直接去 NVIDIA 官网下载最新驱动并安装。
- 安装 Ollama:下载后双击安装,完成后在命令行输入
ollama --version,看到版本号就说明装好了。 - 拉取模型:打开终端(CMD 或 PowerShell),输入以下命令:
ollama pull qwen3.6:35b-a3b-iq4-xs
注意:不要用默认的qwen3.6:35b-a3b,那个文件太大(23.9 GB),你的显存放不下。我们选 IQ4_XS 量化版(约 17.7 GB),刚好能塞进两张 1080 Ti 的显存里。 - 运行模型:输入
ollama run qwen3.6:35b-a3b-iq4-xs,等待几秒,出现>>>提示符就成功了!你可以输入“你好”试试。
验证是否成功:看速度
运行后,你可以问模型一个问题,比如“什么是人工智能?”。如果回复流畅,说明一切正常。想测速度的话,可以用 Ollama 的 API:
- 打开另一个终端,输入
ollama serve启动服务。 - 用浏览器访问
http://localhost:11434/api/generate,或者用 curl 命令:curl -X POST http://localhost:11434/api/generate -d '{"model":"qwen3.6:35b-a3b-iq4-xs","prompt":"你好","stream":false}' - 返回结果里会有
"eval_count"和"eval_duration",用eval_count / (eval_duration / 1e9)算出每秒生成的字数(tok/s)。两台 1080 Ti 大概能到 20 tok/s 左右,比 CPU 快 20%。
下一步可以做什么
- 试试其他模型:Ollama 支持很多模型,比如
llama3.2、deepseek-r1。用ollama pull 模型名下载即可。 - 调整量化版本:如果显存不够,可以选更小的量化版本(比如 Q3_K_M),但效果会差一点。
- 用两张显卡:如果你有两张卡,Ollama 会自动使用它们。想强制只用一张?启动前输入
set CUDA_VISIBLE_DEVICES=0(Windows)或export CUDA_VISIBLE_DEVICES=0(Linux),再ollama serve。
现在,你已经成功跑通了一个 35B 的大模型!虽然它只有 3B 参数被激活(这就是 MoE 混合专家模型的特点:总参数大,但每次只激活一小部分),但足够你体验 AI 的魅力了。
内容来源
DEV Ollama
发布时间
2026-06-04 01:31