零基础也能跑通：用两台旧显卡让 35B 大模型动起来

学会下载 Ollama、安装驱动、选择量化版本，用两台旧 GTX 1080 Ti 跑通 Qwen3.6-35B-A3B 模型。

准备环境：你需要什么

在开始之前，先确认你的电脑有：

另外，你需要安装：

更新显卡驱动：打开设备管理器，找到显卡，右键更新驱动。或者直接去 NVIDIA 官网下载最新驱动并安装。
安装 Ollama：下载后双击安装，完成后在命令行输入 ollama --version，看到版本号就说明装好了。
拉取模型：打开终端（CMD 或 PowerShell），输入以下命令：
ollama pull qwen3.6:35b-a3b-iq4-xs
注意：不要用默认的 qwen3.6:35b-a3b，那个文件太大（23.9 GB），你的显存放不下。我们选 IQ4_XS 量化版（约 17.7 GB），刚好能塞进两张 1080 Ti 的显存里。
运行模型：输入 ollama run qwen3.6:35b-a3b-iq4-xs，等待几秒，出现 >>> 提示符就成功了！你可以输入“你好”试试。

运行后，你可以问模型一个问题，比如“什么是人工智能？”。如果回复流畅，说明一切正常。想测速度的话，可以用 Ollama 的 API：

打开另一个终端，输入 ollama serve 启动服务。
用浏览器访问 http://localhost:11434/api/generate，或者用 curl 命令：
curl -X POST http://localhost:11434/api/generate -d '{"model":"qwen3.6:35b-a3b-iq4-xs","prompt":"你好","stream":false}'
返回结果里会有 "eval_count" 和 "eval_duration"，用 eval_count / (eval_duration / 1e9) 算出每秒生成的字数（tok/s）。两台 1080 Ti 大概能到 20 tok/s 左右，比 CPU 快 20%。

试试其他模型：Ollama 支持很多模型，比如 llama3.2、deepseek-r1。用 ollama pull 模型名 下载即可。
调整量化版本：如果显存不够，可以选更小的量化版本（比如 Q3_K_M），但效果会差一点。
用两张显卡：如果你有两张卡，Ollama 会自动使用它们。想强制只用一张？启动前输入 set CUDA_VISIBLE_DEVICES=0（Windows）或 export CUDA_VISIBLE_DEVICES=0（Linux），再 ollama serve。

现在，你已经成功跑通了一个 35B 的大模型！虽然它只有 3B 参数被激活（这就是 MoE 混合专家模型的特点：总参数大，但每次只激活一小部分），但足够你体验 AI 的魅力了。

内容来源

DEV Ollama

发布时间

2026-06-04 01:31