极客前沿

零基础也能跑通:用两台旧显卡让 35B 大模型动起来

2026-06-04 01:31
DEV Ollama
查看原文

学会下载 Ollama、安装驱动、选择量化版本,用两台旧 GTX 1080 Ti 跑通 Qwen3.6-35B-A3B 模型。

准备环境:你需要什么

在开始之前,先确认你的电脑有:

  • 一台能上网的电脑,操作系统是 WindowsLinux(本文以 Windows 为例)。
  • 至少一张 NVIDIA 显卡(比如 GTX 1080 Ti),显存加起来最好有 22 GB 以上。如果你只有一张卡,也可以跑,只是速度慢一点。
  • 一个 i9-14900K 或类似性能的 CPU(其实普通中高端 CPU 也行,但速度会受影响)。

另外,你需要安装:

Tutorial Image
  1. NVIDIA 显卡驱动:版本至少 570 以上。去 NVIDIA 官网下载最新驱动。如果驱动太老,Ollama 会偷偷用 CPU 跑,你完全不知道!
  2. Ollama:一个超好用的 AI 模型运行工具。去 ollama.com 下载安装包,一路“下一步”装好即可。

安装步骤:从零到跑通

  1. 更新显卡驱动:打开设备管理器,找到显卡,右键更新驱动。或者直接去 NVIDIA 官网下载最新驱动并安装。
  2. 安装 Ollama:下载后双击安装,完成后在命令行输入 ollama --version,看到版本号就说明装好了。
  3. 拉取模型:打开终端(CMD 或 PowerShell),输入以下命令:
    ollama pull qwen3.6:35b-a3b-iq4-xs
    注意:不要用默认的 qwen3.6:35b-a3b,那个文件太大(23.9 GB),你的显存放不下。我们选 IQ4_XS 量化版(约 17.7 GB),刚好能塞进两张 1080 Ti 的显存里。
  4. 运行模型:输入 ollama run qwen3.6:35b-a3b-iq4-xs,等待几秒,出现 >>> 提示符就成功了!你可以输入“你好”试试。

验证是否成功:看速度

运行后,你可以问模型一个问题,比如“什么是人工智能?”。如果回复流畅,说明一切正常。想测速度的话,可以用 Ollama 的 API:

  1. 打开另一个终端,输入 ollama serve 启动服务。
  2. 用浏览器访问 http://localhost:11434/api/generate,或者用 curl 命令:
    curl -X POST http://localhost:11434/api/generate -d '{"model":"qwen3.6:35b-a3b-iq4-xs","prompt":"你好","stream":false}'
  3. 返回结果里会有 "eval_count""eval_duration",用 eval_count / (eval_duration / 1e9) 算出每秒生成的字数(tok/s)。两台 1080 Ti 大概能到 20 tok/s 左右,比 CPU 快 20%。

下一步可以做什么

  • 试试其他模型:Ollama 支持很多模型,比如 llama3.2deepseek-r1。用 ollama pull 模型名 下载即可。
  • 调整量化版本:如果显存不够,可以选更小的量化版本(比如 Q3_K_M),但效果会差一点。
  • 用两张显卡:如果你有两张卡,Ollama 会自动使用它们。想强制只用一张?启动前输入 set CUDA_VISIBLE_DEVICES=0(Windows)或 export CUDA_VISIBLE_DEVICES=0(Linux),再 ollama serve

现在,你已经成功跑通了一个 35B 的大模型!虽然它只有 3B 参数被激活(这就是 MoE 混合专家模型的特点:总参数大,但每次只激活一小部分),但足够你体验 AI 的魅力了。

内容来源

DEV Ollama

发布时间

2026-06-04 01:31

返回 AI技术