AI 入门：用旧显卡搭一个本地知识库，一步步跑通

教你用闲置显卡搭建本地 AI 知识库，从环境安装到首次问答，零基础也能跟着做。

准备工作：你需要什么

这篇文章要带你搭建一个完全在本地的 AI 问答系统——把你的 PDF 论文或文档交给它，然后像聊天一样提问，它会在你的电脑里找答案，不联网、不上传文件。

一台有 NVIDIA 显卡（英伟达出的独立显卡，负责加速 AI 计算）的电脑，比如 GTX 1080 Ti 或 RTX 3090。没有显卡也能跑，只是慢一些。
安装 Ollama：一个让你在本地运行 AI 模型的免费工具。去 ollama.com 下载并安装。
安装 Python（一种编程语言，用来运行脚本）。去 python.org 下载 3.10 或更新版本，安装时记得勾选“Add Python to PATH”。

第一步：安装并下载模型

打开终端（Windows 上叫“命令提示符”或 PowerShell，Mac/Linux 叫“终端”）。
输入 ollama pull bge-m3 并按回车。这会下载一个 嵌入模型（能把文字变成数字，方便电脑理解）。它很小，只有 1GB 左右。
再输入 ollama pull qwen3:27b 下载一个 大语言模型（用来生成回答）。如果你显卡显存（显卡内存）不够 24GB，可以换成 qwen3:8b 或 llama3.2:3b。

第二步：设置环境变量（重要）

为了让嵌入模型在 CPU（中央处理器，电脑的“大脑”）上运行，避免显卡冲突，需要设置一个环境变量：

Windows：在终端输入 set OLLAMA_KEEP_ALIVE=0 和 set OLLAMA_NUM_PARALLEL=1。
Mac/Linux：输入 export OLLAMA_KEEP_ALIVE=0 和 export OLLAMA_NUM_PARALLEL=1。
然后重启 Ollama（在终端输入 ollama serve 启动它）。

第三步：运行一个简单的问答脚本

创建一个新文件，比如叫 test_rag.py，用记事本打开，粘贴以下代码：

import requests, json

def ask(question):
    url = "http://localhost:11434/api/generate"
    payload = {"model": "qwen3:27b", "prompt": question, "stream": False}
    response = requests.post(url, json=payload)
    return response.json()["response"]

print(ask("什么是 RAG？"))

然后在终端运行 python test_rag.py。如果看到一段中文回答，就说明成功了！

常见坑提醒

显卡内存不够：如果模型太大，会用到系统内存，速度变慢。用 ollama ps 查看模型是否全部在显卡上。如果显示“offloaded to CPU”，就换一个小模型。
上下文长度：大模型默认支持很长的对话历史，但会占用大量显存。在 Ollama 中设置 num_ctx 为 4096 或 8192 就够了，例如 ollama run qwen3:27b --num-ctx 4096。
多显卡不一定要一起用：如果你有两张旧显卡，分开用（一张跑嵌入，一张跑问答）比合并起来更快。

下一步可以做什么

现在你有了基础环境，可以尝试：

把自己的 PDF 文件放入一个文件夹，然后写脚本让 AI 读取并索引（搜索）它们。
使用 LangChain（一个 AI 开发框架）或 LlamaIndex 快速搭建带文件上传的问答界面。
探索 Ollama 的 MCP 功能，让其他 AI 工具（如 Claude Desktop）调用你的本地知识库。

内容来源

DEV Ollama

发布时间

2026-06-07 01:31