AI 入门:用旧显卡搭一个本地知识库,一步步跑通
教你用闲置显卡搭建本地 AI 知识库,从环境安装到首次问答,零基础也能跟着做。
准备工作:你需要什么
这篇文章要带你搭建一个完全在本地的 AI 问答系统——把你的 PDF 论文或文档交给它,然后像聊天一样提问,它会在你的电脑里找答案,不联网、不上传文件。
- 一台有 NVIDIA 显卡(英伟达出的独立显卡,负责加速 AI 计算)的电脑,比如 GTX 1080 Ti 或 RTX 3090。没有显卡也能跑,只是慢一些。
- 安装 Ollama:一个让你在本地运行 AI 模型的免费工具。去 ollama.com 下载并安装。
- 安装 Python(一种编程语言,用来运行脚本)。去 python.org 下载 3.10 或更新版本,安装时记得勾选“Add Python to PATH”。
第一步:安装并下载模型
- 打开终端(Windows 上叫“命令提示符”或 PowerShell,Mac/Linux 叫“终端”)。
- 输入
ollama pull bge-m3并按回车。这会下载一个 嵌入模型(能把文字变成数字,方便电脑理解)。它很小,只有 1GB 左右。 - 再输入
ollama pull qwen3:27b下载一个 大语言模型(用来生成回答)。如果你显卡显存(显卡内存)不够 24GB,可以换成qwen3:8b或llama3.2:3b。
第二步:设置环境变量(重要)
为了让嵌入模型在 CPU(中央处理器,电脑的“大脑”)上运行,避免显卡冲突,需要设置一个环境变量:
- Windows:在终端输入
set OLLAMA_KEEP_ALIVE=0和set OLLAMA_NUM_PARALLEL=1。 - Mac/Linux:输入
export OLLAMA_KEEP_ALIVE=0和export OLLAMA_NUM_PARALLEL=1。 - 然后重启 Ollama(在终端输入
ollama serve启动它)。
第三步:运行一个简单的问答脚本
创建一个新文件,比如叫 test_rag.py,用记事本打开,粘贴以下代码:
import requests, json
def ask(question):
url = "http://localhost:11434/api/generate"
payload = {"model": "qwen3:27b", "prompt": question, "stream": False}
response = requests.post(url, json=payload)
return response.json()["response"]
print(ask("什么是 RAG?"))然后在终端运行 python test_rag.py。如果看到一段中文回答,就说明成功了!
常见坑提醒
- 显卡内存不够:如果模型太大,会用到系统内存,速度变慢。用
ollama ps查看模型是否全部在显卡上。如果显示“offloaded to CPU”,就换一个小模型。 - 上下文长度:大模型默认支持很长的对话历史,但会占用大量显存。在 Ollama 中设置
num_ctx为 4096 或 8192 就够了,例如ollama run qwen3:27b --num-ctx 4096。 - 多显卡不一定要一起用:如果你有两张旧显卡,分开用(一张跑嵌入,一张跑问答)比合并起来更快。
下一步可以做什么
现在你有了基础环境,可以尝试:
- 把自己的 PDF 文件放入一个文件夹,然后写脚本让 AI 读取并索引(搜索)它们。
- 使用 LangChain(一个 AI 开发框架)或 LlamaIndex 快速搭建带文件上传的问答界面。
- 探索 Ollama 的 MCP 功能,让其他 AI 工具(如 Claude Desktop)调用你的本地知识库。
内容来源
DEV Ollama
发布时间
2026-06-07 01:31