极客前沿

AI 入门:用旧显卡搭一个本地知识库,一步步跑通

2026-06-07 01:31
DEV Ollama
查看原文

教你用闲置显卡搭建本地 AI 知识库,从环境安装到首次问答,零基础也能跟着做。

准备工作:你需要什么

这篇文章要带你搭建一个完全在本地的 AI 问答系统——把你的 PDF 论文或文档交给它,然后像聊天一样提问,它会在你的电脑里找答案,不联网、不上传文件。

  • 一台有 NVIDIA 显卡(英伟达出的独立显卡,负责加速 AI 计算)的电脑,比如 GTX 1080 Ti 或 RTX 3090。没有显卡也能跑,只是慢一些。
  • 安装 Ollama:一个让你在本地运行 AI 模型的免费工具。去 ollama.com 下载并安装。
  • 安装 Python(一种编程语言,用来运行脚本)。去 python.org 下载 3.10 或更新版本,安装时记得勾选“Add Python to PATH”。

第一步:安装并下载模型

  1. 打开终端(Windows 上叫“命令提示符”或 PowerShell,Mac/Linux 叫“终端”)。
  2. 输入 ollama pull bge-m3 并按回车。这会下载一个 嵌入模型(能把文字变成数字,方便电脑理解)。它很小,只有 1GB 左右。
  3. 再输入 ollama pull qwen3:27b 下载一个 大语言模型(用来生成回答)。如果你显卡显存(显卡内存)不够 24GB,可以换成 qwen3:8bllama3.2:3b

第二步:设置环境变量(重要)

为了让嵌入模型在 CPU(中央处理器,电脑的“大脑”)上运行,避免显卡冲突,需要设置一个环境变量:

  • Windows:在终端输入 set OLLAMA_KEEP_ALIVE=0set OLLAMA_NUM_PARALLEL=1
  • Mac/Linux:输入 export OLLAMA_KEEP_ALIVE=0export OLLAMA_NUM_PARALLEL=1
  • 然后重启 Ollama(在终端输入 ollama serve 启动它)。

第三步:运行一个简单的问答脚本

创建一个新文件,比如叫 test_rag.py,用记事本打开,粘贴以下代码:

Tutorial Image
import requests, json

def ask(question):
    url = "http://localhost:11434/api/generate"
    payload = {"model": "qwen3:27b", "prompt": question, "stream": False}
    response = requests.post(url, json=payload)
    return response.json()["response"]

print(ask("什么是 RAG?"))

然后在终端运行 python test_rag.py。如果看到一段中文回答,就说明成功了!

常见坑提醒

  • 显卡内存不够:如果模型太大,会用到系统内存,速度变慢。用 ollama ps 查看模型是否全部在显卡上。如果显示“offloaded to CPU”,就换一个小模型。
  • 上下文长度:大模型默认支持很长的对话历史,但会占用大量显存。在 Ollama 中设置 num_ctx 为 4096 或 8192 就够了,例如 ollama run qwen3:27b --num-ctx 4096
  • 多显卡不一定要一起用:如果你有两张旧显卡,分开用(一张跑嵌入,一张跑问答)比合并起来更快。

下一步可以做什么

现在你有了基础环境,可以尝试:

  • 把自己的 PDF 文件放入一个文件夹,然后写脚本让 AI 读取并索引(搜索)它们。
  • 使用 LangChain(一个 AI 开发框架)或 LlamaIndex 快速搭建带文件上传的问答界面。
  • 探索 Ollama 的 MCP 功能,让其他 AI 工具(如 Claude Desktop)调用你的本地知识库。

内容来源

DEV Ollama

发布时间

2026-06-07 01:31

返回 AI技术