AI 入门：本地运行大模型，从装好 Ollama 开始

学会安装 Ollama，下载模型，并用 Python 调用本地 AI，避开新手常见坑。

想在自己的电脑上跑 AI 模型，又不想联网、不想花钱？Ollama 就是你的最佳选择——它是一个免费工具，让你在本地轻松运行大语言模型（比如 Llama、Mistral），完全离线，数据不会外传。

准备工作：检查你的电脑

操作系统：Windows、macOS 或 Linux 都行。Windows 用户建议用 WSL2（Windows 的 Linux 子系统），性能更好。
硬件要求：至少 8GB 内存，推荐 16GB 以上。显卡不是必须，但有 NVIDIA 显卡（4GB 以上显存）会更快。
网络环境：安装时需要下载模型，请确保能正常访问 GitHub 和模型仓库。

安装步骤：一步步来

下载 Ollama：访问 ollama.ai，点击“Download”，选择对应系统的安装包。Windows 用户下载后双击安装，macOS 用户下载 .dmg 文件拖到 Applications 文件夹。
启动 Ollama：安装完成后，打开终端（Windows 用户打开 PowerShell 或 WSL 终端），输入 ollama serve。如果看到类似“Listening on 127.0.0.1:11434”的信息，说明启动成功。
下载一个模型：在新终端窗口中输入 ollama pull llama3.2（这是 Meta 的轻量模型，适合新手）。等待下载完成，进度条走完即可。
测试运行：输入 ollama run llama3.2，然后随便问一句话，比如“你好！”。如果模型回复了，恭喜你，本地 AI 已经跑通了！

验证是否成功：写个简单脚本

为了确认 Ollama 能被程序调用，我们可以写一段 Python 代码。首先安装 requests 库（用来发 HTTP 请求）：pip install requests。然后新建一个 test_ollama.py 文件，写入以下内容：

import requests
import json

url = "http://localhost:11434/api/generate"
data = {
    "model": "llama3.2",
    "prompt": "用一句话介绍你自己。"
}
response = requests.post(url, json=data, stream=True)
for line in response.iter_lines():
    if line:
        print(json.loads(line)["response"], end='')

运行 python test_ollama.py，如果看到模型输出，说明一切正常。

常见坑与下一步

Ollama 没启动：运行代码前，确保 ollama serve 正在运行。如果忘记启动，程序会报连接错误。
模型下载慢：换个网络，或者用 ollama pull 时耐心等待，模型文件通常几个 GB。
内存不足：下载小模型，比如 llama3.2:1b（1B 参数），占用内存更少。

现在你已经成功在本地运行了 AI 模型！下一步可以尝试用 Python 调用 Ollama 的 API，给自己的小项目加上 AI 功能，比如写一个聊天机器人或文档助手。

内容来源

DEV Ollama

发布时间

2026-06-11 01:32