Ollama 入门：在本地跑 AI 模型，其实很简单

从零开始，学会安装 Ollama、下载模型、跑通第一次对话，避开新手常见坑。

什么是 Ollama？

Ollama 是一个帮你轻松在本地电脑上运行 AI 模型（比如 Llama、Mistral）的工具。你可以把它理解成“AI 模型的 Docker”——下载、运行一条命令搞定，不需要自己配置复杂的环境。它底层用的是 llama.cpp（一个让大模型在普通电脑上也能跑起来的引擎），所以即使你没有高端显卡，也能用 CPU 运行，只是速度会慢一些。

安装步骤

下载 Ollama：访问 ollama.com，点击 Download，选择你的操作系统（Windows、macOS 或 Linux）。Windows 用户下载 .exe 安装包，macOS 用户下载 .dmg，Linux 用户可以用一行命令安装。
运行安装程序：双击安装，一路默认即可。安装完成后，Ollama 会自动在后台启动，你可以在终端（命令提示符）里输入 ollama --version 检查是否安装成功。
下载一个模型：打开终端，输入 ollama run llama3.1。这会自动下载一个叫 Llama 3.1 的模型（大约 4.7GB），然后直接进入对话界面。如果嫌大，可以先试试 ollama run phi3（约 2.3GB），更轻量。

第一次跑通

下载完成后，你会看到类似 >>> Send a message 的提示。直接输入你的问题，比如“什么是人工智能？”，模型就会开始回答。按 Ctrl+D 退出对话。

常见坑提醒：Ollama 默认只记住最近 2048 个 token（约 1500 个汉字）。如果你粘贴一段很长的代码，它可能会“忘记”前面部分。解决方法：运行模型时加上参数，比如 ollama run llama3.1 --num-ctx 8192，把上下文窗口扩大到 8192 token。

硬件要求与速度

模型跑得快不快，主要看你的显存（显卡内存）。以 Q4_K_M 量化格式（一种压缩方式，几乎不影响质量）为例：70 亿参数的模型需要约 4.2GB 显存，130 亿参数需要约 7.8GB。如果显存不够，Ollama 会自动切换到 CPU 运行，速度会降到每秒 10-20 个 token（一个字一个字蹦），但能用。如果你有 NVIDIA 显卡（比如 RTX 3060 以上），速度可以达到每秒 40-80 个 token，非常流畅。

内容来源

DEV Ollama

发布时间

2026-06-17 01:32