本地跑AI模型入门:装Ollama、选模型、第一次调通
零基础学会在电脑上安装Ollama,下载并运行本地AI模型,用简单命令测试效果,避开常见坑。
准备环境:装好Ollama
首先,你需要一个叫Ollama的工具。它就像一个“AI模型管家”,帮你下载、运行和管理各种AI模型,不用写代码。去 ollama.com 下载对应你电脑系统(Windows/Mac/Linux)的版本,安装后打开终端(Windows用户打开命令提示符或PowerShell)。
安装步骤:选一个模型试试
- 打开终端,输入
ollama pull llama3.2:3b并回车。这会下载一个叫Llama 3.2的模型(大小约3B参数,适合入门)。第一次下载需要几分钟,耐心等待。 - 下载完成后,输入
ollama run llama3.2:3b启动模型。你会看到一个交互界面,可以直接打字和AI对话了! - 试试问它“什么是AI?”或者“写一首关于猫的诗”。如果回答太慢,别担心——这是正常现象,因为模型在本地运行,全靠你的CPU(没有GPU加速)。
验证是否成功:看看性能
运行模型时,你可以观察几个关键数字:
- 延迟:从你提问到收到回答的时间。通常1-3秒算正常,超过5秒可能说明电脑配置较低。
- 生成速度:每秒能生成多少个词(tok/s)。3B模型在CPU上大约4-5 tok/s,7B模型更慢。
- 内存占用:模型会占用你电脑的内存(RAM)。Llama 3.2 3B大约需要2-3GB,如果你的电脑只有8GB内存,记得关掉其他程序。
如果模型回答乱码或崩溃,可能是内存不足。试试更小的模型,比如 ollama pull phi3:mini(微软的Phi-3 Mini,约3.8B参数),它更省资源。
下一步可以做什么
你已经成功跑通了本地AI模型!接下来可以:
- 尝试其他模型:
ollama pull mistral:7b(Mistral 7B,质量更好但更慢)或ollama pull llama3.2:1b(更小更快)。 - 学习如何用Python调用Ollama的API,写一个自己的聊天机器人。
- 注意:如果电脑没有独立显卡,大模型(7B以上)会非常慢,建议在GPU环境下使用。
内容来源
DEV Ollama
发布时间
2026-06-06 01:32