AI入门:一步步安装ChromaDB并跑通向量数据库
本文教你从零开始安装ChromaDB,运行第一个向量数据库示例,理解基础概念。
准备环境
首先,你需要一台安装了 Python(一种编程语言)的电脑。如果你还没有Python,可以去 python.org 下载并安装,版本建议3.8或更高。安装时记得勾选“Add Python to PATH”,这样在命令行里就能直接使用Python了。
接下来,打开你的命令行工具(Windows上是CMD或PowerShell,Mac/Linux上是终端)。输入以下命令确认Python已装好:
python --version(如果显示版本号,说明成功)pip --version(pip是Python的包管理器,用来安装第三方库)
安装ChromaDB
ChromaDB 是一个开源的向量数据库,专门用来存储和查询“向量”(可以理解为数据的数学表示)。安装它很简单,在命令行里输入:
pip install chromadb
等待安装完成。如果遇到网络慢,可以尝试使用国内镜像源,比如:pip install chromadb -i https://pypi.tuna.tsinghua.edu.cn/simple。常见坑:如果提示“pip不是内部命令”,说明Python没加到PATH,重新安装Python并勾选“Add Python to PATH”即可。
第一次跑通:创建你的第一个向量数据库
安装完成后,我们来写一个简单的Python脚本,验证ChromaDB能否正常工作。新建一个文本文件,命名为 test_chroma.py,用记事本或任何代码编辑器打开,输入以下内容:
import chromadb
from chromadb.config import Settings
# 创建客户端,使用默认的临时数据库
client = chromadb.Client(Settings(
chroma_db_impl="duckdb+parquet",
persist_directory="./my_chroma_db" # 数据库文件保存位置
))
# 创建一个集合(类似数据库中的表)
collection = client.create_collection(name="my_first_collection")
# 添加一些文本数据,ChromaDB会自动将文本转换为向量
collection.add(
documents=["这是第一个文档", "这是第二个文档", "机器学习很有趣"],
ids=["doc1", "doc2", "doc3"]
)
# 查询与“人工智能”最相似的文档
results = collection.query(
query_texts=["人工智能"],
n_results=2 # 返回最相近的2个
)
print(results)保存文件后,在命令行中运行:python test_chroma.py。如果看到类似下面这样的输出,说明你成功了:
{'ids': [['doc3', 'doc1']], 'distances': [[...]], 'metadatas': [[None, None]], 'documents': [['机器学习很有趣', '这是第一个文档']]}它返回了与“人工智能”最相关的两个文档:“机器学习很有趣”和“这是第一个文档”。恭喜!你已经跑通了第一个向量数据库应用。
下一步可以做什么
现在你已经入门了,可以尝试:
- 使用不同的文本,观察查询结果的变化。
- 学习 元数据过滤:给文档添加标签(比如类别),然后只搜索特定类别的文档。
- 了解 RAG(检索增强生成):结合大语言模型(如ChatGPT),让模型基于你数据库中的信息回答问题。
更多内容可以查阅ChromaDB官方文档。记住,动手实践是最好的学习方式!
内容来源
Real Python
发布时间
2026-06-10 01:30