AI 入门：一步步搭建你的第一个大模型评价工具

本文教你从零开始安装 Python、配置环境、运行一个简单的 AI 模型评价脚本，并理解评价结果。

准备你的电脑环境

在开始之前，你需要安装 Python（一种编程语言，用来写 AI 程序）。去官网 python.org 下载最新版本。安装时记得勾选 “Add Python to PATH”（把这个选项打钩，否则后面会报错）。然后打开终端（Windows 按 Win+R 输入 cmd，Mac 打开“终端”），输入 python --version，能看到版本号就说明装好了。

安装必要的库

AI 评价需要用到一些现成的工具包。在终端里执行以下命令：

pip install openai —— 安装 OpenAI 库（一个调用 AI 模型的工具）。
pip install pandas —— 安装 Pandas（用来处理表格数据）。
pip install scikit-learn —— 安装 Scikit-learn（用来计算评价指标，比如准确率）。

常见坑：如果提示 pip 不是内部或外部命令，说明 Python 没加到 PATH，重新安装并勾选那个选项。

写一个简单的评价脚本

新建一个文件 judge.py，用记事本或 VS Code 打开，粘贴以下代码：

import openai
import pandas as pd
from sklearn.metrics import cohen_kappa_score

# 设置你的 API 密钥（需要去 OpenAI 官网申请）
openai.api_key = '你的密钥'

# 模拟一些“模型回答”和“人类评价”
responses = ['我喜欢这个产品', '这个产品很差']
human_scores = [1, 0]  # 1 表示好，0 表示坏

# 用 AI 来评价
ai_scores = []
for resp in responses:
    prompt = f"请判断以下回答是否 helpful：{resp}\n回答：是或否"
    result = openai.ChatCompletion.create(model='gpt-3.5-turbo', messages=[{'role':'user','content':prompt}])
    answer = result.choices[0].message.content
    ai_scores.append(1 if '是' in answer else 0)

# 计算一致性（Cohen's Kappa）
kappa = cohen_kappa_score(human_scores, ai_scores)
print(f'一致性分数：{kappa}')

注意：你需要先申请一个 API 密钥（相当于密码，让程序能调用 AI）。去 platform.openai.com 注册并生成密钥，然后把代码里的 '你的密钥' 替换掉。

运行并验证

在终端里进入文件所在目录，执行 python judge.py。如果看到输出 一致性分数：0.xx，就成功了！分数越接近 1，说明 AI 评价和人类越一致。

常见坑：如果报错 ModuleNotFoundError，说明库没装成功，重新执行 pip install 命令。

下一步可以做什么

现在你已经跑通了最简单的 AI 评价流程。可以尝试：

用真实数据替换模拟的回答和分数。
增加评价维度，比如同时判断“回答是否准确”和“回答是否友好”。
把评价结果画成图表，用 Matplotlib（一个画图库）来可视化。

记住：每次修改后都要重新运行脚本，观察分数变化。这就是 AI 工程师的日常调试过程。

内容来源

DEV Machine Learning

发布时间

2026-06-04 01:32