AI 入门:一步步搭建你的第一个大模型评价工具
本文教你从零开始安装 Python、配置环境、运行一个简单的 AI 模型评价脚本,并理解评价结果。
准备你的电脑环境
在开始之前,你需要安装 Python(一种编程语言,用来写 AI 程序)。去官网 python.org 下载最新版本。安装时记得勾选 “Add Python to PATH”(把这个选项打钩,否则后面会报错)。然后打开终端(Windows 按 Win+R 输入 cmd,Mac 打开“终端”),输入 python --version,能看到版本号就说明装好了。
安装必要的库
AI 评价需要用到一些现成的工具包。在终端里执行以下命令:
pip install openai—— 安装 OpenAI 库(一个调用 AI 模型的工具)。pip install pandas—— 安装 Pandas(用来处理表格数据)。pip install scikit-learn—— 安装 Scikit-learn(用来计算评价指标,比如准确率)。
常见坑:如果提示 pip 不是内部或外部命令,说明 Python 没加到 PATH,重新安装并勾选那个选项。
写一个简单的评价脚本
新建一个文件 judge.py,用记事本或 VS Code 打开,粘贴以下代码:
import openai
import pandas as pd
from sklearn.metrics import cohen_kappa_score
# 设置你的 API 密钥(需要去 OpenAI 官网申请)
openai.api_key = '你的密钥'
# 模拟一些“模型回答”和“人类评价”
responses = ['我喜欢这个产品', '这个产品很差']
human_scores = [1, 0] # 1 表示好,0 表示坏
# 用 AI 来评价
ai_scores = []
for resp in responses:
prompt = f"请判断以下回答是否 helpful:{resp}\n回答:是或否"
result = openai.ChatCompletion.create(model='gpt-3.5-turbo', messages=[{'role':'user','content':prompt}])
answer = result.choices[0].message.content
ai_scores.append(1 if '是' in answer else 0)
# 计算一致性(Cohen's Kappa)
kappa = cohen_kappa_score(human_scores, ai_scores)
print(f'一致性分数:{kappa}')注意:你需要先申请一个 API 密钥(相当于密码,让程序能调用 AI)。去 platform.openai.com 注册并生成密钥,然后把代码里的 '你的密钥' 替换掉。
运行并验证
在终端里进入文件所在目录,执行 python judge.py。如果看到输出 一致性分数:0.xx,就成功了!分数越接近 1,说明 AI 评价和人类越一致。
常见坑:如果报错 ModuleNotFoundError,说明库没装成功,重新执行 pip install 命令。
下一步可以做什么
现在你已经跑通了最简单的 AI 评价流程。可以尝试:
- 用真实数据替换模拟的回答和分数。
- 增加评价维度,比如同时判断“回答是否准确”和“回答是否友好”。
- 把评价结果画成图表,用 Matplotlib(一个画图库)来可视化。
记住:每次修改后都要重新运行脚本,观察分数变化。这就是 AI 工程师的日常调试过程。
内容来源
DEV Machine Learning
发布时间
2026-06-04 01:32