极客前沿

AI 入门:一步步搭建你的第一个大模型评价工具

2026-06-04 01:32
DEV Machine Learning
查看原文

本文教你从零开始安装 Python、配置环境、运行一个简单的 AI 模型评价脚本,并理解评价结果。

准备你的电脑环境

在开始之前,你需要安装 Python(一种编程语言,用来写 AI 程序)。去官网 python.org 下载最新版本。安装时记得勾选 “Add Python to PATH”(把这个选项打钩,否则后面会报错)。然后打开终端(Windows 按 Win+R 输入 cmd,Mac 打开“终端”),输入 python --version,能看到版本号就说明装好了。

安装必要的库

AI 评价需要用到一些现成的工具包。在终端里执行以下命令:

  • pip install openai —— 安装 OpenAI 库(一个调用 AI 模型的工具)。
  • pip install pandas —— 安装 Pandas(用来处理表格数据)。
  • pip install scikit-learn —— 安装 Scikit-learn(用来计算评价指标,比如准确率)。

常见坑:如果提示 pip 不是内部或外部命令,说明 Python 没加到 PATH,重新安装并勾选那个选项。

写一个简单的评价脚本

新建一个文件 judge.py,用记事本或 VS Code 打开,粘贴以下代码:

Tutorial Image
import openai
import pandas as pd
from sklearn.metrics import cohen_kappa_score

# 设置你的 API 密钥(需要去 OpenAI 官网申请)
openai.api_key = '你的密钥'

# 模拟一些“模型回答”和“人类评价”
responses = ['我喜欢这个产品', '这个产品很差']
human_scores = [1, 0]  # 1 表示好,0 表示坏

# 用 AI 来评价
ai_scores = []
for resp in responses:
    prompt = f"请判断以下回答是否 helpful:{resp}\n回答:是或否"
    result = openai.ChatCompletion.create(model='gpt-3.5-turbo', messages=[{'role':'user','content':prompt}])
    answer = result.choices[0].message.content
    ai_scores.append(1 if '是' in answer else 0)

# 计算一致性(Cohen's Kappa)
kappa = cohen_kappa_score(human_scores, ai_scores)
print(f'一致性分数:{kappa}')

注意:你需要先申请一个 API 密钥(相当于密码,让程序能调用 AI)。去 platform.openai.com 注册并生成密钥,然后把代码里的 '你的密钥' 替换掉。

运行并验证

在终端里进入文件所在目录,执行 python judge.py。如果看到输出 一致性分数:0.xx,就成功了!分数越接近 1,说明 AI 评价和人类越一致。

常见坑:如果报错 ModuleNotFoundError,说明库没装成功,重新执行 pip install 命令。

下一步可以做什么

现在你已经跑通了最简单的 AI 评价流程。可以尝试:

  • 用真实数据替换模拟的回答和分数。
  • 增加评价维度,比如同时判断“回答是否准确”和“回答是否友好”。
  • 把评价结果画成图表,用 Matplotlib(一个画图库)来可视化。

记住:每次修改后都要重新运行脚本,观察分数变化。这就是 AI 工程师的日常调试过程。

内容来源

DEV Machine Learning

发布时间

2026-06-04 01:32

返回 AI技术