使用评估工具 - Claude Docs

访问评估功能

要开始使用评估工具：

打开 Claude Console 并导航到提示词编辑器。
编写完提示词后，在屏幕顶部寻找”Evaluate”选项卡。

确保您的提示词包含至少 1-2 个使用双大括号语法的动态变量：{{variable}}。这是创建评估测试集所必需的。

生成提示词

Console 提供了一个由 Claude Opus 4.1 驱动的内置提示词生成器：

点击'Generate Prompt'

点击”Generate Prompt”辅助工具将打开一个模态框，允许您输入任务信息。

描述您的任务

描述您想要的任务（例如，“分类入站客户支持请求”），可以提供尽可能多或少的详细信息。您包含的上下文越多，Claude 就越能为您的特定需求定制生成的提示词。

生成您的提示词

点击底部的橙色”Generate Prompt”按钮将让 Claude 为您生成高质量的提示词。然后您可以使用 Console 中的评估屏幕进一步改进这些提示词。

此功能使创建具有适当变量语法的提示词以进行评估变得更加容易。

创建测试用例

当您访问评估屏幕时，您有几个选项来创建测试用例：

点击左下角的”+ Add Row”按钮手动添加用例。
使用”Generate Test Case”功能让 Claude 自动为您生成测试用例。
从 CSV 文件导入测试用例。

要使用”Generate Test Case”功能：

点击'Generate Test Case'

Claude 将为您生成测试用例，每次点击按钮时生成一行。

编辑生成逻辑（可选）

您还可以通过点击”Generate Test Case”按钮右侧的箭头下拉菜单，然后点击弹出的变量窗口顶部的”Show generation logic”来编辑测试用例生成逻辑。您可能需要点击此窗口右上角的”Generate”来填充初始生成逻辑。编辑此项允许您自定义和微调 Claude 生成的测试用例，以获得更高的精度和特异性。

这是一个填充了几个测试用例的评估屏幕示例：

如果您更新了原始提示词文本，您可以针对新提示词重新运行整个评估套件，以查看更改如何影响所有测试用例的性能。

有效评估的技巧

评估的提示词结构

要充分利用评估工具，请使用清晰的输入和输出格式来构建您的提示词。例如：

在这个任务中，您将生成一个可爱的单句故事，其中包含两个元素：一种颜色和一种声音。
故事中要包含的颜色是：
<color>
{{COLOR}}
</color>
故事中要包含的声音是：
<sound>
{{SOUND}}
</sound>
以下是生成故事的步骤：
1. 想一个通常与提供的颜色相关联的物体、动物或场景。例如，如果颜色是"蓝色"，您可能会想到天空、海洋或蓝鸟。
2. 想象一个涉及您识别的有色物体/动物/场景和提供的声音的简单动作、事件或场景。例如，如果颜色是"蓝色"，声音是"口哨声"，您可能会想象一只蓝鸟在吹口哨。
3. 用一个简洁的句子描述您想象的动作、事件或场景。专注于使句子可爱、引人回味和富有想象力。例如："一只快乐的蓝鸟在蔚蓝的天空中翱翔时吹着欢快的旋律。"
请将您的故事保持在一句话内。努力使这句话尽可能迷人和引人入胜，同时自然地融入给定的颜色和声音。
将您完成的单句故事写在 <story> 标签内。

这种结构使得变化输入（{{COLOR}} 和 {{SOUND}}）和一致地评估输出变得容易。

使用 Console 中的”Generate a prompt”辅助工具快速创建具有适当变量语法的提示词以进行评估。

理解和比较结果

评估工具提供了几个功能来帮助您完善提示词：

并排比较：比较两个或更多提示词的输出，快速查看更改的影响。
质量评分：在 5 分制上对响应质量进行评分，以跟踪每个提示词响应质量的改进。
提示词版本控制：创建提示词的新版本并重新运行测试套件，以快速迭代和改进结果。

通过审查跨测试用例的结果并比较不同的提示词版本，您可以发现模式并更有效地对提示词进行明智的调整。今天就开始评估您的提示词，使用 Claude 构建更强大的 AI 应用程序！

​访问评估功能

​生成提示词

​创建测试用例

​有效评估的技巧

​理解和比较结果

访问评估功能

生成提示词

创建测试用例

有效评估的技巧

理解和比较结果