Skip to content

轻量评估#

适用于注册社区版和付费计划

注册社区版用户和所有付费计划用户均可使用轻量评估功能。

什么是轻量评估?#

在构建工作流时,您通常希望用少量示例测试其性能并进行改进。在工作流开发的这个阶段,逐个检查工作流输出通常就足够了。此时设置更正式的评分或指标的收益还不足以证明其投入是值得的。

轻量评估允许您将测试数据集中的示例逐个运行通过工作流,并将输出写回数据集。然后您可以并排检查这些输出,并与预期输出(如果有)进行直观比较。

工作原理#

需要 Google Sheets

评估功能使用 Google Sheets 存储测试数据集。要使用评估功能,您必须配置Google Sheets 凭证

轻量评估在工作流的"Editor"(编辑器)标签页中进行,但您可以在"Evaluations"(评估)标签页中找到设置说明。

步骤: 1. 创建数据集 2. 将数据集连接到工作流 3. 将工作流输出写回数据集 4. 运行评估

以下说明将使用一个示例工作流,该工作流为传入的支持工单分配类别和优先级。

AI工作流示例

1. 创建数据集#

创建一个包含少量工作流示例的 Google Sheet。您的表格应包含以下列:

  • 工作流输入
  • (可选)预期或正确的工作流输出
  • 实际输出

将实际输出列留空,因为您将在评估过程中填写这些内容。

支持工单分类工作流的示例数据集
支持工单分类工作流的示例数据集

2. 将数据集连接到您的工作流#

插入评估触发器以拉取数据集#

每次评估触发器运行时,它将输出一个代表数据集一行的单项。

点击评估触发器左侧的"全部评估"按钮将按顺序多次运行您的工作流,数据集中的每一行运行一次。这是评估触发器的特殊行为。

在连接触发器时,通常只需运行一次。您可以通过以下方式实现:

  • 将触发器的"最大处理行数"设置为1
  • 点击触发器上的"执行节点"按钮(而非"全部评估"按钮)

将触发器连接到您的工作流#

现在您可以将评估触发器连接到工作流的其余部分,并引用其输出的数据。至少需要在工作流后续步骤中使用数据集的输入列。

如果工作流中有多个触发器,您需要将它们的分支合并在一起

连接评估触发器
添加并连接了评估触发器的支持工单分类工作流。

3. 将工作流输出写回数据集#

要在评估运行时填充数据集的输出列:

  • 插入评估节点的"设置输出"操作
  • 在工作流产生您要评估的输出后将其连接起来
  • 在节点参数中,将工作流输出映射到正确的数据集列
连接设置输出节点
添加并连接了"设置输出"节点的支持工单分类工作流。

4. 运行评估#

点击评估触发器左侧的 Execute workflow(执行工作流)按钮。工作流将为数据集中的每一行执行多次:

执行工作流按钮

在 Google 表格中查看每次执行的输出结果,如有需要可通过工作流的"executions"(执行)选项卡检查执行详情。

当您的数据集增长到超过少量示例时,可以考虑使用基于指标的评估来获取性能的数值化视图。另请参阅技巧与常见问题