概述#
什么是评估?#
评估是验证 AI 工作流可靠性的关键技术。它决定了您的项目是停留在不稳定的概念验证阶段,还是能成为稳定的生产级工作流。无论是在构建阶段还是部署到生产环境后,评估都至关重要。
评估的基础是通过工作流运行测试数据集。该数据集包含多个测试用例,每个用例都包含工作流的样本输入,通常还包含预期输出。
评估使您能够:
- 测试工作流在各种输入下的表现,了解其在边界条件下的性能
- 自信地进行修改,避免无意中在其他方面造成负面影响
- 比较不同模型或提示的性能
以下视频解释了评估的概念、价值及其工作原理:
为什么需要评估?#
AI 模型与代码有本质区别。代码是确定性的,可以进行逻辑推理。而 LLM(大语言模型)是黑盒系统,难以进行类似推理。您必须通过运行数据并观察输出来测量LLM 的表现。
只有当您使用准确反映生产环境中所有边界情况的多样化输入测试模型后,才能确信其性能可靠。
两种评估类型#
轻量评估(部署前)#
构建一个干净、全面的数据集很困难。在初始构建阶段,通常只需要生成少量示例就足够了。这些示例可以帮助您将工作流迭代到可发布状态(或概念验证阶段)。您可以通过视觉比较结果来评估工作流的质量,而无需设置正式的指标。
基于指标的评估(部署后)#
一旦部署工作流后,从生产执行中构建更大、更具代表性的数据集会更容易。当发现错误时,您可以将导致该错误的输入添加到数据集中。修复错误时,重要的是要再次对整个数据集运行工作流作为回归测试,以检查修复是否无意中导致其他问题恶化。
由于测试用例太多无法逐个检查,评估会使用指标来衡量输出质量,指标是一个代表特定特征的数值。这也允许您跟踪不同运行之间的质量变化。
评估类型对比#
轻量评估(部署前) | 基于指标的评估(部署后) | |
---|---|---|
每次迭代的性能提升 | 显著 | 微小 |
数据集规模 | 小规模 | 大规模 |
数据来源 | 人工生成 AI生成 其他 |
生产环境执行 AI生成 其他 |
实际输出 | 必需 | 必需 |
预期输出 | 可选 | 通常必需 |
评估指标 | 可选 | 必需 |