• 许多组织部署了 AI Agent,但低估了测试和评估输出的成本,特别是由于结果的不可确定性。
  • 调查显示,近 80% 的企业已使用 AI Agent,但大多数未预见到培训和评估成本,导致预算严重超支。
  • Monte Carlo 首席技术官 Lior Gavish 表示,许多公司使用“LLM 作为裁判”来对输出评分,这使得评估成本可能高于运行 Agent 本身的成本。
  • 一次持续数天的 LLM 评估曾让 Monte Carlo 收到五位数的账单,表明每次 LLM 调用的费用远高于传统软件。
  • 使用 LLM 评价 LLM 还存在偏见风险,因为结果不可重复;同一次测试在每次运行时可能会给出不同的结果。
  • 评估成本取决于 Agent 的复杂性:小型 Agent 可能花费几千美元,复杂的则可能高达数万美元。
  • 除了计算和 API 费用外,最容易被忽视的最大成本是用于建立“事实标准”(ground truth)的人工评估。
  • Clearlead AI Consulting 的 Paul Ferguson 强调,像客户服务这样模糊的使用场景很难定义对错。
  • Redcar.ai 的 Chengyu “Cay” Zhang 将评估称为“保险”;削减评估只是以后要偿还的技术债。
  • 评估方法包括廉价的单元测试、AI 评分、红队测试和昂贵的人工影子检查。
  • 建议:缩小 Agent 范围,使用 LangSmith、PromptLayer、Ragas 等框架,尽早测试并限制评估预算。

📌 结论: 近 80% 的企业已使用 AI Agent,但大多数未预见到培训和评估成本,导致预算严重超支。AI Agent 不仅涉及部署成本,还会产生来自评估的“不可预测的乘数效应”。企业往往对测试费用感到震惊,特别是当需要 LLM 评价 LLM 和人工评估时。可持续的方法是缩小范围,从答案明确的使用场景开始,尽早测试,使用专业框架,并将评估视为强制性保险,以避免未来的品牌和运营风险。


Share.
VIET NAM CONSULTING AND MEASUREMENT JOINT STOCK COMPANY
联系方式

电子邮件: info@vietmetric.vn
地址:河内市安和坊陈维兴街91巷34号

© 2026 Vietmetric
Exit mobile version