- Viele Organisationen führen KI-Agenten ein, unterschätzen jedoch die Kosten für das Testen und Bewerten der Ergebnisse, insbesondere aufgrund der Nicht-Determiniertheit der Resultate.
- Umfragen zufolge haben fast 80 % der Unternehmen KI-Agenten eingesetzt, doch die meisten haben die Trainings- und Evaluierungskosten nicht einkalkuliert, was zu massiven Budgetüberschreitungen führt.
- Lior Gavish, CTO von Monte Carlo, berichtet, dass viele Firmen „LLM als Richter“ einsetzen, um Ergebnisse zu bewerten, wodurch die Evaluierungskosten höher sein können als die Betriebskosten des Agenten selbst.
- Eine mehrtägige LLM-basierte Evaluierung bescherte Monte Carlo einst eine fünfstellige Rechnung, was zeigt, dass jeder LLM-Aufruf viel teurer ist als herkömmliche Software.
- Die Nutzung von LLMs zur Bewertung anderer LLMs birgt zudem das Risiko von Verzerrungen, da die Ergebnisse nicht reproduzierbar sind; derselbe Test kann bei jedem Durchlauf unterschiedliche Ergebnisse liefern.
- Die Evaluierungskosten hängen von der Komplexität des Agenten ab: Kleine Agenten kosten einige tausend USD, komplexe bis zu zehntausende.
- Neben Rechen- und API-Gebühren sind die oft übersehenen Kosten für menschliche Bewertungen zur Festlegung einer „Ground Truth“ (Basiswahrheit) der größte Posten.
- Paul Ferguson von Clearlead AI Consulting betont, dass vage Anwendungsfälle wie der Kundenservice nur schwer in Richtig oder Falsch einzuteilen sind.
- Chengyu „Cay“ Zhang von Redcar.ai nennt die Evaluierung eine „Versicherung“; sie zu kürzen sei lediglich eine technische Schuld, die später beglichen werden muss.
- Evaluierungsmethoden umfassen günstige Unit-Tests, KI-gestützte Bewertung, Red-Teaming und teures menschliches Shadowing.
- Empfehlungen: Den Umfang des Agenten eingrenzen, Frameworks wie LangSmith, PromptLayer oder Ragas nutzen, frühzeitig testen und Evaluierungsbudgets begrenzen.
📌 Fazit: Fast 80 % der Unternehmen nutzen KI-Agenten, doch die Mehrheit hat die Kosten für Training und Evaluierung unterschätzt, was zu schweren Budgetüberschreitungen führt. KI-Agenten verursachen nicht nur Implementierungskosten, sondern auch einen „ungewissen Multiplikator“ durch die Evaluierung. Unternehmen sind oft schockiert über die Testkosten, besonders wenn LLM-Bewertungen und menschliche Aufsicht nötig sind. Ein nachhaltiger Ansatz besteht darin, den Umfang zu begrenzen, mit klaren Anwendungsfällen zu beginnen, früh zu testen, spezialisierte Frameworks zu nutzen und Evaluierung als Pflichtversicherung zu betrachten, um spätere Marken- und Betriebsrisiken zu vermeiden.
