- De nombreuses organisations déploient des agents IA mais sous-estiment les coûts de test et d’évaluation des résultats, notamment en raison de leur nature non déterministe.
- Selon les enquêtes, près de 80 % des entreprises ont utilisé des agents IA, mais la majorité n’a pas anticipé les coûts de formation et d’évaluation, entraînant de graves dépassements budgétaires.
- Lior Gavish, CTO de Monte Carlo, indique que beaucoup d’entreprises utilisent le « LLM comme juge » pour noter les résultats, ce qui peut rendre les coûts d’évaluation plus élevés que le coût de fonctionnement de l’agent lui-même.
- Une évaluation basée sur un LLM ayant duré plusieurs jours a coûté à Monte Carlo une facture à cinq chiffres, prouvant que chaque appel LLM est bien plus cher qu’un logiciel traditionnel.
- Utiliser un LLM pour juger un autre LLM présente aussi des risques de biais car les résultats ne sont pas répétables ; un même test peut donner des résultats différents à chaque exécution.
- Les coûts d’évaluation dépendent de la complexité de l’agent : quelques milliers de dollars pour les petits, jusqu’à des dizaines de milliers pour les plus complexes.
- Outre les frais de calcul et d’API, le coût majeur souvent oublié est l’évaluation humaine pour établir une « vérité de terrain » (ground truth).
- Paul Ferguson de Clearlead AI Consulting souligne que les cas d’utilisation flous comme le service client sont très difficiles à définir en termes de vrai ou faux.
- Chengyu « Cay » Zhang de Redcar.ai qualifie l’évaluation d’« assurance » ; la réduire n’est qu’une dette technique à payer plus tard.
- Les méthodes d’évaluation incluent des tests unitaires bon marché, le scoring par IA, le red-teaming et le shadowing humain coûteux.
- Recommandations : réduire le périmètre de l’agent, utiliser des frameworks comme LangSmith, PromptLayer, Ragas, tester tôt et limiter le budget d’évaluation.
📌 Conclusion : Près de 80 % des entreprises utilisent des agents IA, mais la plupart n’ont pas prévu les coûts de formation et d’évaluation, ce qui mène à de sérieux dépassements budgétaires. Les agents IA n’impliquent pas seulement des coûts de déploiement, mais génèrent un « multiplicateur incertain » lié à l’évaluation. Les entreprises sont souvent choquées par les frais de test, surtout lorsqu’un LLM doit en noter un autre ou qu’une intervention humaine est requise. L’approche durable consiste à limiter le périmètre, commencer par des cas simples, tester tôt, utiliser des frameworks spécialisés et considérer l’évaluation comme une assurance obligatoire pour éviter les risques de marque et opérationnels futurs.

