- Многие организации внедряют ИИ-агентов, но недооценивают стоимость тестирования и оценки результатов, особенно из-за их непредсказуемости.
- Согласно опросам, почти 80% предприятий уже используют ИИ-агентов, но большинство не предусмотрели расходы на обучение и оценку, что привело к серьезному превышению бюджета.
- Лиор Гавиш, технический директор Monte Carlo, отмечает, что многие компании используют подход «LLM как судья» для проверки ответов, из-за чего стоимость оценки может превышать стоимость работы самого агента.
- Одна оценка с использованием LLM, длившаяся несколько дней, однажды обошлась Monte Carlo в пятизначную сумму, что доказывает: каждый вызов LLM намного дороже традиционного ПО.
- Использование одной LLM для оценки другой также несет риски предвзятости, так как результаты не повторяются; один и тот же тест может давать разные результаты при каждом запуске.
- Стоимость оценки зависит от сложности агента: простые агенты могут стоить несколько тысяч долларов, сложные — десятки тысяч.
- Помимо вычислительных мощностей и API, самой крупной часто упускаемой статьей расходов является человеческая оценка для установления «эталонной истины» (ground truth).
- Пол Фергюсон из Clearlead AI Consulting подчеркивает, что в размытых сценариях, таких как обслуживание клиентов, очень сложно определить правильность ответа.
- Чэнъюй «Кэй» Чжан из Redcar.ai называет оценку «страховкой»; отказ от нее — это лишь технический долг, который придется оплатить позже.
- Методы оценки включают дешевые юнит-тесты, проверку с помощью ИИ, ред-тиминг и дорогостоящее человеческое сопровождение.
- Рекомендации: сузить сферу деятельности агента, использовать такие фреймворки, как LangSmith, PromptLayer, Ragas, проводить раннее тестирование и ограничивать бюджет на оценку.
📌 Заключение: Почти 80% компаний используют ИИ-агентов, но большинство не учли расходы на обучение и оценку, что привело к перерасходу средств. ИИ-агенты требуют не только затрат на внедрение, но и влекут за собой «неопределенный множитель» стоимости оценки. Бизнес часто шокирован счетами за тестирование, особенно при использовании LLM для проверки LLM и участии людей. Устойчивый подход заключается в сужении охвата, начале с простых сценариев, раннем тестировании и восприятии оценки как обязательной страховки от репутационных и операционных рисков.

