В 2025-м эволюция ИИ перешла в новую стадию. Появились автономные агенты, которые отличаются от генеративного ИИ не только способностью понимать мультимодальный контекст, но и выполнять самостоятельные действия. По прогнозу Gartner, уже к 2028 году такие агенты будут принимать до 15% ежедневных рабочих решений. Главный вопрос сегодня — как корректно тестировать системы, которым будут доверять важные задачи. Об этом команда DSCS.pro рассказала на открытом научном семинаре в СПб ФИЦ РАН.
Что такое AI‑агент?
AI-агент — это автономная программа, которая воспринимает среду, анализирует информацию и принимает решения для достижения цели. Архитектурно агент строится вокруг трёх компонентов: инструментов, планирования и памяти. Именно они сегодня становятся объектом валидации, наряду с end-to-end оценкой.
- Инструменты (Use Tools)
LLM сама по себе не может вызывать API, работать с базами данных, выполнять код, взаимодействовать с внешними системами. За это отвечают инструменты, которые подключаются к ней и могут взаимодействовать с внешними сервисы через API‑функции.
Бенчмарки для тестирования:
- BFCL — проверка вызова внешних функций и API, включая многошаговые и параллельные вызовы
- ComplexFuncBench — устойчивость агента при работе с комплексными API
- ToolACE — оценка выбора и использования инструментов в бизнес-сценариях
- International Tool Calling — корректность вызова API в многодоменных и мультиязычных условиях
Несмотря на разнообразие тестов, в большинстве случаев отсутствует систематический контроль сложности задач. Метрики часто сводятся к количеству вызовов и длине контекста, а значительная часть работ сфокусирована на английском языке.
- Планирование
Этот компонент превращает LLM в систему, способную выполнять сложные сценарии. Агент анализирует цель, разбивает запрос на подзадачи, определяет последовательность действий.
Бенчмарки для тестирования:
ALFRED — пошаговое планирование бытовых задач
BEHAVIOR — сложные бытовые сценарии
ScienceWorld — научное рассуждение и экспериментальное планирование
WebShop — достижение цели в веб-интерфейсе покупок
PlanBench — генерация, проверка и перепланирование планов в задачах PDDL
Пока нет единого формата представления планов и чёткого разделения планирования и исполнения. Это усложняет объективную оценку оптимальности и устойчивости долгосрочных стратегий.
- Память
AI-агенту необходима структурированная память: кратковременная, семантическая, эпизодическая и процедурная. Она позволяет хранить знания, учитывать обновления и сохранять согласованность информации во времени.
Бенчмарки для тестирования:
- MemoryBank — ранний подход к проверке запоминания фактов
- Minerva — комплексный бенчмарк, моделирующий полный цикл работы с информацией
- MemAE — диагностика механизмов хранения и сжатия памяти
- A-MEM — оценка обновления и логической согласованности
- MemBench — инструменты анализа структуры и иерархии памяти
Большинство тестов ограничены коротким контекстом и почти не проверяют динамику долгосрочной памяти. Обновление информации и работа со сложными структурами оцениваются фрагментарно, из-за чего агент может терять согласованность на длинной дистанции.
Важно
Открытые бенчмарки — это верхнеуровневая оценка LLM моделей, для максимизации качества своих решений нужно создавать свои индивидуальные тесты агентских навыков.
Научные семинары DSCS.pro проходят каждую неделю в Лаборатории прикладного искусственного интеллекта СПб ФИЦ РАН. На встречах мы обсуждаем исследования, внедрения и разработки в области ИИ и информационных технологий.