Новости
Как тестировать AI-агентов

Как тестировать AI-агентов: в лПИИ СПб ФИЦ РАН прошел семинар от команды DSCS.pro

Блог
Семинары
В 2025-м эволюция ИИ перешла в новую стадию. Появились автономные агенты, которые отличаются от генеративного ИИ не только способностью понимать мультимодальный контекст, но и выполнять самостоятельные действия.  По прогнозу Gartner, уже к 2028 году такие агенты будут принимать до 15% ежедневных рабочих решений. Главный вопрос сегодня — как корректно тестировать системы, которым будут доверять важные задачи. Об этом команда DSCS.pro рассказала на открытом научном семинаре в СПб ФИЦ РАН.

Что такое AI‑агент?

AI-агент — это автономная программа, которая воспринимает среду, анализирует информацию и принимает решения для достижения цели. Архитектурно агент строится вокруг трёх компонентов: инструментов, планирования и памяти. Именно они сегодня становятся объектом валидации, наряду с end-to-end оценкой.

  1.  Инструменты (Use Tools)

LLM сама по себе не может вызывать API, работать с базами данных, выполнять код, взаимодействовать с внешними системами. За это отвечают инструменты, которые подключаются к ней и могут взаимодействовать с внешними сервисы через API‑функции.

Бенчмарки для тестирования:

  • BFCL — проверка вызова внешних функций и API, включая многошаговые и параллельные вызовы
  • ComplexFuncBench — устойчивость агента при работе с комплексными API
  • ToolACE — оценка выбора и использования инструментов в бизнес-сценариях
  • International Tool Calling — корректность вызова API в многодоменных и мультиязычных условиях

Несмотря на разнообразие тестов, в большинстве случаев отсутствует систематический контроль сложности задач. Метрики часто сводятся к количеству вызовов и длине контекста, а значительная часть работ сфокусирована на английском языке.

  1.  Планирование

Этот компонент превращает LLM в систему, способную выполнять сложные сценарии. Агент анализирует цель, разбивает запрос на подзадачи, определяет последовательность действий.

Бенчмарки для тестирования:

ALFRED — пошаговое планирование бытовых задач

BEHAVIOR — сложные бытовые сценарии

ScienceWorld — научное рассуждение и экспериментальное планирование

WebShop — достижение цели в веб-интерфейсе покупок

PlanBench — генерация, проверка и перепланирование планов в задачах PDDL

Пока нет единого формата представления планов и чёткого разделения планирования и исполнения. Это усложняет объективную оценку оптимальности и устойчивости долгосрочных стратегий.

  1. Память

AI-агенту необходима структурированная память: кратковременная, семантическая, эпизодическая и процедурная. Она позволяет хранить знания, учитывать обновления и сохранять согласованность информации во времени.

Бенчмарки для тестирования:

  • MemoryBank — ранний подход к проверке запоминания фактов
  • Minerva — комплексный бенчмарк, моделирующий полный цикл работы с информацией
  • MemAE — диагностика механизмов хранения и сжатия памяти
  • A-MEM — оценка обновления и логической согласованности
  • MemBench — инструменты анализа структуры и иерархии памяти

Большинство тестов ограничены коротким контекстом и почти не проверяют динамику долгосрочной памяти. Обновление информации и работа со сложными структурами оцениваются фрагментарно, из-за чего агент может терять согласованность на длинной дистанции.

Важно

Открытые бенчмарки — это верхнеуровневая оценка LLM моделей, для максимизации качества своих решений нужно создавать свои индивидуальные тесты агентских навыков.

Научные семинары DSCS.pro проходят каждую неделю в Лаборатории прикладного искусственного интеллекта СПб ФИЦ РАН. На встречах мы обсуждаем исследования, внедрения и разработки в области ИИ и информационных технологий. 

Новости

Вам также может быть интересно: