В рамках Enterprise RAG Challenge Артём Вяткин разработал и протестировал RAG-решения для анализа 100 финансовых отчётов компаний. В фокусе исследования было сравнение эффективности GigaChat Max 26.20 и GPT-4o-mini при работе с корпоративной отчётностью. Результаты и описания всех решений можно посмотреть здесь.
Что получилось?
GigaChat Max 26.20:
- Извлечение данных ®: 60.7/100
- Генерация ответов (G): 62.8/100
- Общий счёт: 93.1/133
GPT-4o-mini:
- Извлечение данных ®: 62.9/100
- Генерация ответов (G): 62.5/100
- Общий счёт: 93.9/133
Модели показали схожие результаты, разница заметна лишь в подходах к RAG. В общем рейтинге среди 43 команд лучшее решение заняло 32 место с 93.9 из 133 очков. Методология:
- Обработка документов. Для извлечения данных из PDF-отчётов применялась библиотека PyMuPDF.
- Эмбеддинги. Преобразование текста в векторные представления осуществлялось с использованием эмбеддингов text-embedding-3-small от OpenAI.
- Поиск документов. Реализован механизм семантического поиска по косиносному расстоянию. В ходе тестирования рассматривался гибридный подход с добавлением TF-IDF, однако значимого улучшения метрик достичь не удалось.
- Работа языковой модели. LLM выбирала компании из запроса и по ним извлекались документы. Модель анализировала полноту полученных данных, формировала уточняющие запросы при необходимости и генерировала финальный ответ на основе собранного контекста.
Основной целью исследования было не победить в соревновании, а сравнить работу GigaChat Max и GPT-4o-mini в базовом RAG-решении. В будущем возможно тестирование альтернативных подходов и оптимизаций, — отметил Артём Андреевич.