Улучшение качества ответов RAG-системы, построенной на новостных источниках

"В рамках данной учебной практики была поставлена цель по улучшению качества ответов Retrieval-Augmented Generation (RAG) систем, которые используют большие языковые модели (LLM) для агрегации новостей из различных источников связанных с СПбГУ.

В ходе работы была рассмотрена проблема корректного понимания даты выпуска конкретной новости используемой LLM GigaChat. Также на основе изучения научных статей предложены методы, позволяющие повысить точность ответов. Для проведения оценки различных способов были написаны парсеры различных новостных источников: новостной блок официального сайта, вк и телеграмм-каналы, помимо этого были подготовлены методы по созданию запросов к API GigaChat с учётом изученной информации. Один из ключевых выводов работы заключается в том, что использование атрибута metadata для хранения информации о дате создания документа оказалось наиболее эффективным методом повышения точности.

Эксперименты продемонстрировали, что этот подход значительно улучшает результаты по сравнению с другими способами."

Рыболовлев Алексей Александрович