Методы сбора и обработки табличных данных в документах для использования в больших языковых моделях
-
3 курс
МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ И АДМИНИСТРИРОВАНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ
-
Максим Викторович Абрамов
Научный руководитель
-
Фёдор Витальевич Бушмелёв
Куратор
В рамках учебной практики моя задача заключалась в анализе методов повышения точности обработки табличных данных в больших языковых моделях для вопросно-ответных систем. Основные проблемы, на решение которых направлена работа, включают ограниченность контекста моделей при анализе крупных таблиц, шум в данных из-за ошибок экстракции из PDF-документов, некорректное выполнение арифметических операций, а также ошибки агрегирования. Целью исследования стало сравнение подходов, комбинирующих декомпозицию таблиц, интеграцию сторонних агентов (SQL, Python) и мультимодальную обработку, для улучшения интерпретации структурированных данных LLM.
Мой вклад включал создание датасета из 100 таблиц на русском языке, извлеченных из учебных планов и статистических отчетов, и проведение сравнительного анализа доработанных методов, готовых к использованию с извлеченными из PDF-документов данными. Эксперименты показали, что подходы Chain-of-Table (поэтапная декомпозиция таблиц) и TabSQLify (генерация SQL-запросов) обеспечивают высокую точность на небольших таблицах, а мультимодальный подход эффективен для сложных структур. Использование этих методов позволило сократить влияние шума и повысить точность ответов. В дальнейшем планируется интеграция предложенных решений в интеллектуальные помощники для улучшения качества работы с табличными данными.