Языковые модели в задаче автоматизации оценки личностных особенностей пользователей социальных сетей
-
2 курс
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И НАУКА О ДАННЫХ
-
Абрамов Максим Викторович
Научный руководитель
-
Олисеенко Валерий Дмитриевич
Куратор
"В рамках семестрового проекта я разработал систему для анализа текстов из ВКонтакте с целью классификации личностных особенностей авторов по шкалам теста Айзенка EPQ/PEN.
Моя работа включала несколько ключевых этапов. Сначала я использовал VK API для сбора текстовых постов пользователей. Затем применил к этим постам тест Айзенка EPQ/PEN, чтобы определить личностные характеристики авторов. В процессе анализа данных я обнаружил несбалансированность классов, что могло повлиять на точность моделей. Для решения этой проблемы я применил метод синтеза меньшинственных классов (SMOTE).
Далее, с помощью предобученной языковой модели ruBERT-Base, я сгенерировал эмбеддинги текстов, что позволило преобразовать их в числовые представления для дальнейшего анализа. На основе этих эмбеддингов я обучил модели многоклассовой классификации, способные предсказывать результаты теста Айзенка для новых текстов.
Чтобы сделать систему доступной и удобной для пользователей, я разработал веб-интерфейс. Этот интерфейс позволяет вводить текст и получать классификацию личностных особенностей автора по шкалам теста Айзенка EPQ/PEN в режиме реального времени.
В результате моей работы была создана автоматизированная система, которая может быть полезна для различных исследований в области психологии и социальной информатики."
Павел Андреевич Никитин