Языковые модели в задаче автоматизации оценки личностных особенностей пользователей социальных сетей

"В рамках семестрового проекта я разработал систему для анализа текстов из ВКонтакте с целью классификации личностных особенностей авторов по шкалам теста Айзенка EPQ/PEN.

Моя работа включала несколько ключевых этапов. Сначала я использовал VK API для сбора текстовых постов пользователей. Затем применил к этим постам тест Айзенка EPQ/PEN, чтобы определить личностные характеристики авторов. В процессе анализа данных я обнаружил несбалансированность классов, что могло повлиять на точность моделей. Для решения этой проблемы я применил метод синтеза меньшинственных классов (SMOTE).

Далее, с помощью предобученной языковой модели ruBERT-Base, я сгенерировал эмбеддинги текстов, что позволило преобразовать их в числовые представления для дальнейшего анализа. На основе этих эмбеддингов я обучил модели многоклассовой классификации, способные предсказывать результаты теста Айзенка для новых текстов.

Чтобы сделать систему доступной и удобной для пользователей, я разработал веб-интерфейс. Этот интерфейс позволяет вводить текст и получать классификацию личностных особенностей автора по шкалам теста Айзенка EPQ/PEN в режиме реального времени.

В результате моей работы была создана автоматизированная система, которая может быть полезна для различных исследований в области психологии и социальной информатики.​"

Павел Андреевич Никитин