Методы классификации длинных текстовых постов в задаче автоматизации оценки выраженности личностных особенностей

В рамках учебной практики я работала над задачей классификации длинных текстовых постов для автоматизации оценки выраженности личностных особенностей пользователей. Основной вызов заключался в том, чтобы корректно агрегировать тексты, превышающие контекстное окно моделей, и выбрать оптимальный метод обработки.

В ходе работы были исследованы различные подходы к сокращению и агрегации текстов, проведено дообучение модели DistilBERT и выполнено сравнение её эффективности с классическими методами машинного обучения. Эксперименты позволили оценить влияние выбора метода агрегации на точность классификации и выявить ключевые факторы, влияющие на результаты.