В международном рецензируемом журнале, индексируемом в базе научного цитирования Scopus, «Scientific and Technical Information Processing» опубликована научная статья наших коллег: Korepanova, A.A., Abramov, M.V. Application of Random Forest in Choosing a Method of Recovering the Age of Social Network Users. Sci. Tech. Inf. Proc. 49, 317–324 (2022). (https://doi.org/10.3103/S0147688222050057)

Вопросы, которым посвящена научная работа, методы их изучения и полученные результаты.

Пользователи социальных сетей оставляют о себе множество информации в так называемых информационных следах. Даже факты, которые они хотели бы скрыть, порой могут быть восстановлены. Так, наблюдательный человек может по фотографиям в аккаунте, интересам и кругу друзей аккаунта предположить, сколько его владельцу лет, основываясь на собственной интуиции и опыте. В рамках своей научной работы мы попробовали обучить модель решать ту же самую задачу.

Мы собрали набор данных пользователей социальной сети “ВКонтакте”, которые не скрывали свой возраст. Выяснилось, что в их аккаунтах есть много данных, которые могут быть использованы для предположения, сколько пользователю лет. Например, фотографии, возраст друзей в аккаунте, интересы или участие в группах для определённой возрастной категории. К сожалению, все ведут страницы по-разному: кто-то скрывает свои подписки, кто-то не заполняет никакую информацию о себе. Так список друзей доступный для анализа был только у 16% пользователей в собранном наборе данных. Таким образом, нет одного метода, который бы позволил определить возраст всех пользователей, потому что нет таких данных, которые были бы у всех в аккаунтах. Поэтому было решено взять несколько методов восстановления возраста, которые подходят разным группам пользователей, и объединить в один.

В результате мы обучили модель машинного обучения случайный лес, которая на основании информации о подписках пользователя, возрасте его друзей и сведениях об окончании ВУЗа и школы предполагает его возраст. Чем больше данных доступно — тем точнее оценка. Но если данных мало, например, есть только информация о подписках, то всё равно модель отработает и что-то предположит. Точность оценки составила 80%. Итоговая модель работает на 50% пользователей из собранного набора данных.