Можно ли по отдельным словам определить успеваемость ученика? В НИУ ВШЭ разработали модель, которая на основании лексики из постов в социальных сетях предсказывает успеваемость их авторов с точностью в 94%. Проверить себя может каждый. Подробности — в материале интернет-газеты «Москва.ру».
Сегодня по активности в социальных сетях можно составить полный психологический портрет пользователя. Посты, фотографии, лайки, комментарии, хештеги — все это может многое рассказать не только об интересах, но и об эрудированности человека. В лаборатории вычислительных социальных наук Института образования НИУ ВШЭ озадачились вопросом, можно ли по цифровым следам «вычислить» более сложные, многосоставные характеристики — например, успеваемость в школе?
По лайкам в Facebook можно определить религиозные и политические взгляды человека. По комментариям в той же соцсети — уровень агрессивности, а по твитам — депрессию. Тексты блогеров немало говорят об их личных качествах. Даже картинки в Instagram — отличный источник для цифровой психометрии.
Заведующий лаборатории Иван Смирнов создал компьютерную модель, которая поможет отличить отличников от двоечников по их онлайн-публикациям с помощью математического анализа текстов. Важна лексика (размеры словаря и семантические поля, из которых взяты понятия), используемые знаки и символы, длина слов и постов. Алгоритм предсказывает академические успехи российских школьников с точностью до 94%, полученные результаты хорошо коррелируют с баллами ЕГЭ.
У каждого слова есть свой рейтинг, своеобразное «IQ». Казалось бы, и так понятно, что если школьник в соцсетях пишет об астрофизике, литературе и делится IT-кейсами, — он, как минимум, мотивирован к саморазвитию. Наверняка в его электронном дневнике — четвёрки и пятерки. Если же мы видим у подростка орфографические ошибки в подписях к фотографиям, а интересы распространяются на тривиальные видео или гороскопы, то перед нами, скорее всего, «середнячок» в учёбе.
Но любое предположение должно быть научно доказано, а сделать это лучше всего с помощью цифр, и математически подсчитать, какие слова «умнее». Давайте проверим наши догадки.
В специальную форму нужно ввести любимое слово и посмотреть на его рейтинг — чем ниже процент, тем потенциально выше ваш интеллект и эрудиция.
Корреспондент «Москва.ру» ввела в форму слово «космос», но первая попытка оказалась неудачной, — словарь не распознал его.
Чтобы снова не попасть впросак было введено слово, которые точно популярно среди школьников — «супер». Словарь показал рейтинг — 81,45%, но высокий показатель здесь на самом деле говорит об обратном эффекте. Так как «чем ниже процент, тем потенциально выше ваш интеллект и эрудиция».
Как вам слово «история»? Оно дает неплохой результат — 34,98%. Соответственно, если ваши посты разнообразят словами пусть не сложными, но выходящими за пределы «прикольно» или «рандом», то есть шанс, что вы ближе к отличникам.
Анализ цифровых следов крайне популярен, и подобные исследования всегда вызывают огромный интерес, но главный вопрос здесь — этический — пока подвешен. Насколько морально приемлемо использовать личные данные из соцсетей? Автор исследование считает, что нужно взвесить все «за» и «против» и решить, что перешивает.
Предложенную модель можно применять к разным областям. Но исследователям сферы образования интересно понять, что отличает успешные школы от средних. Однако если, скажем, смотреть на особенности школ с высокими баллами ЕГЭ, то это не дает нужных результатов, так как зачастую в этих школах учатся более подготовленные и сильные учащиеся.
Применение модели может быть широким. Кроме того, ее можно использовать для предсказания очень разных характеристик: от прогресса в учебных достижениях учащихся до степени депрессии.