24.10.16

Ученые создали программу, вычисляющую ботов и троллей

Программисты из университета Техаса разработали алгоритм, позволяющий вычислять и «отлавливать» ботов и троллей, и использовали его для раскрытия проплаченных пользователей в комментариях к новостям газет Guardian, Sydney Morning Herald и телекомпании ABC.

Об этом говорится в статье, опубликованной в журнале Concurrency and Computation.
«Купленные комментарии по своей сути никак не нарушают закон, однако их этическая суть вызывает вопросы у многих людей. С другой стороны, они существуют так же долго, как и сами социальные сети. Их используют для самых разных целей. Предприниматели могут так рекламировать свои услуги или товары, или, наоборот, подрывать образ конкурентов, используя подставных лиц и троллей», — заявил Раймон Чу (Raymond Choo) из университета Техаса в Сан-Антонио (США).
Помимо корпораций, подобными «услугами» часто, как заявляют многие люди в сети, пользуются политики, пытающиеся создать иллюзию массовой поддержки себя избирателями. В качестве примеров Чу называет крупнейшие политические фигуры в США – Джорджа Буша-младшего и текущих кандидатов в президенты Хиллари Клинтон и Дональда Трампа.

Как правило, все проплаченные комментарии генерируются одинаковым образом – один человек или группа из нескольких «ботоводов» или «троллей» создает десятки или сотни внешне не связанных аккаунтов в соцсетях и на сайтах СМИ и публикуют однотипные записи в блогах и комментарии к конкретным новостям или событиям. Этот информационный «шум» генерирует определенную повестку дня, которая может быть подхвачена «мейнстримом» и размножена самостоятельно, уже без участия породивших ее интернет-«кукловодов».

Так как главная задача «троллей» состоит именно в создании большой массы контента, а не в обеспечении его качества, их посты от лица разных пользователей часто состоят из однотипных сообщений с минимальными изменениями в синтаксическом и семантическом содержании текста. Этот фактор, как предположили Чу и его коллеги, является «ахиллесовой пятой» троллей, по которой их можно достаточно легко вычислить.

Руководствуясь этой идеей, ученые создали алгоритм, который анализировал комментарии и посты в соцсетях и вычислял ботов, извлекая данные об авторском стиле из каждого изучаемого текста и сравнивая их между собой при помощи методики N-грамм. Стиль, как объясняет ученый, в том числе типичную длину слов и приложений, количество оборотов и манеру использования знаков препинания, гораздо сложнее поменять, чем сами слова, что почти безошибочно выдает троллей и ботов.

Используя эту методику, ученые раскрыли сразу несколько пользователей сайтов газет Guardian, The Sydney Herald и австралийского отделения телерадиокомпании ABC, которые оставляли сотни комментариев под разными аккаунтами, критикуя Лейбористскую партию, главную оппозиционную силу в Австралии, и защищая интересы правящих консервативных кругов.

Проверив работу этой методики в «поле», Чу и его коллеги планируют использовать ее для наблюдений за выборами США, а также для диссертационных расследований и поиска плагиата в научных публикациях. Как надеются ученые, созданная ими программа поможет людям лучше сопротивляться пропаганде и меньше подчиняться мнениям троллей и ботов при выборе того или иного решения.