Data Mining социума: агрессивность в соцмедиа и новейшие технологии ее выявления
Соцмедиа стали ключевым каналом коммуникации как внутри социума, так и между бизнесом и его клиентами. Одна из главных особенностей и одновременно проблем этого канала – нетабуированная агрессия, порой выливающаяся в массовый кибербуллинг в отношении и отдельных людей, и целых корпораций. Лингвистическая лаборатория Brand Analytics (научный руководитель – Алексей Соловьев) разработала уникальную для России технологию автоматического выявления агрессии и провела исследование феномена агрессии и агрессивности в русскоязычных социальных медиа. Предлагаем ознакомиться с основными результатами исследования.
Введение
Понятие «ноосфера» было предложено французским профессором математики Эдуардом Леруа, который трактовал её как «мыслящую» оболочку, формирующуюся человеческим сознанием. Интернет по своим функциям является если не прообразом такой ноосферы, то ее важной составляющей. Благодаря своей свободе, способности накапливать и сохранять знания, а также культурное наследие человечества, интернет становится инструментом для устойчивого развития общества.
Понятно, что хаотичное накопление знаний приведет к информационному коллапсу. Поэтому возникает необходимость в системах обработки знаний, их сжатию и упорядочиванию. Однако все современные системы data mining скорее подобны элементам работы коры головного мозга: нечеткая логика, классификация, кластеризация. Лимбическая[1]и паралимбическая[2] системы мозга, отвечающие за эмоции, пока не попали в сферу моделирования искусственного интеллекта. Да, компьютер можно обучить распознаванию основополагающих эмоций в тексте. Но если принять точку зрения некоторых когнитивных психологов, что само познание кодируется эмоциями, которые и определяют мыслительный процесс, то на таком уровне пока рано говорить о полноценном ИИ.
В этой статье мы говорим об агрессивности и агрессии. Агрессивность – неотъемлемая черта каждого человека, движущая сила эволюции. Эта тема неплохо разработана в этологии[3], занимающейся изучением поведения животных, в психологии и социобиологии. При этом изучение агрессивности с точки зрения ее проявления в естественном языке пока достаточно слабо представлено в научно-технической сфере. Опубликованные работы в основном затрагивают не столько язык, сколько речь со своей спецификой, учитывающей физиологические характеристики.
Однако технологическое развитие диктует новые требования к безопасности в киберпространстве, которое пока состоит в основном из текстов. Новые лингвистические алгоритмы позволяют выявить не только потенциальные угрозы, но и определить тип и направленность агрессии, выявить ее источник и причину. Так, потенциально важными составными элементами агрессии являются харасмент, расизм, сексизм, троллинг, кибербуллинг и некоторые другие.
Таким образом, агрессивность и агрессия становятся важными характеристиками эмотивного анализа текста, маркером состояния социального общества. Чтобы двигаться дальше давайте определим основные понятия. Что же такое агрессивность и агрессия?
Агрессия и агрессивность
Несмотря на разнообразие определений агрессии, во всех вариантах можно отметить главный, основополагающий критерий.
Под агрессией понимается направленное воздействие на объект с целью нанести ему ущерб. Но что же такое ущерб и как его можно нанести с помощью текста? Прежде всего, это намеренное снижение статуса субъекта или объекта сообщения, которое может выражаться как прямым воздействием на субъект, так и косвенным – описание своего экспрессивно-негативного отношения к чему-либо или кому-либо. Следует отметить, что лингвистическая агрессия, в отличие от биологической и этологической формулировок, может представлять собой не только факт такого воздействия, но и активный призыв к таким действиям. Пожалуй, основным необходимым, но не достаточным условием проявления лингвистической агрессии является нарушение общепринятого языкового поведения. К достаточным условиям следует отнести направленность агрессивной лексики на объект или субъект.
Агрессивность – накапливаемая негативная энергия, которая потенциально может стать агрессией, а может ритуализоваться (например, в виде плача, смеха и пр.). Агрессивности так же присуще нарушение общепринятого языкового поведения, но, в отличие от агрессии, здесь лексика не имеет своей целью воздействие или призыв к воздействию с целью нанесения ущерба, хотя потенциально содержит предпосылки для возникновения агрессии. Таким образом, агрессивность в отличие от агрессии есть не воздействие на объект или субъект, а языковая реакция субъекта вследствие его внутренней неудовлетворенности, например, из-за негативного воздействия на него внешнего окружения.
Иначе говоря, агрессивность можно рассматривать как эмоцию (причем генеративную эмоцию, порождающую другие), а агрессию как тип поведения или отклонения от нормы поведения.
Функции лингвистической агрессивности
Поскольку мы будем говорить о лингвистической агрессивности, то определим ее функции. Частично они будут совпадать с функциями инвективной[4] лексики.
Известный современный лингвист Стивен Пинкер выделяет пять таких функций:
Все эти функции, за исключением описательной, в большей степени имеют отношение к агрессивности. Описательная функция свойственна людям, в основе речевого поведения которых лежит инвективная лексика, и ее употребление является для них нормой. Катартическая функция агрессивности относится к чистой эмоции, все остальные – в основном к типу поведения.
Агрессивную функцию мы разделили на составляющие:
Материал для исследования
Исследование проводилось на двух типах материалов из открытых русскоязычных интернет-источников:
Словари агрессивной лексики
Для исследования агрессивности и агрессии экспертами-лингвистами были созданы словари агрессивной лексики, разделенные по типам агрессии и частям речи:
Общий объем словарей агрессивной лексики – более 2 000 лемматизированных[6] слов. В словари вошли не только грамматически правильные слова, но и наиболее часто употребляемые сленговые словоупотребления.
Слова были разделены на две группы. К первой группе была отнесена лексика, которая практически всегда встречается в агрессивном контексте (например, «быдло», «возбухать», «похрену») – им ставился вес единица. Ко второй группе отнесли слова, которые встречаются как в агрессивном контексте, так и нет (например, «развалюха», «туповато», «гадостный») – им ставился нулевой вес. Это было сделано для того, чтобы учитывать вес слова при подсчете агрессии.
На основе этих словарей были сгенерированы все словоформы с учетом частей речи. В итоге получилось более 51 000 словоформ.
Анализ агрессивности на частотном распределении
На частотном распределении было обнаружено около 5% от всех полученных на основе словарей агрессивной лексики словоформ. На рисунке 1 показано нормированное распределение агрессивной лексики за декабрь 2018 года по частям речи в относительных значениях.
Рис.1. Нормированное распределение агрессивной лексики по частям речи в относительных значениях, декабрь 2018 г. По абсциссе – дата. verb – глаголы, intr_adv – междометия и наречия, adj – прилагательные, noun_A – существительные типа агрессии А, noun_B — существительные типа агрессии В, noun_C — существительные типа агрессии С.
Несмотря на небольшой объем словаря, значительный отрыв тут имеют группы наречий и междометий. Таким образом, лексическая агрессивность в основном заключена в междометиях и наречиях (по интенсивности употребления – около 70% от всех частей речи).
Также можно заметить, что кривые по частям речи близки по форме. Это значит, что агрессивная лексика качественно не зависит от частей речи (только количественно).
Интересно, что в отсутствие ярких событий коэффициент корреляции между частотным распределением и агрессивностью является высоким. Иначе говоря, агрессивность в такой период зависит от количества сообщений.
Если происходят яркие события, то указанная корреляция отсутствует. Для подтверждения этого факта можно посмотреть на декабрь 2017 года (см. рисунок 2), где коэффициент корреляции принял отрицательное значение -0.79, что говорит о почти полном отсутствии корреляции. Здесь агрессивность определяют события, но не количество сообщений.
Рис.2. Суммарное нормированное распределение агрессивной лексики за декабрь 2017 г.
В декабре 2017 года в общественно-политической жизни ноосферы произошло несколько заметных событий. Например, рост агрессивности в начале декабря связан с нагнетанием обстановки вокруг Олимпиады, а самый большой пик вызван вынесением МОК приговора российской сборной (решение было принято 5 декабря, но «шар» докатился к 10 декабря). Пик в середине декабря, по всей видимости, связан с решением суда по делу Алексея Улюкаева (15 декабря), на которое еще наложилась ежегодная пресс-конференция Президента РФ В.В. Путина (14 декабря).
Аналогичные графики были получены и по некоторым другим месяцам. Например, на рисунке 3 показано распределение агрессивной лексики в марте 2018 года Коэффициент корреляции за март между суммарным распределением и агрессивностью был относительно низкий и составил 0,13.
Рис.3. Суммарное нормированное распределение агрессивной лексики за март 2018 г.
Этот месяц также был насыщен знаковыми событиями общественно-политической жизни. Пик 5-7 числа соответствует первой реакции на дело Скрипалей (начало – 5 марта), а 8-12 марта – вторая реакция, когда стало ясно, что все серьезно (активное муссирование новости, выдворение российских дипломатов из Великобритании). Пик в районе 23 марта скорее всего вызван окончательным решением суда о блокировке мессенджера Telegram. А провал 25-27 марта – спад агрессивности вследствие пожара в Кемерово (25 марта). Наконец, подъем агрессивности в конце марта связан с высылкой российских дипломатов ЕС, США и Канадой.
Анализ агрессивности на материале соцмедиа
В рамках исследования было проанализировано более 7 млн. сообщений. Примерно 5% сообщений из общего числа содержали агрессивность.
Распределение агрессивности по полу и возрасту
Относительная агрессивность мужской части пользователей ожидаемо в два раза выше, чем женской: ~2,5% от общего количества документов имеют метку male, ~1,2% – метку female.
Распределение агрессивности между мужской и женской частями социума имеет различную картину (см. рисунок 4).
Рис.4. Распределение агрессивности по возрасту и полу. По оси абсцисс — возраст,по оси ординат – количество сообщений, в которых найдена агрессивность.
Обе кривых имеют подъемы в юности (14-19 лет) и молодости (25-35 лет). Затем у мужчин агрессивность постепенно спадает, а у женщин, наоборот, имеет еще один пик — в области 55-65 лет.
Распределение агрессивности и агрессии по доменам
Распределение агрессивности (рисунок 5) и агрессии (рисунок 6) по доменам показало, что и то и другое присуще, прежде всего:
За ними с некоторым отставанием следует категория женских сайтов (woman.ru, eva.ru) и форумы автолюбителей (forums.drom.ru, forum.auto.ru).
Рис.5. Распределение агрессивности по некоторым русскоязычным доменам.
Примечательно, что политические площадки (echo.msk.ru, politforums.net) в рейтинге по агрессии (рисунок 6) немного, но улучшили свои позиции по сравнению с рейтингом агрессивности (рисунок 5). При этом корреляция между количеством сообщений по доменам и агрессивностью или агрессией практически отсутствует: -0,18 и -0,04 соответственно. То есть для указанных площадок изначально характерны агрессия и агрессивность, и это не зависит от объема сообщений.
Рис.6. Распределение агрессии по некоторым русскоязычным доменам.
Анализ по типам агрессии
Анализ по типам агрессии в соответствии с предложенной нами классификацией показал, что:
Коэффициент отношения общего количества документов, содержащих агрессивность к общему количеству документов, содержащих агрессию на данной выборке, составил:
k = aggressiveness/aggressive = 0.86
То есть агрессия в соцмедиа встречается даже чаще агрессивности.
Выводы исследования
Подводя итог, можно с уверенностью сказать, что агрессивность и агрессия становятся важной характеристикой эмотивного анализа текста, являясь маркером состояния социально-общественной деятельности людей. Автоматическое выявление агрессии дает возможность на ранней стадии обнаруживать проблемные зоны в инфополе как вокруг бизнеса, так и в социальной сфере. Важно отметить, что, в отличие от безадресного негатива, агрессия направлена от актора на конкретный объект. Своевременное выявление этого вектора позволяет эффективнее предотвращать отрицательные последствия.
Развитие подобных методов интеллектуального анализа текста для задач искусственного интеллекта — общемировой тренд. Например, методам выявления разных типов агрессии в онлайн-пространстве посвящены итоговые публикации 27-й Международной конференции по компьютерной лингвистике COLING 2018(Санта-Фе, США) и 55-й ежегодной встречи Ассоциации вычислительной лингвистики(Ванкувер, Канада).
Отметим, что мы уже внедрили в аналитическую систему Brand Analytics технологии автоматического выявления агрессии. Новый функционал доступен клиентам и партнерам Brand Analytics, о чем мы уже написали отдельную новость.
Примечания
1. Лимбическая система — наиболее древняя часть коры головного мозга, расположенная на внутренней стороне больших полушарий; отвечает за первичные эмоции, мотивацию, вегетативные и соматические реакции и т.д.
2. Паралимбическая система — промежуточная кора головного мозга между лимбической и третичной корой, отвечающая за интеграцию первичных эмоций и инстинктов с внешним опытом и логическим мышлением.
3. Этология — наука, изучающая поведение животных, в том числе людей.
4. Инвективная лексика, инвектива — от лат. invectiva — бранная речь.
5. Номинативный — назывательный, служащий для обозначения (предметов, явлений, качеств, действий).
6. Лемматизация или нормализация — процесс приведения словоформы к лемме — её нормальной (словарной) форме.