Анализ рецензий с сайта pitchfork.com
Я учусь на аналитика данных. В целом, это достаточно занимательная сфера деятельности, поскольку есть возможность проанализировать практически все доступные тебе данные. Недавно мы с моим одногруппником провели небольшое исследование по математической лингвистике, основанное на рецензиях с сайта https://pitchfork.com/ c 1999 по январь 2017. Данные брали с сайта kaggle.com (https://www.kaggle.com/datasets/nolanbconaway/pitchfork-data). Результаты получились довольно занимательными.
Сначала давайте посмотрим на график распределения оценок всех рецензий
В целом видно, что авторы питчфорка часто ставят оценки от 6 и выше. Больше всего наблюдаем оценку 8. А еще замечаем, что есть пара ревью с нулевым скором. Посмотрим на них более детально:
Таких рецензий 5. Кому интересно, вот ссылки для ознакомления с дном музыки по мнению авторов питчфорка:
- Various Artists - This Is Next https://pitchfork.com/reviews/albums/10571-this-is-next/Robert
- Pollard - Relaxation of the Asshole https://pitchfork.com/reviews/albums/6383-relaxation-of-the-asshole/
- Travis Morrison - Travistan https://pitchfork.com/reviews/albums/5607-travistan/
- Liz Phair - Liz Phair https://pitchfork.com/reviews/albums/6255-liz-phair/
- Sonic Youth - NYC Ghosts & Flowers https://pitchfork.com/reviews/albums/7342-nyc-ghosts-flowers/
Сразу видим Брайана Ино, Стиви Вандера и Нину Симон.
Процентное соотношение рецензий:
Далее с помощью векторизации и логистической регрессии мы получили датасет, который состоит из двух столбцов: в первом находятся отдельно взятые слова из рецензий, а во втором - вес данного слова, или его коэффициент. Каждый коэффициент означает, насколько сильно наличие данного слова в обзоре влияет на то, будет обзор положительным или отрицательным (в рамках данного исследования мы считали ревью положительным, если оценка 7 и выше, а отрицательным - ниже 7). Грубо говоря, получившаяся таблица говорит о том, насколько в high-score или low-score обзоре то или иное слово встречается чаще. Если у слова вес больше 0, то его вероятнее встретить в положительных ревью, и наоборот - если меньше 0, то в отрицательных.
При рассмотрении результатов стоит учитывать несколько моментов:
- Некоторые слова являются омонимами. Например, “west” может означать как сторону света, так и Канье Уеста, а “twin” - близнеца и Афекса Твина. Такое происходит из-за того, что в процессе формирования результатов регистр не учитывался и автоматически приводился к нижнему.
- Мы намеренно убрали из датасета так называемые “стоп-слова”. Это предлоги, союзы, местоимения, артикли и т.д. В общем, все то, что не несёт смысловой нагрузки.
- В таблице скорее всего нет имен исполнителей, которые стали известными в 2017 году и позже (напоминаю, что изначальный набор данных состоит из ревью с 1999 по январь 2017). Исключение - если артист был на фите с кем-то до этого, либо упоминался в рецензиях на другие релизы.
- Нельзя точно посмотреть по полному названию группы или имени артиста, в каких они ревью встречаются, если их названия/имена состоят из 2х и более слов. Датасет может сориентировать вас только по одному слову.
Я выписала самые интересные слова с наибольшим положительным коэффициентом:
На питчфорке котируют джаз, техно (???), черную музыку, Битлов, американскую и британскую музыку. Небольшая ремарка: в начале списка также было много прилагательных и наречий, с помощью которых обычно восторженно описывают что-либо. Например, perfect, impressive, excellent, beautiful, remarkable, etc.
Окей, а что со словами, которые в конце датасета?
- predictable
- awkward
- disappointing
- promising
- worst
- attempt
- lack
- nice
- pleasant
- better
- sad
- interesting
- little
- worse
- decent
- unfortunately
Очевидно, что мы встретили кучу прилагательных и наречий с негативной коннотацией. Посмеялась со слов “interesting” и “nice”. Поняла, что иногда отвечаю людям также о вещах, которые им нравятся, а мне нет)))
А теперь самая интересная часть. Давайте посмотрим, в каких ревью чаще всего встречаются те или иные исполнители. Я рандомно искала артистов, которых вспоминала в моменте написания кода.
Теперь посмотрим на артистов, наиболее часто упомянутых в негативных обзорах:
Вы можете сами поиграться с поиском слов. Для этого, вам потребуется скачать файл weights.csv из гугл диска и через ctrl+F ввести желаемое слово.
Ссылка на гугл диск: https://drive.google.com/drive/folders/16EVcq0yktyGSGCNEiHfL-yqgZX6vZ8Pw
Полностью код можно посмотреть тут:
https://github.com/olticher/math_ling/blob/main/pitchfork.ipynb
P.S. Большое спасибо Антону Александрину за совместную работу над этим проектом!