May 29, 2022

Анализ рецензий с сайта pitchfork.com

Я учусь на аналитика данных. В целом, это достаточно занимательная сфера деятельности, поскольку есть возможность проанализировать практически все доступные тебе данные. Недавно мы с моим одногруппником провели небольшое исследование по математической лингвистике, основанное на рецензиях с сайта https://pitchfork.com/ c 1999 по январь 2017. Данные брали с сайта kaggle.com (https://www.kaggle.com/datasets/nolanbconaway/pitchfork-data). Результаты получились довольно занимательными. 

Сначала давайте посмотрим на график распределения оценок всех рецензий

В целом видно, что авторы питчфорка часто ставят оценки от 6 и выше. Больше всего наблюдаем оценку 8. А еще замечаем, что есть пара ревью с нулевым скором. Посмотрим на них более детально:

Таких рецензий 5. Кому интересно, вот ссылки для ознакомления с дном музыки по мнению авторов питчфорка:

  1. Various Artists - This Is Next https://pitchfork.com/reviews/albums/10571-this-is-next/Robert
  2. Pollard - Relaxation of the Asshole https://pitchfork.com/reviews/albums/6383-relaxation-of-the-asshole/
  3. Travis Morrison - Travistan https://pitchfork.com/reviews/albums/5607-travistan/
  4. Liz Phair - Liz Phair https://pitchfork.com/reviews/albums/6255-liz-phair/
  5. Sonic Youth - NYC Ghosts & Flowers https://pitchfork.com/reviews/albums/7342-nyc-ghosts-flowers/

Релизов с оценкой 10/10 - 76:

Сразу видим Брайана Ино, Стиви Вандера и Нину Симон.

Процентное соотношение рецензий:

  • С оценкой 7 и выше - 56.1%
  • С оценкой ниже 7 - 43.9%

Далее с помощью векторизации и логистической регрессии мы получили датасет, который состоит из двух столбцов: в первом находятся отдельно взятые слова из рецензий, а во втором - вес данного слова, или его коэффициент. Каждый коэффициент означает, насколько сильно наличие данного слова в обзоре влияет на то, будет обзор положительным или отрицательным (в рамках данного исследования мы считали ревью положительным, если оценка 7 и выше, а отрицательным - ниже 7). Грубо говоря, получившаяся таблица говорит о том, насколько в high-score или low-score обзоре то или иное слово встречается чаще. Если у слова вес больше 0, то его вероятнее встретить в положительных ревью, и наоборот - если меньше 0, то в отрицательных.

При рассмотрении результатов стоит учитывать несколько моментов:

  • Некоторые слова являются омонимами. Например, “west” может означать как сторону света, так и Канье Уеста, а “twin” - близнеца и Афекса Твина. Такое происходит из-за того, что в процессе формирования результатов регистр не учитывался и автоматически приводился к нижнему.
  • Мы намеренно убрали из датасета так называемые “стоп-слова”. Это предлоги, союзы, местоимения, артикли и т.д. В общем, все то, что не несёт смысловой нагрузки.
  • В таблице скорее всего нет имен исполнителей, которые стали известными в 2017 году и позже (напоминаю, что изначальный набор данных состоит из ревью с 1999 по январь 2017). Исключение - если артист был на фите с кем-то до этого, либо упоминался в рецензиях на другие релизы.
  • Нельзя точно посмотреть по полному названию группы или имени артиста, в каких они ревью встречаются, если их названия/имена состоят из 2х и более слов. Датасет может сориентировать вас только по одному слову. 

Я выписала самые интересные слова с наибольшим положительным коэффициентом:

  • reissue
  • jazz
  • techno
  • guitar
  • classic
  • noise
  • bass
  • black
  • violin
  • beatles
  • vinyl
  • american
  • rhythmic
  • funk
  • punk
  • England

На питчфорке котируют джаз, техно (???), черную музыку, Битлов, американскую и британскую музыку. Небольшая ремарка: в начале списка также было много прилагательных и наречий, с помощью которых обычно восторженно описывают что-либо. Например, perfect, impressive, excellent, beautiful, remarkable, etc.

Окей, а что со словами, которые в конце датасета?

  • predictable
  • awkward
  • disappointing
  • promising
  • worst
  • attempt
  • lack
  • nice
  • pleasant
  • better
  • sad
  • interesting
  • little
  • worse
  • decent
  • unfortunately

Очевидно, что мы встретили кучу прилагательных и наречий с негативной коннотацией. Посмеялась со слов “interesting” и “nice”. Поняла, что иногда отвечаю людям также о вещах, которые им нравятся, а мне нет)))

А теперь самая интересная часть. Давайте посмотрим, в каких ревью чаще всего встречаются те или иные исполнители. Я рандомно искала артистов, которых вспоминала в моменте написания кода. 

Aphex Twin - средняя оценка 7 и выше

Kanye West с оценками выше, чем у Афекса

Далее идет Кендрик

Мой любимый Nicolas Jaar

Little Simz еще выше!

Теперь посмотрим на артистов, наиболее часто упомянутых в негативных обзорах:

Искренне удивилась, увидев результат по Radiohead. И это учитывая то, что за альбом "Kid A" у них стоит 10/10

Сольное творчество Тома Йорка в рейтинге идет повыше

Удивительно, но мой горячо обожаемый Джон Фрушанте тоже достаточно низко. Хотя здесь стоит отметить, что он скорее всего часто упоминался в ревью на RHCP

Здесь абсолютно не удивлена

Ну и финальное: Coldplay!

Вы можете сами поиграться с поиском слов. Для этого, вам потребуется скачать файл weights.csv из гугл диска и через ctrl+F ввести желаемое слово. 

Ссылка на гугл диск: https://drive.google.com/drive/folders/16EVcq0yktyGSGCNEiHfL-yqgZX6vZ8Pw 

Полностью код можно посмотреть тут:

https://github.com/olticher/math_ling/blob/main/pitchfork.ipynb

P.S. Большое спасибо Антону Александрину за совместную работу над этим проектом!