<?xml version="1.0" encoding="utf-8" ?><feed xmlns="http://www.w3.org/2005/Atom" xmlns:tt="http://teletype.in/" xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/"><title>Дарья Плотская</title><author><name>Дарья Плотская</name></author><id>https://teletype.in/atom/olticher</id><link rel="self" type="application/atom+xml" href="https://teletype.in/atom/olticher?offset=0"></link><link rel="alternate" type="text/html" href="https://teletype.in/@olticher?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=olticher"></link><link rel="next" type="application/rss+xml" href="https://teletype.in/atom/olticher?offset=10"></link><link rel="search" type="application/opensearchdescription+xml" title="Teletype" href="https://teletype.in/opensearch.xml"></link><updated>2026-04-17T19:25:36.975Z</updated><entry><id>olticher:pitchfork</id><link rel="alternate" type="text/html" href="https://teletype.in/@olticher/pitchfork?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=olticher"></link><title>Анализ рецензий с сайта pitchfork.com</title><published>2022-05-29T18:41:17.152Z</published><updated>2022-05-29T20:03:58.339Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img2.teletype.in/files/95/33/9533f6e7-3e13-4fe5-a329-0c9917c4b089.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img4.teletype.in/files/b1/c7/b1c7fa4d-72c4-49da-bd2c-1674ec2bbb42.png&quot;&gt;Я учусь на аналитика данных. В целом, это достаточно занимательная сфера деятельности, поскольку есть возможность проанализировать практически все доступные тебе данные. Недавно мы с моим одногруппником провели небольшое исследование по математической лингвистике, основанное на рецензиях с сайта https://pitchfork.com/ c 1999 по январь 2017. Данные брали с сайта kaggle.com (https://www.kaggle.com/datasets/nolanbconaway/pitchfork-data). Результаты получились довольно занимательными. </summary><content type="html">
  &lt;p id=&quot;q12H&quot;&gt;Я учусь на аналитика данных. В целом, это достаточно занимательная сфера деятельности, поскольку есть возможность проанализировать практически все доступные тебе данные. Недавно мы с моим одногруппником провели небольшое исследование по математической лингвистике, основанное на рецензиях с сайта https://pitchfork.com/ c 1999 по январь 2017. Данные брали с сайта kaggle.com (&lt;a href=&quot;https://www.kaggle.com/datasets/nolanbconaway/pitchfork-data&quot; target=&quot;_blank&quot;&gt;https://www.kaggle.com/datasets/nolanbconaway/pitchfork-data&lt;/a&gt;). Результаты получились довольно занимательными. &lt;/p&gt;
  &lt;p id=&quot;Dvds&quot;&gt;Сначала давайте посмотрим на график распределения оценок всех рецензий&lt;/p&gt;
  &lt;figure id=&quot;nyS5&quot; class=&quot;m_column&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/b1/c7/b1c7fa4d-72c4-49da-bd2c-1674ec2bbb42.png&quot; width=&quot;395&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;amhv&quot;&gt;В целом видно, что авторы питчфорка часто ставят оценки от 6 и выше. Больше всего наблюдаем оценку 8. А еще замечаем, что есть пара ревью с нулевым скором. Посмотрим на них более детально:&lt;/p&gt;
  &lt;figure id=&quot;jzwk&quot; class=&quot;m_column&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/8c/01/8c01a23d-332d-4600-95a2-a5407d82530e.jpeg&quot; width=&quot;1365&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;L0os&quot;&gt;Таких рецензий 5. Кому интересно, вот ссылки для ознакомления с дном музыки по мнению авторов питчфорка:&lt;/p&gt;
  &lt;ol id=&quot;lCsk&quot;&gt;
    &lt;li id=&quot;DeAh&quot;&gt;&lt;strong&gt;Various Artists - This Is Next &lt;a href=&quot;https://pitchfork.com/reviews/albums/10571-this-is-next/Robert&quot; target=&quot;_blank&quot;&gt;https://pitchfork.com/reviews/albums/10571-this-is-next/Robert&lt;/a&gt; &lt;/strong&gt;&lt;/li&gt;
    &lt;li id=&quot;LZPA&quot;&gt;&lt;strong&gt;Pollard - Relaxation of the Asshole &lt;a href=&quot;https://pitchfork.com/reviews/albums/6383-relaxation-of-the-asshole/Travis&quot; target=&quot;_blank&quot;&gt;https://pitchfork.com/reviews/albums/6383-relaxation-of-the-asshole/&lt;/a&gt;&lt;/strong&gt;&lt;/li&gt;
    &lt;li id=&quot;FGTX&quot;&gt;&lt;strong&gt;Travis Morrison - Travistan &lt;a href=&quot;https://pitchfork.com/reviews/albums/5607-travistan/Liz&quot; target=&quot;_blank&quot;&gt;https://pitchfork.com/reviews/albums/5607-travistan/&lt;/a&gt;&lt;/strong&gt;&lt;/li&gt;
    &lt;li id=&quot;X4G8&quot;&gt;&lt;strong&gt;Liz Phair - Liz Phair &lt;a href=&quot;https://pitchfork.com/reviews/albums/6255-liz-phair/Sonic&quot; target=&quot;_blank&quot;&gt;https://pitchfork.com/reviews/albums/6255-liz-phair/&lt;/a&gt;&lt;/strong&gt;&lt;/li&gt;
    &lt;li id=&quot;aSTB&quot;&gt;&lt;strong&gt;Sonic Youth - NYC Ghosts &amp;amp; Flowers &lt;a href=&quot;https://pitchfork.com/reviews/albums/7342-nyc-ghosts-flowers/&quot; target=&quot;_blank&quot;&gt;https://pitchfork.com/reviews/albums/7342-nyc-ghosts-flowers/&lt;/a&gt;&lt;/strong&gt;&lt;/li&gt;
  &lt;/ol&gt;
  &lt;p id=&quot;fNle&quot;&gt;Релизов с оценкой 10/10 - 76:&lt;/p&gt;
  &lt;figure id=&quot;1QZy&quot; class=&quot;m_column&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/a2/6f/a26fcf6a-1a17-4dfd-8aa2-886f215b7c7e.jpeg&quot; width=&quot;1222&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;dMr2&quot;&gt;Сразу видим Брайана Ино, Стиви Вандера и Нину Симон.&lt;/p&gt;
  &lt;figure id=&quot;zvt5&quot; class=&quot;m_column&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/9d/ea/9dea62db-3d3e-4fec-b871-5f126e7f5503.jpeg&quot; width=&quot;746&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;sfEJ&quot;&gt;Процентное соотношение рецензий:&lt;/p&gt;
  &lt;ul id=&quot;Kdsv&quot;&gt;
    &lt;li id=&quot;wgOH&quot;&gt;С оценкой 7 и выше - 56.1%&lt;/li&gt;
    &lt;li id=&quot;dnNk&quot;&gt;С оценкой ниже 7 - 43.9%&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;2V2H&quot;&gt;Далее с помощью векторизации и логистической регрессии мы получили датасет, который состоит из двух столбцов: в первом находятся отдельно взятые слова из рецензий, а во втором - вес данного слова, или его коэффициент. Каждый коэффициент означает, &lt;strong&gt;насколько сильно наличие данного слова в обзоре влияет на то, будет обзор положительным или отрицательным &lt;/strong&gt;(в рамках данного исследования мы считали ревью положительным, если оценка 7 и выше, а отрицательным - ниже 7). Грубо говоря, получившаяся таблица говорит о том, насколько в high-score или low-score обзоре то или иное слово встречается чаще. Если у слова вес больше 0, то его вероятнее встретить в положительных ревью, и наоборот - если меньше 0, то в отрицательных. &lt;/p&gt;
  &lt;p id=&quot;hOdE&quot;&gt;При рассмотрении результатов стоит учитывать несколько моментов:&lt;/p&gt;
  &lt;ul id=&quot;6RwF&quot;&gt;
    &lt;li id=&quot;CskH&quot;&gt;Некоторые слова являются омонимами. Например, “west” может означать как сторону света, так и Канье Уеста, а “twin” - близнеца и Афекса Твина. Такое происходит из-за того, что в процессе формирования результатов регистр не учитывался и автоматически приводился к нижнему.&lt;/li&gt;
    &lt;li id=&quot;RsXw&quot;&gt;Мы намеренно убрали из датасета так называемые “стоп-слова”. Это предлоги, союзы, местоимения, артикли и т.д. В общем, все то, что не несёт смысловой нагрузки.&lt;/li&gt;
    &lt;li id=&quot;O6xR&quot;&gt;В таблице скорее всего нет имен исполнителей, которые стали известными в 2017 году и позже (напоминаю, что изначальный набор данных состоит из ревью с 1999 по январь 2017). Исключение - если артист был на фите с кем-то до этого, либо упоминался в рецензиях на другие релизы.&lt;/li&gt;
    &lt;li id=&quot;hYaZ&quot;&gt;Нельзя точно посмотреть по полному названию группы или имени артиста, в каких они ревью встречаются, если их названия/имена состоят из 2х и более слов. Датасет может сориентировать вас только по одному слову. &lt;/li&gt;
  &lt;/ul&gt;
  &lt;figure id=&quot;nToX&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ed/95/ed953d20-6041-4156-9c0e-4f73e5197701.jpeg&quot; width=&quot;531&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;1ZrL&quot;&gt;Я выписала самые интересные слова &lt;strong&gt;с наибольшим положительным коэффициентом:&lt;/strong&gt;&lt;/p&gt;
  &lt;ul id=&quot;aXLc&quot;&gt;
    &lt;li id=&quot;wOEB&quot;&gt;reissue&lt;/li&gt;
    &lt;li id=&quot;4x6M&quot;&gt;jazz&lt;/li&gt;
    &lt;li id=&quot;HQFj&quot;&gt;techno&lt;/li&gt;
    &lt;li id=&quot;2tVC&quot;&gt;guitar&lt;/li&gt;
    &lt;li id=&quot;GfIV&quot;&gt;classic&lt;/li&gt;
    &lt;li id=&quot;mUTy&quot;&gt;noise&lt;/li&gt;
    &lt;li id=&quot;JROP&quot;&gt;bass&lt;/li&gt;
    &lt;li id=&quot;CAyc&quot;&gt;black&lt;/li&gt;
    &lt;li id=&quot;sdFP&quot;&gt;violin&lt;/li&gt;
    &lt;li id=&quot;9Aus&quot;&gt;beatles&lt;/li&gt;
    &lt;li id=&quot;v2rn&quot;&gt;vinyl&lt;/li&gt;
    &lt;li id=&quot;NeZZ&quot;&gt;american&lt;/li&gt;
    &lt;li id=&quot;Mu6x&quot;&gt;rhythmic&lt;/li&gt;
    &lt;li id=&quot;YZyC&quot;&gt;funk&lt;/li&gt;
    &lt;li id=&quot;zpdv&quot;&gt;punk&lt;/li&gt;
    &lt;li id=&quot;fub8&quot;&gt;England&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;LRYq&quot;&gt;На питчфорке котируют джаз, техно (???), черную музыку, Битлов, американскую и британскую музыку. &lt;em&gt;Небольшая ремарка:&lt;/em&gt; в начале списка также было много прилагательных и наречий, с помощью которых обычно восторженно описывают что-либо. Например, &lt;strong&gt;perfect, impressive, excellent, beautiful, remarkable, &lt;/strong&gt;etc.&lt;/p&gt;
  &lt;p id=&quot;yi37&quot;&gt;Окей, а что со словами, которые&lt;strong&gt; в конце датасета&lt;/strong&gt;?&lt;/p&gt;
  &lt;ul id=&quot;yend&quot;&gt;
    &lt;li id=&quot;b8pg&quot;&gt;predictable&lt;/li&gt;
    &lt;li id=&quot;msQv&quot;&gt;awkward&lt;/li&gt;
    &lt;li id=&quot;pVey&quot;&gt;disappointing&lt;/li&gt;
    &lt;li id=&quot;47sB&quot;&gt;promising&lt;/li&gt;
    &lt;li id=&quot;iHDx&quot;&gt;worst&lt;/li&gt;
    &lt;li id=&quot;PMxE&quot;&gt;attempt&lt;/li&gt;
    &lt;li id=&quot;Jwoc&quot;&gt;lack&lt;/li&gt;
    &lt;li id=&quot;3zsr&quot;&gt;nice&lt;/li&gt;
    &lt;li id=&quot;lG3M&quot;&gt;pleasant&lt;/li&gt;
    &lt;li id=&quot;1eq8&quot;&gt;better&lt;/li&gt;
    &lt;li id=&quot;zUHk&quot;&gt;sad&lt;/li&gt;
    &lt;li id=&quot;I9dL&quot;&gt;interesting&lt;/li&gt;
    &lt;li id=&quot;u6uR&quot;&gt;little&lt;/li&gt;
    &lt;li id=&quot;BjNm&quot;&gt;worse&lt;/li&gt;
    &lt;li id=&quot;JkK2&quot;&gt;decent&lt;/li&gt;
    &lt;li id=&quot;ifMQ&quot;&gt;unfortunately&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;iuLC&quot;&gt;Очевидно, что мы встретили кучу прилагательных и наречий с негативной коннотацией. Посмеялась со слов “interesting” и “nice”. Поняла, что иногда отвечаю людям также о вещах, которые им нравятся, а мне нет)))&lt;/p&gt;
  &lt;p id=&quot;5LEh&quot;&gt;А теперь самая интересная часть. Давайте посмотрим, в каких ревью чаще всего встречаются те или иные исполнители. Я рандомно искала артистов, которых вспоминала в моменте написания кода. &lt;/p&gt;
  &lt;figure id=&quot;EKoP&quot; class=&quot;m_column&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/6c/3c/6c3c3718-0732-4d85-9009-30a61c9b5c92.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Aphex Twin - средняя оценка 7 и выше&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;IOy2&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;Yrm4&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/58/d4/58d441ec-d8ab-46e4-9dba-ed5057fab79d.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Kanye West с оценками выше, чем у Афекса&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;OKuP&quot;&gt;   &lt;/p&gt;
  &lt;figure id=&quot;CFfp&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/cc/7e/cc7e199c-7dc1-46fd-a6c0-5244284c3232.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Далее идет Кендрик&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;ITif&quot;&gt;  &lt;/p&gt;
  &lt;figure id=&quot;PbFq&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/75/4a/754a8342-45b3-4b23-8060-a5f9b3da48a7.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Мой любимый Nicolas Jaar&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;mCjP&quot;&gt;  &lt;/p&gt;
  &lt;figure id=&quot;d4AC&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/10/4a/104afada-a486-4268-99ab-041e5c6e60d0.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Little Simz еще выше!&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;ghQQ&quot;&gt;  &lt;/p&gt;
  &lt;p id=&quot;dwje&quot;&gt;Теперь посмотрим на артистов, наиболее часто упомянутых &lt;strong&gt;в негативных обзорах:&lt;/strong&gt;&lt;/p&gt;
  &lt;figure id=&quot;aucS&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ad/fc/adfc2cb3-6a36-4650-b193-7c9ac906cb44.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Искренне удивилась, увидев результат по Radiohead. И это учитывая то, что за альбом &amp;quot;Kid A&amp;quot; у них стоит 10/10&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;QOZP&quot;&gt;  &lt;/p&gt;
  &lt;figure id=&quot;RVzj&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/cf/da/cfdad306-7478-4d5a-b0bc-819fe950c897.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Сольное творчество Тома Йорка в рейтинге идет повыше&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;tlwy&quot;&gt;  &lt;/p&gt;
  &lt;figure id=&quot;xwYs&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/73/3c/733c35c0-21fa-4c23-92e0-f092beeb4611.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Удивительно, но мой горячо обожаемый Джон Фрушанте тоже достаточно низко. Хотя здесь стоит отметить, что он скорее всего часто упоминался в ревью на RHCP&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;yOuc&quot;&gt;  &lt;/p&gt;
  &lt;figure id=&quot;LH63&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/68/e1/68e12a4c-6d0d-4377-8cb0-b52cf885d972.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Здесь абсолютно не удивлена&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;eMcy&quot;&gt;  &lt;/p&gt;
  &lt;figure id=&quot;2NUn&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/d6/60/d6606bef-b113-4ec3-81e0-9c4a7f153ce5.png&quot; width=&quot;512&quot; /&gt;
    &lt;figcaption&gt;Ну и финальное: Coldplay!&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;9S03&quot;&gt;  &lt;/p&gt;
  &lt;p id=&quot;8Z2V&quot;&gt;Вы можете сами поиграться с поиском слов. Для этого, вам потребуется скачать файл weights.csv из гугл диска и через ctrl+F ввести желаемое слово. &lt;/p&gt;
  &lt;p id=&quot;r5Bh&quot;&gt;Ссылка на гугл диск: &lt;a href=&quot;https://drive.google.com/drive/folders/16EVcq0yktyGSGCNEiHfL-yqgZX6vZ8Pw&quot; target=&quot;_blank&quot;&gt;https://drive.google.com/drive/folders/16EVcq0yktyGSGCNEiHfL-yqgZX6vZ8Pw&lt;/a&gt; &lt;/p&gt;
  &lt;p id=&quot;zoEE&quot;&gt;Полностью код можно посмотреть тут: &lt;/p&gt;
  &lt;p id=&quot;3GXW&quot;&gt;&lt;a href=&quot;https://github.com/olticher/math_ling/blob/main/pitchfork.ipynb&quot; target=&quot;_blank&quot;&gt;https://github.com/olticher/math_ling/blob/main/pitchfork.ipynb&lt;/a&gt;&lt;/p&gt;
  &lt;p id=&quot;ALSz&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;Cnsp&quot;&gt;&lt;em&gt;P.S. Большое спасибо Антону Александрину за совместную работу над этим проектом!&lt;/em&gt;&lt;/p&gt;

</content></entry></feed>