March 22, 2022

Эхо Москвы Архив

P1 / 20march

Прошло три недели, как радио замолчало, на ее частоте звучит СимоньянFM.

За это время ребята из НЦА сделали слепок сайта, архив в формате WARC.

Понадобилось какое-то время, чтобы его скачать, найти в облаке место (порядка 175Гб). Работа с ним не клеилась, после многих попыток открыть и сделать читаемое, удалось завести слепок сайта, без оформления, пользоваться им не было никакой реальной возможности, ни один переход по ссылкам не работал.

Потом выложили список mp3 urls, которые можно было бы стянуть wget'ом. Это удалось.

Беглый анализ показал, что там есть теги, какая-та мета-инфа есть в именах.

Filenames
IDv3 Tags

Всего 23819 файла.

Теперь осталось придумать:

  • как проиндексировать;
  • как сделать поиск;
  • как сделать webUI.

P2 / 25march

Пришлось уточнить скачки, судя по всему файлы то доступны - то нет, но 5xx ошибка частенько все-таки встречается. Стал вспоминать, что еще есть кроме wget для массовой скачки, нашел про aria2, вспомнил что уже использовал эту утилиту и читал про нее. Умеет в несколько потоков и logging.

Теперь файлов 29000.

P2.0.1 / 26march

Опять пришлось уточнить количество файлов, выяснилось что есть битые, теперь файлов 25463