Эхо Москвы Архив
P1 / 20march
Прошло три недели, как радио замолчало, на ее частоте звучит СимоньянFM.
За это время ребята из НЦА сделали слепок сайта, архив в формате WARC.
Понадобилось какое-то время, чтобы его скачать, найти в облаке место (порядка 175Гб). Работа с ним не клеилась, после многих попыток открыть и сделать читаемое, удалось завести слепок сайта, без оформления, пользоваться им не было никакой реальной возможности, ни один переход по ссылкам не работал.
Потом выложили список mp3 urls, которые можно было бы стянуть wget'ом. Это удалось.
Беглый анализ показал, что там есть теги, какая-та мета-инфа есть в именах.
P2 / 25march
Пришлось уточнить скачки, судя по всему файлы то доступны - то нет, но 5xx ошибка частенько все-таки встречается. Стал вспоминать, что еще есть кроме wget для массовой скачки, нашел про aria2, вспомнил что уже использовал эту утилиту и читал про нее. Умеет в несколько потоков и logging.
P2.0.1 / 26march
Опять пришлось уточнить количество файлов, выяснилось что есть битые, теперь файлов 25463