Мысли
March 19

Как скачать сайт с wayback machine

1. Ставим Ruby с официального сайта. Не забываем про переменную среды PATH. По итогу вызов в командной консоли (cmd.exe) команды ruby -v должен выдавать версию установленного Ruby.

2. Ставим Wayback Machine Downloader

https://github.com/hartator/wayback-machine-downloader не работает. Там есть фикс, который не применён. Без фикса скачивальщик начинает чрезмерно нагружать Wayback-сайт запросами, и тот его немного подбанивает - в итоге значительная часть страниц при скачке большого сайта не скачается.

Этот фикс в форке тут: https://github.com/ShiftaDeband/wayback-machine-downloader (скачать: нажать Code - Download ZIP). Медленнее, но надёжнее.

3. Запуск: распаковать, зайти в папку bin, открыть командную консоль, ввести:

ruby wayback_machine_downloader сайт параметры

Подробное описание параметров по ссылке на гитхаб. Ускорение потоками может привести к подбаниванию скачивальщика - часть страниц не скачается.

Пример команды:

ruby wayback_machine_downloader https://neprivet.com/

eng version

How to download a website from a wayback machine

1. Install Ruby from the official website. Don't forget about the PATH environment variable. As a result, calling the command ruby -v in the command prompt (cmd.exe) should display the version of installed Ruby.

2. Install Wayback Machine Downloader

https://github.com/hartator/wayback-machine-downloader doesn't work. There is a fix that has not been applied. Without a fix, the downloader begins to overload the Wayback archive with requests, and it bans some of them - as a result, when downloading a large site a significant part of the pages will not be downloaded.

This fix is in the fork here: https://github.com/ShiftaDeband/wayback-machine-downloader (to download: click Code - Download ZIP). Slower, but more reliable.

3. To launch: unpack, go to the bin folder, open the command prompt, enter:

ruby wayback_machine_downloader website parameters

For a detailed description of the parameters, follow the link to GitHub. Acceleration by streams can lead to the downloader being banned - some pages will not be downloaded. Example command:

ruby wayback_machine_downloader https://neprivet.com/