Исследование webhost.ru
Есть сайт webhost.ru - хостинг сайтов.
На нём есть разные интересные сайты. Как их вытащить? Да очень просто!
https://azibyaqoob.com/download-search-results-excel-spreadsheet/ - гайд как скушать выдачу поисковых систем и не подавиться, читай: как скачать в файлик csv страницу результатов поиска, она же Search engine results page, SERP.
Там нужно скачать расширение SEOQuake, которое позволяет играться с выдачей.
Затем для гугла в настройках поднять для максимума количество ссылок на 1 странице, а для яндекса я такого не нашёл :D но там есть &numdoc=50 вставляемый в адресную строку и расширяющий сознание до 50 ссылок, правда при переходе на следующую страницу всё скинулось на обычное, ну я и забил.
Сводим ссылки из csv в один лист(работаем в excel) и начинаем чистить гуглкэш и всякое ненужное. А из яндекса все ссылки были чистые :3
В чистке поможет: использование функции =ПОИСК("webhost";A1) например во 2 и других столбцах, и последующей сортировке, после которой можно вычистить в данном случае всё то, где нет "webhost"
Гуглкэш чистится "google", ну и там уже визуально посмотреть какие ещё мусорные ссылки и почистить.
Итак, имеем чистые ссылки! Осталось прожать в разделе "Данные" кнопку "Удалить дубликаты" (естественно с выделенным нужным столбцом) и вуалиссимо!
В итоге имеем список ссылок на хостинге webhost.ru, которые были проиндексированы яндексом и гуглом.
Там есть не только заглавные страницы сайта, но и внутренние, так как вполне возможно что не везде есть карта сайта, по которой можно по нему ползать.
Сам файл ниже в формате csv, приятного аппетита!
В файле 319 ссылок.
В продолжение: поиски сайтов на хостинге webhost, он же fatal, он же polubomu продолжаются! Откуда я узнал другие домены? Командой ping webhost.ru в командной строке (вызывается win-r ввести cmd и жмакнуть enter) легко и непринуждённо получаем ip: 193.106.172.60
Его уже можно вкидывать в разные специализированные сайты, вот 2 из них, которые дали наибольшую информацию:
https://2ip.online/domain-list-by-ip
https://suip.biz/ru/?act=hostmap
Сами сайты по себе вкусные, можно и по ним полазить, много интересного есть. Вот что выдал последний по webhost.ru(дубликаты убраны):
xost.ru
webhost.ru
polubomu.ru
ns1.fatal.ru
mx.fatal.ru
fatal.ru.
ad.fatal.ru
https://habr.com/ru/company/hosting-cafe/blog/312954/ вот такую статью нарыл
https://dnsdumpster.com/ один из инструментов, указанных там, он более-менее нормальную выдачу дал, и сохранить в excel можно.
Но вот беда! Есть как и *.webhost.ru так и www.*.webhost.ru строки... Надо как-то убрать www там где он есть. Воспользуемся функционалом excel! Данные - Текст по столбцам - выбираем разделитель точку, и столбец разъезжается по столбцам. Сортируем, сдвигаем строки с www влево, теперь осталось обратно это чудо из трёх столбцов собрать...
="http://"&A1&"."&B1&"."&C1 спасёт Сетевого Искателя, эта формула собирает информацию из 3 ячеек и добавляет нужные символы между текстом в них. А ещё я заметил, что в старом файле тоже строки с www были, и их тоже поправил вот такой штукой:
="http://"&ПРАВСИМВ(A1; ДЛСТР(A1)-11) которая вырезает www из строки. Как работает: считает длину строки, отрезает первые 11 символов (это "http://www"), и потом в начале добавляет "http://", дешёво и сердито. (Дубликатом оказался только сам webhost.ru) Кстати, если копируете текст, который создан формулой, то вставляйте как значение.
А ещё у меня из-за того что во втором столбце в прошлый раз пробелы видимо оставались, то там в конце строки символ ";" стоял (это разделитель по умолчанию в винде, настраивается в "Панель управления"-"Язык и региональные стандарты"-вкладка "Форматы"-кнопка "Дополнительные форматы"-вкладка "Числа"-свойство "Разделитель элементов списка"). Теперь всё сделано как надо, каждая строка - только ссылка и ничего более. CSV кстати очень простой формат - можно в обычном текстовом редакторе спокойно править, вот инфа про него: https://ru.wikipedia.org/wiki/CSV
Добавлено 76 ссылок. Убран 1 дубликат.
Продолжаем пытать webhost.ru
Убрал в начале ссылок "http://"
Заметил, что есть ссылки вида "*.ru" и "*.ru/", привёл к общему виду(первому): разделил столбцы по "/" и оставил только 1 столбец. Думаю, что карта сайта есть везде, так что внутренних ссылок теперь нет.
https://be1.ru/uznat-poddomeni-saita/ выдал ещё немного информации.
https://github.com/projectdiscovery/subfinder/releases выдал аж 1757 ссылок! Хммм....
https://kali.tools/?p=4704 что это такое
А может часть из них уже неактивная... Надо проверить пингом всё это! Но он файлы не может попинговать... Удалил из списка ссылки на pdf и doc файлы, они всё равно на паре-тройке сайтов лежали, не обеднеем, думаю.
По информации отсюда: http://forum.oszone.net/thread-325948.html можно придумать себе однострочник bat-файл. В нём пинг будет обращаться 1 раз для каждого сайта из списка.
FOR /F %%A IN (ваш_путь_к_списку_сайтов\webhost.csv) DO ping -n 1 -a %%A | find /i "webhost.ru" >> ваш_путь_к_выхлопу_пинга\pinghost.csv
У меня он работал нормально если запускать от админа.
В выходной файл всё пишется в своей кодировке, и в excel вполне возможны КРАКОЗЯБРЫ!
Жмём на выходной файл F3 в тотал командере (или тут: http://www.online-decoder.com/ru ) и сопоставляем информацию.
Обмен пакетами с 007.webhost.ru [193.106.172.23] с 32 байтами данных: — УРА ДОСТУП ЕСТЬ
При проверке связи не удалось обнаружить узел 20.webhost.ru. — ОЙ ЁЙ НЕТ ДОСТУПА
И оставляем то, к чему доступ есть: копируем этот столбец в выходном файле во 2 столбец исходного, ну и там сортируем по нему.
В ходе пинга выяснилось, что ftp.webhost.ru ведёт на mx1.fatal.ru и из-за этого в файл не записалось(всё остальное сдвинулось). Ну и не надо.
ФУХ! Пропинговали сайты, оставили только доступное. Осталось доступных 1298 ссылок. На этом, думаю сканирование webhost.ru можно и окончить и приступать к анализу найденного.
В файле 1298 ссылок.
Начал переходить по случайным ссылкам, найденным в результате осмотра webhost.ru и понял что некоторые страницы были удалены. Поэтому прошёлся curl-ом по списку сайтов.
https://curl.haxx.se/windows/ лежит это здесь
https://losst.ru/kak-polzovatsya-curl а здесь как пользоваться
Сделаем bat-файл с такой строкой
FOR /F %%A IN (ваш_путь_к_списку_сайтов_пропингованных\webhost.csv) DO ваш_путь_к_курлы\curl.exe -Is %%A | find /i "HTTP/1.1" >> ваш_путь_к_выхлопу_курл\curlhost.csv
И выясним в ходе сканирования, что среди пропингованных есть ещё пара сайтов, на которых курл спотыкается. Я свёл результаты и список, и стал проверять те сайты, которые по идее ВСЁ, и если это не так, то сдвигал результаты в нужную сторону. В общем тут такая небольшая мини-игра :D
В итоге оставил только сайты с ответом HTTP/1.1 200 OK
Так что все ссылки должны быть рабочими!
В файле 951 ссылка.
https://t.me/reverb_neuron/741 - ссылка на последний файл по исследованию webhost.ru