Парсинг wb
Задачи:
1. Найти все категории из каталога wildberries.ru (далее - ВБ)
2. Собрать данные о всех товарах с первой страницы каждой категории
3. Сохранить все результаты в Гугл таблицу
* Нужно брать данные через браузер Хром с установленным расширением Маяк (https://mayak.bz) для того чтобы видеть данные о выручке и заказах, которые подгружаются через расширение.
** Нужно брать данные для региона Москва.
Задача 1 - Найти все категории из каталога wildberries.ru
Категория - это последняя вложенность в каталоге ВБ, когда уже некуда “проваливаться”.
Каталог ВБ открывается через меню
Есть два вида категорий:
те, в которые можно перейти из каталога (например: Аксессуары/Сумки и рюкзаки/Сумки https://www.wildberries.ru/catalog/aksessuary/sumki-i-ryukzaki/sumki)
и те, которые нужно выбирать в дополнительном меню “Категория" (например: Женщинам/Большие размеры/Пуловеры, кофты, свитеры/Водолазка https://www.wildberries.ru/catalog/zhenshchinam/bolshie-razmery/pulovery-kofty-svitery?sort=popular&page=1&xsubject=153)
Нужно собрать список всех этих категорий.
Для каждой категории нужно сохранить:
- название категории (все вложенности через слэш - Женщинам/Большие размеры/Пуловеры, кофты, свитеры/Водолазка)
- количество товаров в категории
- ссылку на категорию
- название товара (последняя вложенность - Водолазка или Сумки)
Все категории нужно будет сохранить в Гугл таблицу в столбцы:
- Товар (название последней вложенности в категории)
Пример таблицы https://docs.google.com/spreadsheets/d/1KsIDRA0LP7D_Di7fePPHRRNgVzw7xgbTlxqlow5pSis/edit#gid=0
Задача 2 - Собрать данные о всех товарах с первой страницы каждой категории
Первым делом нужно проверить загрузились ли данные с расширения Маяк. Если нет - перезагрузить страницу. Если да - начинать собирать данные с карточек товара.
Нужно собирать данные только по обычным карточкам. Карточки с пометкой реклама нужно игнорировать.
Эту операцию нужно повторить для каждой категории.
Данные собираются только с первой страницы - должно получиться 100 результатов для каждой категории.
По каждой карточке надо собирать следующие данные:
- Ссылка на фото товара (немного меняется при вставке в таблицу)*
- Выручка (берется из расширения Маяк)
- Заказы (берется из расширения Маяк)
- Цена (не парсится, а считается путем деления выручки на количество заказов)
*Ссылка на фото товара меняется с формата
https://images.wbstatic.net/c516x688/new/34610000/34614649-1.jpg
=IMAGE("https://images.wbstatic.net/c246x328/new/34610000/34614649-1.jpg")
в самой ссылке c516x688 меняется на c246x328
При сохранении данных в таблицу нужно добавлять дату в формате ДД.ММ.ГГГГ