February 11, 2022

Парсинг wb

Задачи:

1. Найти все категории из каталога wildberries.ru (далее - ВБ)

2. Собрать данные о всех товарах с первой страницы каждой категории

3. Сохранить все результаты в Гугл таблицу

* Нужно брать данные через браузер Хром с установленным расширением Маяк (https://mayak.bz) для того чтобы видеть данные о выручке и заказах, которые подгружаются через расширение.

** Нужно брать данные для региона Москва.

Задача 1 - Найти все категории из каталога wildberries.ru

Категория - это последняя вложенность в каталоге ВБ, когда уже некуда “проваливаться”.

Каталог ВБ открывается через меню

Есть два вида категорий:
те, в которые можно перейти из каталога (например: Аксессуары/Сумки и рюкзаки/Сумки https://www.wildberries.ru/catalog/aksessuary/sumki-i-ryukzaki/sumki)


и те, которые нужно выбирать в дополнительном меню “Категория" (например: Женщинам/Большие размеры/Пуловеры, кофты, свитеры/Водолазка https://www.wildberries.ru/catalog/zhenshchinam/bolshie-razmery/pulovery-kofty-svitery?sort=popular&page=1&xsubject=153)

Нужно собрать список всех этих категорий.

Для каждой категории нужно сохранить:
- название категории (все вложенности через слэш - Женщинам/Большие размеры/Пуловеры, кофты, свитеры/Водолазка)
- количество товаров в категории
- ссылку на категорию
- название товара (последняя вложенность - Водолазка или Сумки)

Все категории нужно будет сохранить в Гугл таблицу в столбцы:

- Категория

- Кол-во товаров

- Ссылка на категорию

- Товар (название последней вложенности в категории)

Пример таблицы https://docs.google.com/spreadsheets/d/1KsIDRA0LP7D_Di7fePPHRRNgVzw7xgbTlxqlow5pSis/edit#gid=0

Задача 2 - Собрать данные о всех товарах с первой страницы каждой категории

Первым делом нужно проверить загрузились ли данные с расширения Маяк. Если нет - перезагрузить страницу. Если да - начинать собирать данные с карточек товара.

Нужно собирать данные только по обычным карточкам. Карточки с пометкой реклама нужно игнорировать.

Эту операцию нужно повторить для каждой категории.

Данные собираются только с первой страницы - должно получиться 100 результатов для каждой категории.

По каждой карточке надо собирать следующие данные:

- Ссылка на фото товара (немного меняется при вставке в таблицу)*

- Позиция товара в категории

- Ссылка на товар

- Бренд

- Выручка (берется из расширения Маяк)

- Заказы (берется из расширения Маяк)

- Цена (не парсится, а считается путем деления выручки на количество заказов)

*Ссылка на фото товара меняется с формата

https://images.wbstatic.net/c516x688/new/34610000/34614649-1.jpg

на

=IMAGE("https://images.wbstatic.net/c246x328/new/34610000/34614649-1.jpg")

в самой ссылке c516x688 меняется на c246x328

При сохранении данных в таблицу нужно добавлять дату в формате ДД.ММ.ГГГГ