February 12, 2021

Как монетизировать парсинг?

После многих лет работы с парсингом и работы с людьми, собирающих данные, индексирующих данные, агрегирование данных, сканированием или называйте это как хотите. Я хотел составить простой список идей о том, как каждый может извлечь выгоду из информации, которая уже есть.

1. Что парсить?

Мое базовое определение такое: парсинг - это автоматизированное извлечение контента откуда либо, обычно структурированный контент, с целью переиспользования или проверки на тренды или наличие ценной информации.

2. Зачем парсить?

Потому что данные стоят денег, а знание это сила. Вы всё это знаете.
Что вы можете не знать - парсинг часто бесплатный. И так, это краткое руководство ответит на два главных вопросах:
- где получать данные?
- что с ними делать?


Один популярный облачный продукт предлагает парсить эти категории:

  • создание API метода (например, для сайта)
  • машинное обучение (Google Images)
  • мониторинг цен (Ebay)
  • лидо-генерация (Yelp)
  • исследование рынка (парсинг типов пива и их рейтинг, например)
  • разработка приложений (дома для продажи, аренда)
  • академические исследования (Techcrunch)

Хорошо, но я собираюсь рассказать о том, как на самом деле заработать на этом.

Основные категории:

  • дубликаты сайтов
  • предложение парсинга данных как сервиса
  • лидо-генерация
  • парсинг данных для обхода API

Это очевидно. Независимо от того какой вы сайт хотите создать, вероятно он уже есть. Вот некоторые идеи, которые могут быть полезны для переиспользования спарсеных данных:

  • форумы
  • доски с работой
  • блоги
  • q&a сайты
  • сайты с купонами
  • базы знаний/вики сайты
  • социальные сети

Любые сайты с данными, которые вы могли бы воспроизвести и создать лучший интерфейс, приложение и т.д.


Продажа спарсенных данных как сервис:

Если вы агрегируете информацию регулярно или быстро, то вы получаете некоторую ценность. Сборка целевой поисковой системы, например, получения данных от топ 10 - 20 поставщиков нишевого продукта и вы, вероятно получите то, чего нигде не существует.

Stocks (часто сайты требуют затрат, чтобы спарсить что-либо после определенной даты - но вы можете опубликовать это один раз, а затем предлагать бесплатно)

Niche News Aggregation (выберите нишу, например новостные сайты знаменитостей, спарсите 10 лучших)

Любой вид нишевого контента для автоматической рассылки для подписчиков, пост в социальных сетях.
(Например, новостная рассылка или бот, который автоматически отправляет твиты, когда дом продается по определенному почтовому индексу)

Места для парсинга:

Социальные сети, LinkedIn, Facebook, Twitter, публичные базы данных, страховые данные, сведения о судимости, налоговые отчеты, базы данных о гос расходах.
Сайты по продаже недвижимости, авто.


Парсинг как сервис:

Звучит как продажа данных как сервис, но отличается во времени. Многие SaaS компании просто парсят или агрегируют контент. Вы тоже могли бы:

  • мониторинг сайтов на наличиние обновлений или изменений
  • proxies
  • данные о продажах (amazon, ebay) или любые типы списков товаров для мониторинга конкурентных цен или исследования рынка и отслеживания запасов


Парсинг данных для обхода API:

На многих сайтах есть API, потому что люди готовы платить за данные - если это так, то спросите себя почему?
API классные, но они стоят денег. Если вам нужно получить данные быстро и легко, при чем практически бесплатно, обойдите API и переходите непосредственно к парсингу.

Заключение (когда начать?)

  1. Начните с того, что знаете. Если вам нравятся старые автомобили, создайте поисковую систему/сайт с перечнем старых автомобилей на продажу. Посмотрите, сможете ли вы автоматизировать и монетизировать это.
    Если у вас есть гос расходы или что-то, связанное с законодательством, попробуйте собрать это в одном месте.
  2. Прокачивайтесь. Одна из причин почему я люблю парсинг, это весело. Программная часть раздражает, но получать данные весело.
  3. Соберите некоторые данные и поместите их в облако слов.
  4. Не волнуйтесь.

Источник: reddit