March 30, 2020

ТЗ для создания цепочки конвейера валидации брендов

Входные данные: csv - файл с 4 полями: Brand, Candidate, src_brand, src_candidate

Перед модератором оказывается пара: Brand, Candidate, где Brand - известное хорошее написание бренда из словаря, а Candidate - потенциально возможный вариант написания для данного бренда. src_brand и src_candidate - источники информации, в которых исторически встретился данный бренд или написание. Существует несколько типов источников: sku, url, указанных в одном из отчетов MA (возможно еще производитель, выводить один источник или все доступные, или ранжировать по информативности?)

Перед вами в каждой строчке на листе task дана пара Brand, Candidate - бренд и предположительный вариант его написания, а также (не везде) источники информации о них src_brand, src_candidate, представляющие собой ссылки на фотографию товара или же текстовое описание sku, относящегося к данному бренду (кандидату). Помимо указанных неполных источников, необходимо воспользоваться гуглом и постараться найти другие доказательства (фото, описания товаров), которое могли бы помочь Вам ответить на вопрос: Brand и Candidate - это один и тот же бренд, или же нет. Вам необходимо заполнить для каждой строки колонки is_equal, best_name, is_brand, norm_brand, candidate_type по следующим правилам:

  1. Если Candidate и Brand - это два варианта написания одного и того же бренда, необходимо проставить в колонке is_equal 1, если нет - 0.
  2. Если в п.1 Вы проставили 1 в поле is_equal, запишите в колонке best_name наилучший из двух указанных (Brand, Candidate) вариант написания бренда, и переходите к следующей строке таблицы без заполнения оставшихся колонок
  3. Если в п.1 выяснилось, что Candidate не является вариантом написания для Brand, вам необходимо определить, что же это такое на самом деле: в колонку is_brand впишите 1, если Candidate является независимым брендом, 0 - если нет
  4. Если в п.3 Вы решили, что Candidate - это бренд, заполните колонку norm_brand следующим образом:
    Если бренд требует нормировки (в соответствии со словарем нормировки с предыдущих проектов) - впишите нормированный вариант написания данного бренда, если нормировка не требуется, просто продублируйте Candidate в эту колонку.
  5. Если в п.3 выяснилось, что Candidate не является брендом, оставьте пустой колонку norm_brand, а в поле candidate_type опишите несколькими словами, что это по вашему мнению (например, производитель или sku).

Пункт 2. Правило заполнения колонки good_brand: если на предыдущем шаге выяснилось, что Candidate не является вариантом написания для Brand, вам необходимо определить, что это такое. Если Candidate - это отдельный независимый бренд, и он требует нормировки (в соответствии со словарем нормировки с предыдущих проектов) - впишите в колонку is_brand нормированный вариант написания данного бренда. Если нормировка не требуется, просто продублируйте Candidate в это поле. Если же Candidate вообще не является брендом, опишите несколькими словами, что это по вашему мнению (например, производитель или sku).

Пользуясь гуглом и нашими источниками, модератор должен выбрать один из взаимоисключающих ответов на вопрос, является ли Candidate по отношению к данному Brand:

  • Вариантом его написания
  • Самостоятельным брендом
  • Вообще не относится к сущности бренд (например, это sku)

В идеале должно присутствовать доказательство точки зрения модератора в виде ссылки на картинки из гугла, или же комментария о смысловом совпадении информации из приведенных в полях src_brand, src_candidate ресурсов.