SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
🔗 Ссылки
https://arxiv.org/abs/1903.07291
https://github.com/NVlabs/imaginaire/tree/master/projects/spade
http://nvidia-research-mingyuliu.com/gaugan/ — демка
💎 Контрибьюшн
Наконец-то продакшн-качество в генерации картинок! Можно даже потыкаться в демку и нарисовать члены в ландшафте (спойлер: это непросто)
Ну а если серьёзно: авторы говорят, что пропускать семантические карты через InstanceNorm неправильно, потому что существенная часть информации "вымывается". Это справедливо для однородных карт, коими являются карты сегментации (много однородных областей). В разделе 🔎 Детали есть мотивационный пример, поясняющий этот эффект.
Вместо этого предлагается использовать слой SPatially-Adaptive (DE)normalization (SPADE):
- Семантические карты пропускаются через лёгкую CNN без нормализаций
- На выходе получаются параметры денормализации, разные для каждого канала и пространственной координаты пикселя (в отличие от BN и IN)
- Текущие фичемапы денормализуются с этими параметрами после BN
🛠 Задача
Авторы сосредоточились на генерации картинок по картам сегментации. Так что всё как обычно:
Основной целью было обеспечить хорошее соответствие GT-карте сегментации при достижении достаточного реализма.
🔎 Детали
SPADE-layer
Все нормализационные слои можно разделить на 2 типа: unconditional и conditional. К первому типу относятся, например:
То есть это слои, не зависящие от содержания картинок.
К conditional-нормализациям, когда параметры нормализации вычисляются по некоторой входной информации, относятся:
Утверждение: типичные нормализационные слои "вымывают" пространственную информацию
Следовательно, использовать энкодер, на вход которому приходит карта сегментации, — как минимум неоптимально (цитата из статьи), т.к. она точно будет подвергаться нормализации.
Вместо этого предлагается прокидывать информацию об объектах через conditional-нормализацию:
Для генерации разнородных текстур помогают 2 фактора:
- Карта сегментации не подвергается нормализации
- Сохранение spatial-информации: теперь у каждого пикселя свои параметры денормализации
SPADE-генератор
В каждый SPADE-слой подаются ресайзнутые до нужного размера карты сегментации.
NB: в случае, когда число каналов на входе и выходе SPADE-ResBlk разные, внутри skip-connection также вставляется SPADE-слой.
Поскольку теперь нет нужды в энкодере, который бы извлекал семантику из карт сегментации, входом в генератор является случайный вектор (dim = 256, каждый элемент из стандартного нормального распределения — не как на картинке). Это значительно ускоряет время инференса.
Multi-modal synthesis
Совместно с генератором обучается энкодер, который генерирует случайный вектор по входному изображению. Таким образом, энкодер и генератор формируют VAE, и для обучения энкодера к общему лоссу добавляется KL-div.
Это позволяет синтезировать изображения с определённым стилем:
Для инференса можно предпосчитать несколько векторов стиля, чтобы не прогонять энкодер каждый раз.
🔬 Эксперименты
Здесь происходит нечто интересное. Во-первых, только из Appendix A становится понятно, что сравнивались картинки маленького разрешения — 256x256 (или 512x256 для Cityscapes). Во-вторых, все сравнения сфокусированы на соответствии карте сегментации, а не на реалистичности. То есть из объективных метрик — mIoU и Accuracy (FID тоже есть, но по нему SPADE проигрывает).
В субъективном сравнении авторы показывали карту сегментации + 2 синтезированные картинки и задавали вопрос: "Какое изображение лучше подходит карте сегментации".
Ещё у авторов можно поучиться тактично сливать компетиторов. Например, метод SIMS, который основан на склеивании картинок из базы, оказался ближе по FID на датасете Cityscapes. Авторы пишут, что это логично, т.к. по сути берутся куски из "реального" распределения. Но поскольку не всегда удаётся подобрать изображения в базе так, чтобы точно соответствовать карте сегментации, на субъективном сравнении этот метод оказывается сильно хуже предложенного.
- COCO-Stuff — 118 000 / 5 000 (train / val), 182 класса (подмножество COCO, содержит разнообразные сцены)
- ADE20K — 20 210 / 2 000, 150 классов
- ADE20K-outdoor — подмножество со сценами вне помещений
- Cityscapes — 3 000 / 500
- Flickr Landscapes — 41 000 / 1 000 (нет аннотаций, для этого использовался DeepLabV2)
Сравнение с pix2pixHD + ablation study
Для сравнений предложен бейзлайн pix2pixHD++ — это сеть pix2pixHD с улучшениями за 2017–2019 гг.:
- hinge GAN-loss (вместо LSGAN)
- SpectralNorm для свёрток
- TTUR при обучении
- Sync-BN (вместо BN)
- больший batch size (32 вместо 8)
- Glorot init (вместо нормального распределения)
- w/ Concat — на каждом промежуточном слое подклеивается карта сегментации соответствующего размера
- w/ SPADE — комбинация со SPADE-слоями
Во-первых, авторы исследовали важность SPADE-модуля. По таблице видно, что все бейзлайны без SPADE (в том числе логичная моификация w/ Concat) показывают худшие результаты, чем со SPADE, даже при большем числе параметров.
Во-вторых, были эксперименты с разными модификациями SPADE-генератора. Из интересного: обнаружилось, что увеличение числа параметров приводит к худшим результатам (переобучение?). И карты сегментации на входе вместо случайного вектора тоже вредят качеству.
Наконец, авторы провели ablation study, в котором показали, что все компоненты архитектуры и лоссов важны.