Tatiana Gaintseva

PhD в Лондоне: важные моменты

atmyre — Sat, 26 Oct 2024 15:42:13 GMT

В ноябре будет два года, как я на PhD в Queen Mary University of London. В этом посте опишу некоторые моменты, которые стоит учитывать, если рассматриваете PhD в UK.

Скажу сразу: когда я выбирала место для PhD, я по личным причинам рассматривала только Лондон. Поэтому я не особо погружалась в нюансы и различия между PhD программами в UK и в других странах. А зря =( Общую идею поста, наверное, можно подвести так: если бы я заранее осознавала моменты, описанные ниже, я бы выбрала поехать куда-то еще.

Ну и Disclaimer: я пишу это на основе своего опыта, где-то я могу чего-то не знать. И я могу судить только о PhD в области AI, о других программах не скажу (хотя все моменты, описанные ниже, именно к AI непосредственно не относятся, они общие).

Итак:

В UK нет (ну или много где нет, за все места прямо не скажу) финансирования PhD позиций от университета. То есть, если ты хочешь пойти на PhD в какую-то лабу, то нужно искать себе грант/стипендию. Таких стипендий, конечно, не сильно мало (например, вот список тех, что есть в моем универе), но все же. Нужно найти среди них те, под которые ты подходишь, податься, и ждать результат. Я еще слышала о ситуациях, когда научник готов был взять студента в лабу в одном из UK универов, но с условием, что студенту нужно самому найти себе финансирование.

Мой PhD, например, финансируется DeepMind, я подавала на эту стипендию отдельно от договоренностей с научником и проходила конкурс. Из моей PhD группы у пары людей тоже стипендии от компаний, одна девочка финансируется организацией из ее страны (и ей потом нужно вернуться и это финансирование отработать).

Еще бывают стипендии, которые покрывают косты на обучение, но не дают стипендии — живи на что хочешь. Я говорила с одним студентом из соседней группы, у которого такой грант. Спрашивала его, как же он живет. Оказалось, у его мамы в Лондоне квартира, и она же высылает ему деньги на жизнь ¯\_(ツ)_/¯
Если даже по вашему гранту стипендия все-таки есть, то она очень маленькая, а жизнь в Лондоне ппц дорогая. И это не только про цены на молоко и кофе, аренда в Лондоне — просто жопа. Стандартная стипендия, которая дается большинством грантов — £1715 в месяц. В Лондоне на это выжить ну ооочень сложно.
Даже если грант получен, он часто дается только на 3 (три!!) года. Сделать хороший PhD за три года – это какое-то чудо, это очень сложно. Насколько я слышу вокруг, PhD занимает в среднем 4 года, но многие в итоге делают его 5 или 6 лет. И это нормально: если уж ты пошел на PhD, то хочется сделать хороший PhD, а не какой попало. И, если подумать, три года на такой путь — это очень мало. Учитывая еще, что у многих в начале PhD бывает стресс. Ну и разные жизненные обстоятельства, влияющие на продуктивность в любой другой момент жизни, никто не отменял.

Справедливости ради, любой PhD в UK рассчитан на 4 года. Т.е. ожидается, что ты защитишься ровно через 4 года после начала, а не через 3. Но после трех лет ты должен перейти на writing-up stage, т.е. сказать универу, что "все, я приступаю к написанию диссера". Учитывая, что написание и защита диссера — процесс не быстрый, на это типа дается год. И в этот последний год у тебя еще и нет стипендии, и приходится уже искать работу.

Недавно я еще узнала, почему так устроено, что финансирование дается на 3 года. Оказывается, в UK у универов есть метрика, или даже требование: нужно, чтобы PhD студенты заканчивали диссер не позже чем через 4 года. Мой научник дословно сказал фразу "universities are punished if it takes somebody more than 4 years". Я, если честно, вообще не понимаю, что это за бред, потому что, еще раз: PhD — сложный процесс, у всех разный, и хочется сделать его хорошо, а не просто сделать.

Единственное, как можно продлить время PhD — ездить на стажировки. Это время в те 4 года не считается. Моя стипендия тоже только на 3 года, и поэтому прямо сейчас я на стажировке в лондонском Huawei, и планирую найти еще одну на лето. Но тут тоже есть огромнейший нюанс — на студенческой визе в UK нельзя работать full-time, только 20 часов в неделю. А еще, чтобы время стажировки не считалось в 4 года PhD, нужно просить interruption of studies. А когда просишь interruption of studies, универ сообщает об этом в UKVI (UK Visas and Immigration), и они могут попросить тебя свалить из страны, потому что ты же на студенческой визе, а чет не учишься 🫠
Поэтому варианты тут такие:
- ехать на стажировку в другую страну, где тебе сделают визу, просить на это время interruption of studies в UK;
- проходить стажировку в UK на 20 часов, но тогда это время не вычтется из этих 4 лет;
- менять визу в UK со студенческой на другую. Например, Global Talent. Но и тут, блин, есть проблема: в июле 2023 года вышла поправка к положению Global Talent визы, которая запрещает PhD студентам менять визу на GT или любую другую work-related визу, пока не пройдут два года PhD. Запрет смены визы на любую work-related также означает, что вы не можете сделать себе временную work визу на период стажировки. Этот вариант становится доступен только на третий год PhD, а в первые два года сделать interruption of studies и пойти на full-time стажировку внутри UK не выйдет.

Я сама напоролась на эту подставу с GT визой в прошлом году. Я получила endorsement (справку о том, что я талант) в июне 2023 года, и с ней в июле подалась на смену визы. И за 5 дней до моей подачи вышла эта поправка, которая запретила PhD студентам переходить на GT до истечения двух лет PhD. О ней нигде не сообщали, я об этом не знала. В итоге у меня в UK есть официальный отказ по визе, из-за которого каждый раз при въезде в UK меня теперь проверяют с фразой "у вас был отказ, I need to investigate"

В данный момент у меня проходят два года PhD, я снова подалась на GT, и надеюсь, что в этот раз мне ее одобрят. Нужно это мне как раз за тем, чтобы сделать interruption of studies на время моей стажировки в Huawei, и продлить PhD хотя бы месяца на 3.
Есть еще неприятный момент по UK в целом: UK не отосится к шенгенской зоне. То есть, в Европу поехать просто так нельзя. А учитывая текущие сложности с шенгенскими визами для россиян, сейчас это особенно неприятно. Например, для поездки на конфу в Милан мне пришлось бронить поездку в Испанию (что стоит денег), подаваться на визу за £100, и все это чтобы получить визу на 15 дней пребывания 🫠

Смешно еще то, что теперь даже в Ирландию поехать по UK визе нельзя (ну, можно только в Северную Ирландию, которая часть UK).
Студенческая виза в UK не ведет к ВНЖ и гражданству. Это время не считается вообще. Для меня это не играет сильной роли, но для кого-то может.

Для сравнения, ситуация по PhD в Европе по всем пунктам другая. Там в большинстве мест есть финансирование позиций от универа, размер стипендии относительно cost of living гораздо лучше, и PhD спокойно можно делать лет так 6. Ну и если делать PhD в Европе, то по этой самой Европе можно спокойно перемещаться. А еще часто студенческие годы в Европе засчитываются для получения ВНЖ или паспорта. Например, в Германии год по студенческой визе считается за полгода для паспорта.

Это были ~~горения жопы~~ минусы по PhD в UK. Справедливости ради, давайте попробуем найти плюсы. На мой взгляд, они такие:

UK и Лондон в частности — довольно большой AI-хаб. Тут много компаний, с которыми можно взаимодействовать, ходить на ивенты и стажировки (subject to см. пункт 3 выше). Также из-за этого тут большое коммьюнити AI-related людей, включая русскоязычные. Можно найти митап/ивент и профессиональный круг общения на любой вкус;
Возможность получить Global Talent визу (но после двух лет PhD). Это хорошая виза для тех, кто хочет возможность делать почти что угодно в UK и получить ВНЖ/паспорт через 3-5 лет.
Уровень университетов в UK в целом довольно высок, есть много хороших профессоров и сильных лаб.

Пока что это все, что приходит на ум. Спасибо, что дочитали! Если вам есть, что добавить/исправить в посте, пишите в тг @atmyre.

Новый подход к CLIP guidance для задачи backlit image enhancement.

atmyre — Wed, 02 Oct 2024 21:41:00 GMT

Тут я расскажу о своей статье, которая опубликована на ECCV-2024. Она называется RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement. Это статья о новом способе использовать CLIP guidance для обучения модели улучшения засвеченных картинок (backlit image enhancement). На картинке выше — пример засвеченных и восстановленных картинок. Тут надо, правда, сказать, что идею из статьи можно использовать не только для задачи backlit image enhancement, но и для других задач, связанных с улучшением картинок. Но в статье эксперименты ставились именно на этой задаче, поэтому называется статья именно так.

Сразу ссылки:

Project page

Paper

GitHub (буду рада звездочкам🌝)

И небольшой тизер: по сравнению с SOTA методом CLIP-LIT, который RAVE улучшает, RAVE выдает картинки лучшего визуального качества без артефактов. Ниже пара примеров. А еще вектор, который строится в RAVE, интерпретируем! Об этом всем подробно — ниже в этой статье.

Сравнение результатов CLIP-LIT и RAVE на картинках с сильным затемнением

Описание метода

Идея RAVE основана на другой статье (не моей), которая была представлена на ICCV-2023. Это статья Iterative Prompt Learning for Unsupervised Backlit Image Enhancement. Она тоже про то, как использовать CLIP guidance для задачи backlit image enhancement. Метод из этой статьи называется CLIP-LIT. Я прочитала эту статью и у меня возник вопрос: а зачем так сложно? Можно же проще. И, как оказалось, еще и лучше по качеству. Так и родилась моя статья.

Сейчас кратко разберу, в чем идея подхода CLIP-LIT. И затем перейдем к двум идеям его улучшения, которые и вошли в мою статью.

CLIP-LIT

Итак, как работает CLIP-LIT.

Давайте мы будем учить UNet (enhancement network на картинке), который принимает на вход засвеченную (backlit) картинку, а выдает на выходе восстановленную (enhanced). Если у нас в обучающих данных есть пары (backlit img, well-lit img), которые соответствуют дргу другу, то мы могли бы учить этот UNet втупую, подавая ему backlit картинку на вход и сравнивая выход с well-lit картиной. Но давайте представим, что у нас в тренировочных данных нет таких пар. Есть кучка каких-то backlit картинок и кучка well-lit картинок, которые могут иметь совершенно другую семантику. Назовем этот сетап unpaired data.

Initial pseudo prompts and enhancement model training

В этом случае давайте учить UNet с помощью двух лоссов:

identity loss, который не позволяет картинке сильно далеко отходить от изначальной (т.е. помогает сохранить семантику нетронутой)
CLIP-Guided Loss, который заставляет UNet делать из backlit картинки well-lit картинку.

Вот в CLIP-Guided Loss и вся соль. Авторы CLIP-LIT строят его так:

Давайте заведем два псевдо-промпта: positive и negative. На основе тренировочных backlit и well-lit картинок будем учить эти промпты так, чтобы CLIP-эмбеддинг positive промпта был близок по косинусному расстоянию к CLIP-эмбеддингам well-lit картинок, а CLIP-эмбеддинг negative промпта был близок к CLIP-эмбеддингам backlit картинок.
Теперь используем выученные эмбеддинги для обучения UNet. Делаем это так: подаем в UNet backlit картинку, получаем enhanced картинку на выходе. Получаем CLIP-эмбеддинг enhanced картинки. Сравниваем его по косинусному расстоянию с эмбеддингами выученных positive и negative промптов. Требуем, чтобы расстояние до positive промпта было ближе, чем расстояние до negative промпта.

Но это еще не все: после этих двух шагов результаты получаются такие себе. Поэтому авторы предлагают сделать несколько итераций этих двух пунктов. Т.е. после первичного обучения промптов и UNet вернуться к дообучению псевдо-промптов, используя картинки из датасета и картинки, которые UNet выдает на данном этапе обучения. Там аж 4 лосс-функции, которые используются для более оптимального дообучения этих промптов. И чтобы получить UNet, который будет хорошо восстанавливать засвеченные картинки, нужно где-то 10-12 итераций этих двух пунктов. Вот иллюстрация к этим итерациям дообучения:

Pseudo prompts and enhancement model fine-tuning

Сразу можно сказать, что обучение CLIP-LIT довольно нестабильное: от итерации к итерации улучшенные картинки получаются то пересвеченные, то обратно слишком темные. Скорее всего, это потому, что от итерации к итерации меняются псевдо-промпты, а их обучение довольно нестабильно и неточно. Неточно в том плане, что при таком виде обучения псевдо-промпты никогда не будут идеально отражать смыслы backlit и well-lit картинок. Из-за этой нестабильности и требуется так много итераций обучения, прежде чем получится нормальный результат.

Вот такая идея у CLIP-LIT. Теперь перейдем к тому, что в этой идее странного и как ее улучшить. Идеи будут две — CLIP-LIT-Latent, и, собственно, RAVE. Идея CLIP-LIT-Latent очень простая и тупая, а RAVE уже поинтереснее.

Начнем с первой.

CLIP-LIT-Latent

Давайте посмотрим еще раз на то, что делает CLIP-LIT, и подумаем: а зачем нам псевдо-промпты? Они же нужны, чтобы сравнивать их CLIP-эмбеддинги с эмбеддингами картинок. Почему бы тогда не учить что-то прямо внутри латентного пространства CLIP?

То есть, первая идея упрощения подхода приходит такая: давайте вместо псевдо-промптов учить сразу псевдо-векторы внутри CLIP embedding space. Т.е. типа сразу выучивать эмбеддинги этих промптов. Тогда мы сможем вообще выкинуть CLIP text encoder и не делать лишние движения типа "прогоним псевдо-промпты через CLIP text encoder, чтобы получить их эмбеддинги". Назовем этот подход CLIP-LIT-Latent.

Общая идея, получается, такая: зачем учить что-то, что дает хорошие фичи при прогоне через какое-то сложное преобразование, когда можно учить эти фичи сразу напрямую? Под сложным преобразованием здесь понимается CLIP Text Encoder.

Вот картинка со сравнением CLIP-LIT и CLIP-LIT-Latent:

Иллюстрация CLIP-LIT и CLIP-LIT-Latent

CLIP-LIT-Latent дает такие же по качеству результаты, что и оригинальный CLIP-LIT (как по метрикам, так и по визуальной оценке получаемых картинок). Обучение только занимает чуть-чуть меньше времени, потому что нам больше не надо кучу раз проталкивать псевдо-промпты через CLIP Text Encoder. Заметим, что для получения хороших результатов в CLIP-LIT-Latent тоже нужно делать итерации дообучения латентных векторов и UNet, и обучение тоже не очень стабильное.

Получается, CLIP-LIT-Latent просто чуть упрощает модель, сохраняя все остальные ее свойства.

Перейдем теперь ко второй идее улучшения CLIP Guidance, которую мы назвали RAVE.

RAVE

Вспомним теперь, что на эмбеддингах латентного пространства CLIP определена метрика — косинусное расстояние. Косинусое расстояние линейно. Это значит, что над эмбеддингами в латентном пространстве CLIP можно проводить арифметику — например, отнять от одного вектора другой, и полученный вектор будет иметь смысл.

RAVE использует это свойство латентного пространства CLIP. В RAVE мы не будем обучать никакие псевдоним-векторы или псевдо-промпты. Вместо это сделаем вот что:

Возьмем backlit картинки из обучающего датасета. Получим их CLIP-эмбеддинги. Усредним, получим один усредненный CLIP-эмбеддинг backlit картинок v_backlit;
Возьмем well-lit картинки из обучающего датасета. Получим их CLIP-эмбеддинги. Усредним, получим один усредненный CLIP-эмбеддинг well-lit картинок v_well-lit;
Отнимем от вектора v_well-lit вектор v_backlit. Получим вектор v_residual. Этот вектор в латентном пространстве CLIP будет иметь смысл перехода от backlit к well-lit изображениям. Действительно, этот вектор содержит в себе те смыслы, что есть в well-lit картинках, но нет в backlit картинках. А это и есть смысл "backlit -> well-lit".

В итоге формула получения v_residual такая:

f_norm здесь — L2-нормализация вектора. Ф_image — CLIP Image Encoder. N_p — количество well-lit картинок в обучающих данных, N_n — количество backlit картинок в обучающих данных.

Проиллюстрировать это можно так:

Этот вектор v_residual мы и будем использовать для обучения UNet. Guidance с помощью v_residual устроен следующим образом: получаем картинку, которую выдает UNet, получаем ее CLIP-эмбеддинг v_enhanced. Лосс-функция заставляет косинусое расстояние между v_enhanced и v_residualбыть таким же, как и косинусое расстояние между v_well-lit и v_residual.

Иными словами, мы хотим, чтобы картинка, которую выдает UNet, имела CLIP-эмбеддинг, близкий к CLIP-эмббедингам well-lit картинок. Мы "двигаем" поданную на вход backlit картинку по пространству эмбеддингов CLIP вдоль вектора v_residual от части пространства, где находятся эмбеддинги backlit картинок, к части пространства, где находятся эмбеддинги well-lit картинок.

Общая иллюстрация метода тогда выглядит так:

Преимущества RAVE:

Не надо обучать промпты/векторы, только обучаем UNet;
Не нужно делать много итераций обучения, обучение сходится очень быстро;
Обучение более стабильно (и, как следствие, быстрее) за счет того, что CLIP guidance устроен на основе вектора, который имеет достаточно четкий смысл, а не на основе псевдо-векторов или псевдо-промптов, которые неоптимально обучаются;
Визуальная оценка результатов и метрики показывают, что RAVE работает лучше, чем CLIP-LIT и CLIP-LIT-Latent.

Результаты

Таблица со сравнением подходов по классическим метрикам для image enhancement (PSNR, LPIPS, SSIM, FID). Результаты для двух вариантов обучающих данных: paired (где для каждой backlit картинки есть соответствующая ей well-lit картинка) и unpaired (где backlit и well-lit картинки могут быть совершенно разные). В случае paired данных в таблице больше моделей для сравнения, чем в случае unpaired: это потому, что некоторые подходы просто нельзя обучить на unpaired данных.

Видно, что в случае paired данных RAVE показывает лучшие результаты. В случае же unpaired данных у обычного RAVE результаты смешанные, но вот вариант RAVE shifted впереди по большинству метрик. Давайте поясню, почему так и что такое RAVE shifted.

Интерпретация v_residual

Давайте попробуем проинтерпретировать смысл вектора v_residual, который мы строим. Благо у CLIP совместное латентное пространство для картинок и текстов. Что мы можем сделать: давайте переберем все токены из словаря CLIP Text Encoder, и найдем те, эмбеддинги которых по косинусом расстоянию ближе всего и дальше всего от v_residual. Получим вот что:

Видно, что если считать v_residual на основе paired данных, то этот вектор очень хорошо отражает смысл перехода от backlit к well-lit картинкам: токены с самыми далекими от v_residual эмбеддингами имеют смысл вокруг "dark" — solhouette, darkness и т.п., а токены с самыми близкими к v_residual эмбеддингами не имеют какой-то общей семантики. Поэтому этот вектор так хорош при обучении UNet, и в случае paired данных результаты получаются хорошими.

А вот в случае unpaired данных у v_residual появляются какие-то странные смыслы. Токены с самыми далекими от v_residual эмбеддингами имеют смысл вокруг Азии, а токены с самыми близкими к v_residual эмбеддингами имеют смысл вокруг природы. Это произошло потому, что в unpaired обучающих данных backlit картинки были в основном картинками азиатских городов и людей, а на well-lit картинках была природа. Поэтому при вычислении v_residual семантика картинок не до конца схлопнулась, оставив ненужные смыслы. Поэтому в этом случае v_residual не отражает идеального направления в латентном пространстве CLIP, куда нужно двигать backlit картинки, и результаты RAVE в случае unpaired данных получаются чуть хуже (хотя все равно SOTA).

Но тут есть простой хак, как это исправить. Давайте возьмем токены, эмбеддинги которых наиболее близки и наиболее далеки от v_residual, и удалим их смысл из v_residual. Сделать это можно, например, так: возьмем 15 токенов, эмбеддинги которых наиболее близки к v_residual, и 15 токенов, эмбеддинги которых наиболее далеки от v_residual, и построим на их основе еще один вектор v_add_residual:

И дальше отнимем этот вектор от изначального v_residual:

Теперь если мы похожим образом проинтерпретируем новый v_residual, то увидим, что ненужная семантика действительно исчезла, и вектор стал более похож по смыслу на тот, что получался в случае paired дата:

Ну и результаты (как метрики, так и визуальное сравнение) показывают, что RAVE-shifted действительно работает лучше.

Вот так вот. Ну и ниже немного картинок со сравнениями подходов.

Визуальное сравнение

Больше примеров можно найти на странице проекта и в статье.

Сравнение CLIP-LIT, CLIP-LIT-Latent и RAVE на примерах с сильным затемнением, Видно, что у RAVE не появляются зеленоватые артефакты в местах с сильным затемнением.

Еще примеры сравнения CLIP-LIT, CLIP-LIT-Latent и RAVE

Сравнение картинок, полученных при RAVE и RAVE shifted. Shifted вариант выдает более well-lit картинки

Задача fake images detection

atmyre — Thu, 11 May 2023 20:16:43 GMT

В этом посте я расскажу о задаче детекции сгенерированных изображений (fake image detection). Сначала мы поймем, почему эта задача не так проста, как кажется на первый взгляд, а затем разберем основные подходы к решению этой задачи.

В чем суть задачи и почему она не так проста

Задача fake image detection — отличить изображения, сгенерированные нейросетью, от реальных. В свете того, что в последнее время выходит много классных open-source моделек для генерации картинок, и генерируют они уже довольно качественно (вы только посмотрите на IF!), задача начинает быть актуальной. Вспомним хотя бы картинку Папы Римского в пуховике и картинки Трампа за решеткой: насколько я слышала, на них реально повелось много народу.

Несмотря на актуальность задачи, с исследовательской точки зрения подступиться к ней не так просто. Главный нюанс — непонятно, как построить датасет и систему оценки моделей.

Смотрите, мы, по сути, решаем задачу бинарной классификации: отличаем фейки от реальных картинок. Логично, что датасет должен состоять из двух видов картинок: реальных и фейковых. И вот тут начинаются проблемы:

1️⃣ Моделей для генерации картинок много разных. И постоянно выходят новые. Если собрать датасет картинок из конкретных моделей и учить на нем нейронку, есть риск переобучить ее на эти конкретные модели. И когда выйдет новая генеративка IF-2.0, на ней детекция фейков работать не будет. Ну и смысла в таком детекторе, который детектит только картинки из конкретных моделей, нет.

Эту проблему чаще всего решают так: собирают датасет фейковых картинок из нескольких моделей. И в тренировочной части оставляют фейки только из одной модели (например, ProGAN). А в тестовой части данных остаются фейки из всех других моделей — SD, Glide, других ГАНов, DALL-E и т.п. Таким образом проверяется то, что ваша модель для детекции может быть обучена на фейках из одной конкретной модели, но при этом научиться детектить фейки и из других генеративок.

Такой принцип разделения данных на трейн и тест сейчас, насколько я вижу, стандартный для статей в области детекции фейков.

2️⃣ Вторая проблема связана с балансированием фейковых и реальных картинок в датасете. Мы хотим, чтобы наша модель научилась отличать любые фейковые картинки от любых реальных. Для этого нужно убедиться, что в ваших данных реальные картинки отличаются от фейковых именно теми характеристиками, которые влияют на "фейковость". А в остальном распределения фейковых и реальных картинок должны быть одинаковы. Если сделать датасет из реальных картинок попугаев и фейковых картинок слонов, нейросеть прекрасно обучится их разделять, но что-то мне подсказывает, что на картинках вне этого датасета она хорошо работать не будет)

А сбалансировать датасет сложно. Нужно придумать такой принцип генерации данных, чтобы можно было из разных генеративных моделей генерировать максимально разнообразные, но похожие между собой по распределению данные. Задача еще усложняется тем, что некоторые модели генерят картинки на основе текста, а некоторые — нет.

3️⃣ Третья проблема такая: мы хотим, чтобы наша модель для детекции работала "в полевых условиях". То есть, детектила фейки в интернете и где угодно. А в интернете картинки проходят 100500 стадий изменений: где-то они сжимаются (тот же jpeg), где-то на них накладывается шум. Да и сами люди после генерации картинки нейросетью могут изменять ее: накладывать фильтры или править что-то в фотошопе. Все это меняет характеристики картинки, и может сломать модели для детекции. Кажется, что решение — это добавить в датасет картинки, измененные разными способами, но этих способов — просто уйма. Поэтому вместо этого хочется уметь создавать модели, робастные к подобным изменениям. А эту робастность нужно уметь проверять — и тут тоже непонятно, какой протокол тестирования этой робастности выбрать.

4️⃣ А можно же не только генерить картинки с нуля, но и изменять реальные картинки. И получать фейки. И тут непонятно, учитывать ли такие "полуфейковые" картинки в подобных датасетах, или нет. И насколько картинка должна быть "изменена", чтобы считать ее фейком.

Из-за подобных проблем какого-то общепринятого бенчмарка (датасета) для задачи fake image detection пока нет. Ну, или я его не нашла. Каждая статья, которую я читала, придумывала свой датасет, собранный вручную авторами. В последней статье, которую я видела (будет на CVPR-23, кстати!) авторы вообще не сказали, как именно они генерили свой датасет ¯\_(ツ)_/¯ Они, правда, его выложить обещали, посмотрим)

Ну и еще к описанию задачи можно добавить два замечания:

Задача fake image detection очень похожа на задачу deepfake detection. Отличие в том, что под "дипфейками" обычно понимают картинки или видео людей, которые либо сгенерированы с нуля, либо изменены. Вот по этой задаче литературы и датасетов уйма. Конечно, модели для deepfake detection заточены именно под дипфейки (т.е. картинки людей), но некоторые идеи, может быть, можно использовать и в более общей задаче fake image detection.
Если мы научимся делать хорошие детекторы фейковых картинок, начнутся поиски идей, как эти детекторы обмануть. То есть, приходим к той же парадигме, что в adversarial attacks: строим защиту -> строим атаку, которая сбивает защиту -> строим защиту от этой атаки -> ...

На самом деле, так даже уже немного происходит) Это мы увидим ниже, когда будем разбирать идеи детекции фейковых картинок.

Вот так как-то. В целом, область fake images detection довольно нова, работы и подходы тут только развиваются, поэтому и много неопределенности. Но область явно важная с практической точки зрения.

На этой ноте давайте переходить к тому, как эту задачу можно решать:

Подходы к решению задачи fake images detection

Здесь я суммарную идеи решения задачи, которые встретились мне, когда я эту задачу разбирала.

Идея #1: решение "в лоб"

То есть, берем какую-нибудь нейросеть вроде ResNet или ViT, и обучаем ее на тренировочной части наших данных на задачу бинарной классификации ("fake" или "real"). Тут всплывает первая проблема, описанная выше: при таком подходе нейросеть легко переобучается под те модели генераторов, картинки из которых находились в тренировочной выборке.

Примеры статей, предлагающих подобный подход:

Идея #2: model fingerprints

Оказывается, есть такая интересная вещь: еще в 2019 году было замечено, что модели-генераторы оставляют на сгенеренных картинках свои спецефичные "отпечатки" (fingerprints).

Как получается фингерпринт:

берем картинку X, прогоняем ее через denoising filter, получаеся f(X). Получаем шум R = X - f(X). Этот шум считается суммой некоей случайной компоненты, и некоей детерминированной компоненты, которая спецефична для модели-генератора, который эту картинку создал.
чтобы выделить детерменированную компоненту, проделываем операцию выше для батча картинок и усредняем их шумы (усредняем R). К итоговому R_mean применяем преобразование Фурье и результат визуализируем.

В итоге получаются картинки, которые вы видите ниже. Тут визуализированы fingerprints нескольких разных моделей, в том числе диффузий. Картинки взяты из этой статьи, в ней авторы подробно исследовали эту тему:

Fingerprints нескольких разных генеративных моделей. Источник: https://arxiv.org/pdf/2211.00680.pdf

Видно, что у каждой модели "отпечаток" свой, но при этом у всех моделей он есть, и довольно заметный.

На основе этих отпечатков можно пытаться строить детекторы фейковых картинок. Да их и строят, на самом деле. Но тут есть две сложности:

Как видно, отчетливый отпечаток визуализируется только при усреднении шума с нескольких изображений. У каждой отдельной картинки он не такой отчетливый. А детектор хочется построить такой, чтобы он мог по одному изображению понять, фейковое оно или нет;
Можно пытаться придумать техники постобработки сгенерированных картинок, которые будут картинки от подобных отпечатков избавлять. И такое уже есть: на CVPR-2022 была статья под названием "Think Twice Before Detecting GAN-generated Fake Images from their Spectral Domain Imprints". В ней авторы предлагают нормализовать спектральную компоненту изображения, чтобы "отпечаток" исчез.

Вот это я имела в виду выше, когда писала о том, что гонка "fake detection -> защита -> обход защиты" в этой задаче уже началась =)

Да и вообще, обычная обработка картинки типа сжатия jpeg или наложения фильтров уже может исказить эти спектральные компоненты.

Но само по себе то, что fingerprints существуют — штука интересная. Можно еще подумать, почему у разных генеративок "отпечатки" выглядят именно так.

Вот какие статьи можно по этой теме почитать:

Идея #3: чем проще, тем лучше

Авторы этого типа подходов к детектированию фейковых картинок говорят вот что: мы видим, что модели для fake detection постоянно переобучаются на те модели, картинки из которых были в обучающей выборке. А значит, лучшим подходом будет тот, в котором обучаемая компонента как можно меньше. А в качестве модели-выделятора фичей из изображений для последующей классификации на фейк-не фейк используется что-нибудь предобученное.

Эту идею хорошо иллюстрируют две следующие статьи:

1. Towards Universal Fake Image Detectors that Generalize Across Generative Models

Идея тут такая: берем предобученный image encoder из CLIP. Из него получаем эмбеддинги всех картинок тренировочного датасета. На этих эмбеддингах обучаем простую модель: KNN или логрегрессию. Когда к нам приходит новая (тестовая) картинка, получаем ее эмбеддинг из CLIP и подаем в модель (KNN/логрег). Так получаем ответ.

Иллюстрация метода вот:

Иллюстрация метода статьи https://arxiv.org/pdf/2302.10174.pdf

То есть, идея такая: обучаем что-то суперпростое поверх эмбеддингов из предобученной модели. Это суперпростое что-то сильно явно не переобучится.

И это работает. Ниже показаны результаты по метрике accuracy, которые репортят в статье. Протокол обучения и тестирования был стандартный: обучаем на фейковых картинках только из BigGAN, тестируем на всем остальном. Правда, тут есть один нюанс: в статье не написано, как был сгенерирован обучающий дотаяет. Но авторы обещали выложить код (он будет тут), посмотрим.

Результаты по метрике accuracy метода из статьи https://arxiv.org/pdf/2302.10174.pdf

2. Pattern Detection in the Activation Space for Identifying Synthesised Content

Общая идея этой статьи такая: берем предобученную сеть для классификации картинок. Можно взять даже сеть, обученную детектировать фейковые картинки: например, дискриминатор ГАНа. Далее берем набор реальных картинок, прогоняем их через сеть, запоминаем активации нейронов скрытых слоев.

Далее когда к нам приходит новая картинка, прогоняем ее также через сеть, получаем активации. Эти активации с помощью статистического критерия сравниваем с набором активаций реальных картинок. На основе стат. критерия выдаем ответ — реальная картинка или фейковая.

Здесь, как видно, вообще не предлагается никакого обучения. (в статье, правда, предлагают еще один вариант алгоритма, где небольшое обучение присутствует. Об этом можно прочитать в разделе 3.2)

Минус этой работы в том, что тут странный, я бы сказала, протокол тестирования. В качестве реальных изображений для получения активаций сети брались картинки из датасетов CelebA HQ, MNIST и CycleGAN, а фейковые картинки генерировались с помощью PGGAN. При чем я не смогла понять, на чем PGGAN был обучен.

Но да ладно, это не столько важно. Суть тут в том, что такая идея — использовать стат. критерии для проверки фейковости картинки — тоже имеет место быть. Я видела эту идею еще в одной статье, более недавней, но сейчас снова найти ее не смогла. Если найду, добавлю на нее ссылку.

Заключение

Как-то так. В этой статейке мы описали задачу fake image detection, поняли, почему задача не так проста, и обсудили, какие бывают подходы к ее решению. В целом, задача довольно новая и актуальная. Посмотрим, как будут развиваться дела: получатся ли у нас настолько хорошие генераторы картинок, что их нельзя будет распознать ни одним методом, или же найдется универсальный способ детекции фейковых картинок =)

Разбор DINO — идеи self-supervised обучения CV моделей

atmyre — Sun, 23 Apr 2023 18:08:11 GMT

В этой статье я разберу идею для self-supervised обучения моделей для обработки изображений под названием DINO (если вы не знаете, что такое self-supervised обучение, то я делала об этом ликбез в тг-канале DLStories: ссылка). Мы узнаем, что за это идея такая, а также какие интересные свойства появляются у моделей, обученных с помощью DINO.

DINO был представлен еще в 2021 году в статье "Emerging Properties in Self-Supervised Vision Transformers". Кроме самого DINO, в статье приводится наблюдение, что у self-supervised трансформеров (например, у ViT, обученного с помощью DINO) обнаруживается интересное свойство: если подать такому трансформеру на вход картинку, то ее карты внимания будут неплохо сегментировать объект на картинке. Об этой находке и о том, как с ее помощью получить неплохую zero-shot сегментацию нескольких объектов на картинке, я писала в посте в телеграме тут.

А еще совсем недавно выпустили вторую версию DINO (DINOv2). В этой статье мы разберем устройство оригинального DINO, а в следующем статье — устройство DINOv2.

Итак, поехали:

Как работает DINO

Идея DINO основана на принципе knowledge distillation (KD).

В двух словах, KD – это когда у нас есть две модели — модель-учитель и модель-студент. Модель-учитель умеет хорошо решать какую-то задачу. И мы учим модель-студента с нуля решать эту же задачу таким образом: подаем на вход учителю и студенту одинаковые данные. И с помощью некоторого лосса заставляем выходы модели-студента быть похожими на выходы модели-учителя.

Получается, студент учится решать задачу, имитируя поведение учителя на входных данных. Иногда к обучению модели-студента также добавляют и стандартный лосс между выходами модели-студента и правильными ответами на входных данные.

Иллюстрация идеи Knowledge Distillation. Источник: https://towardsdatascience.com/knowledge-distillation-simplified-dd4973dbc764

Чаще всего в KD модель-студент меньше, легковеснее, чем модель-учитель. То есть, KD используется для того, чтобы получить более легкую модель, которая умеет решать задачу примерно так же хорошо, как большая и умная модель-учитель.

Авторы из Meta адаптировали идею KD для self-supervised обучения, и получили DINO. Вот как именно это работает:

Берем датасет картинок. Из каждой картинки датасета вырезаем два глобальных патча картинки и несколько локальных. Глобальный патч — это кусок картинки, который покрывает >50% всей картинк (в статье берут размер 224х224). Локальные патчи — куски картинки размера 96х96.

Теперь делаем две копии одной и той же модели для обработки картинок: F_s и F_t. F_s — модель-студент, F_t — модель-учитель. Это могут быть модели любого типа: ResNet, ViT, или что-то еще.

Изначально F_s и F_t не обучены. Обучаем мы их так:

Иллюстрация устройства и обучения DINO. sg означает stop gradient, т.е. то, что во время обучения лосс не бэкпропагейтится в веса модели-учителя. Источник: https://arxiv.org/pdf/2104.14294.pdf

В течение эпохи веса F_t заморожены. Берем картинку x из датасета, подаем на вход F_t один из ее двух глобальных патчей, а на вход F_s подаем любой рандомный патч (локальный или глобальный, но не тот же, что подали на вход F_t). Обе модели выдают на выход эмбеддинги одинкового размера. Эти эмбеддинги мы сравниваем с помощью лосса и бэкпропагейтим градиенты в модель-студент F_s:

Лосс-функция для DINO

То есть, тут идея примерно такая: в течение эпохи сеть-студент учится имитировать выходы замороженной сети-учителя. И сеть-студент получает на вход в основном локальные патчи, а сеть-учитель — только глобальные. Это как бы "учит" сеть-студента по локальным частям картинки понимать, что глобально на этой картинке изображено. Учась на такую задачу, сеть-студент может выучить что-то умное о том, как устроены картинки.

Ну и в конце каждой эпохи веса модели-учителя F_t обновляются на основе весов модели-студента F_s c помощью running mean:

Обновление весов W_t модели-учителя на основе весов модели-студента W_s с помощью running mean

Здесь:

W_t — веса модели-учителя F_t;
W_s — веса модели-студента F_s;
a — некоторое число от 0 до 1.

Авторы замечают, что пробовали разные варианты того, как и когда обновлять веса модели-учителя. Running mean оказался лучше всего. Вообще, в последнее время я эту идею вижу много где в местах, в которых используется одновременное обучение две моделей под одну задачу. Нужно будет про это почитать подробнее и понять, есть ли объяснения, почему именно так работает лучше всего.

Вот псевдокод обучения DINO:

Псевдокод обучения DINO. Источник: https://arxiv.org/pdf/2104.14294.pdf

Как избежать collapse

Self-supervised методы часто страдают проблемой коллапса. Это когда модель в процессе обучения начинает для всех картинок датасета выдавать ограниченный набор векторов на выходе. Например, модель может начать для вообще всех картинок датасета выдавать один и тот же вектор. Это логично, так как такое поведение позволит модели лучшим образом минимизировать лоск-функцию, на которую модель обучают.

Есть много разных способов борьбы с коллапсом. Самый известный, наверное, contrastive learning — это когда модель учат не только выдавать близкие векторы на похожие входные объекты ("позитивные" пары объектов), но еще и выдавать далекие векторы на разные входные объекты ("негативные" пары объектов). Например, так можно обучать модель для распознавания лиц с помощью Triplet Loss. Подаем на вход модели лица одного и того же человека и просим модель выдать на них похожие векторы. Потом подаем на вход модели лица разных людей и просим ее выдать как можно более далекие векторы.

Вот иллюстрация идеи contrastive learning:

Иллюстрация contrastive learning. Источник: https://www.v7labs.com/blog/contrastive-learning-guide

Из-за этой же проблемы в DINO не получится обновлять параметры обеих сетей (учителя и студента) одновременно. То, что параметры сети-учителя заморожены на протяжении эпохи обучения сети-студента, помогает избежать того, что сеть-студент и сеть-учитель одновременно быстро скатываются в коллапс. Пока параметры учителя заморожены, сеть-студент вынуждена пытаться подстроиться под выходы сети-учителя, что не позволяет ей просто начать выдавать одинаковые векторы на любой вход.

Однако в DINO contrastive learning не используется. Возможно, потому, что не совсем понятно, как лучше генерировать негативные пары картинок. Вместо этого авторы DINO предлагают использовать другие две идеи — centering and sharpening of the momentum teacher outputs. Каждая из этих идей по отдельности позволяет нивелировать один из факторов, который приводит к коллапсу, а совместное их применение позволяет DINO не впадать в коллапс совсем и успешно обучаться. Я в этих методах борьбы с коллапсом еще не разбиралась, но как разберусь, напишу об этом статью. Пока что о них можно почитать в секциях 3.1 и 5.3 статьи о DINO.

Результаты

Идея обучения DINO действительно позволяет моделям выучивать что-то полезное о картинках.

Чем это подтверждается: авторы провели много экспериментов, подтверждающих, что ViT, обученный с помощью DINO, выучивает полезную информацию о картинках. Один из них — стандартный способ сравнить "хорошесть" self-supervised модели. Он такой:

Берем модель F, обучаем в self-supervised режиме на тренировочной части ImageNet;
Из обученной модели F получаем эмбецдинги всех картинок тренировочной части ImageNet;
На этих эмбеддингах обучаем простой классификатор (например, однослойную полносвязную сеть или KNN);
Получаем из F эмбеддинги для картинок валидационной части ImageNet, прогоняем их через классификатор, получаем ответы, считаем accuracy.

Проделав такую процедуру для разных self-supervised методов, можно сравнить их "хорошесть" между собой (отмечу, что при сравнении архитектуры всех моделей должны быть одинаковы). А еще можно сравнить все эти модели с supervised подходом. Это все авторы статьи и сделали. Вот результаты:

Результаты сравнения DINO с другими self-supervised подходами

Видно, что DINO выигрывает у многих self-supervised подходов, которые были SOTA'ми на момент выхода статьи.

В разделе 4 статьи описаны и другие сравнения ViT, обученного с помощью DINO, с другими подходами.

А здесь скажем вот что: как упоминалось в начале этого разбора, у ViT, обученного с помощью DINO, появляется интересное свойство: его self-attention карты начинают сегментировать объекты на картинке. Вот примеры того, как выглядят self-attention карты модели для разных пикселей:

Как выглядят self-attention карты модели ViT, обученной с помощью DINO, для разных пикселей. Источник: https://arxiv.org/pdf/2104.14294.pdf

Видно, что для каждого пикселя картинки self-attention карта, соответствующая этому пикселю, по сути сегментирует объект, который к этому пикселю относится.

На основе этого наблюдения можно построить zero-shot сегментацию изображений. Просто берем карту self-attention, выбираем порог и оставляем все пиксели, значение которых больше порога. Это и будет картой сегментации.

И это работает. Авторы провели такой эксперимент: взяли маленький ViT (ViT-s/8), обучили его в supervised режиме на задачу сегментации, и в self-supervised режиме с помощью DINO. Получилось, что self-attention карты DINO сегментируют объекты даже лучше, чем supervised модель! Вот результаты:

Сравнение сегментации картинок с помощью модели ViT-s/8, обученной в supervised режиме, и в self-supervised режиме с помощью DINO.

Заключение

Вот такая вот интересная идея self-supervised обучения vision моделей под названием DINO. Недавно вышла DINO-v2, ее я разберу в следующей статье.

Разбор SAM (Segment Anything Model)

atmyre — Mon, 10 Apr 2023 19:30:59 GMT

SAM — это модель от Meta AI, обученная на новом огромном датасете для сегментации изображений. Этот датасет содержит 11 млн картинок и 1.1 млрд масок сегментации. Meta AI описали, как собирали этот датасет, а также выложили его в открытый доступ вместе с моделью.

Сразу все релевантные ссылки:

SAM — очень мощная модель. SAM способна на одном изображении сегментировать сразу множество объектов, включая объекты небольшого размера и даже те, что модель не видела во время обучения.

Пример работы SAM

Кроме обычного режима "сегментировать все, что есть на картинке" модель еще умеет сегментировать отдельные объекты по запросу пользователя. Запросы могут быть таких видов:

точка (или несколько точек) на объекте. Ставите мышкой точку на объект, который хотите сегментировать, и модель сегментирует этот объект;
bounding box объекта. Мышкой выделяете примерный прямоугольник, в котором находится объект, и модель его сегментирует;
примерная маска объекта. Ручкой как в Paint закрашиваете примерную область, в которой находится объект. И модель эту область уточняет;
текст-описание объекта. Например, "коричневый мишка в руках у девочки". Модель найдет этот объект и сегментирует.

Кроме этого, с помощью хитрого построения входа и постпроцессинга выхода модели можно без дообучения модели (т.е. в zero-shot режиме) решать некоторые задачи, на которые модель напрямую не обучалась. Например, такие задачи:

edge detection;
instance segmentation;
object proposal.

Вообще, авторы считают, что SAM может стать foundation model, т.е. что-то вроде GPT-3 в сфере сегментации картинок. Foundation model — это модель, которая обучилась на какую-то задачу на огромном количестве данных, и это породило у нее способности к решению многих других задач, на которые она напрямую не обучалась, в few-shot и zero-shot режимах.

Правда, прочитав статью, я не уверена, что я с этим согласна. На мой взгляд, те задачи, на которых SAM показывает способности к zero-shot — это та же сегментация, только вид подачи данных на вход модели немного отличается. Т.е. не то чтобы тут у модели возникают какие-то новые неожиданные способности. Но SAM — это точно foundation model в том смысле, что обучена модель была на огромном количестве данных, и из-за этого ее должно быть очень легко дообучить под свою конкретную задачу. Это такой ImageNet для задачи сегментации, короче.

Но давайте подробнее разберемся с тем, как модель устроена и что умеет. А также что это за новый датасет и как его собирали.

Устройство модели SAM

Устройство SAM. https://arxiv.org/pdf/2304.02643.pdf

Устройство модели — на картинке выше. Модель состоит из трёх частей:

Image encoder. Это ViT, предобученный с помощью MAE. Эта часть принимает входящую картинку, которую нужно сегментировать, и превращает ее в вектор (эмбеддинг на картинке)
Энкодер дополнительной инфы (кондишена), на основе которой нужно сегментировать картинку. Это может быть:

Mask — заданная юзером маска для объекта, который нужно сегментировать. Маска подаётся на вход сверточному энкодеру, который выдает эмбеддинг того же размера, что image encoder. Этот эмбеддинг потом суммируется с эмбеддингом из image encoder;
Points — набор точек, которые относятся к объекту, который хотим сегментировать. В этом случае точки переводятся в эмбеддинг с помощью positional encoding'а. Этот эмбеддинг затем подаётся на вход третьей части сети вместе с эмбеддингом картинки, которую нужно сегментировать;
Box — заданный юзером bounding box объекта, который нужно сегментировать. Box также переводится в эмбеддинг с помощью positional encoding. Конкретнее, с помощью positional encoding кодируются координаты его левого верхнего и правого нижнего углов;
Text. Вот тут интереснее всего, потому что в датасете, на котором обучается SAM, нет текстовых описаний к изображениям. И если все другие виды инфы (points, box и mask) можно легко получить для любой пары (картинка, карта сегментации) датасета и на этом нейросеть обучать, то с текстом так легко не выйдет. Как же авторы добиваются того, чтобы SAM могла сегментировать объект на картинке на основе его текстового описания, разберём ниже.

Ну и третья составляющая модели — mask decoder. Она принимает на вход эмбеддинг картинки из image encoder и эмбеддинг допинфы. Архитектура — декодер трансформера с парой добавленных нюансов для лучшей обработки информации (об этом подробнее в разделе А аппендикса статьи).

Важно вот что: mask decoder выдает не одну карту сегментации, а три. Сделано это для того, чтобы модель могла эффективно обрабатывать нечёткие случаи: когда, например, юзер поставил точку, которая может относиться к нескольким объектам на картинке. Например, точка на лице человека: она может относиться как к объекту "лицо", так и к объекту "человек". Если модель выдает только одну карту сегментации, она будет стараться на такие нечёткие запросы выдать карту, которая будет чем-то средним между всеми возможными правильными картами сегментации. А если у нее есть возможность выдавать несколько карт, то каждая карта может соответствовать одному возможному объекту. Количество карт 3 было выбрано эмпирически: авторы говорят, что этого в целом хватает для большинства юзкейсов.

Ниже — пример того, как модель генерирует три маски сегментации для одной точки на изображении:

Пример генерации моделью трех масок сегментации по одной точке на изображении. https://arxiv.org/pdf/2304.02643.pdf

Для каждой выданной карты сегментации сеть также предсказывает confidence этой маски. При обучении сети используется лосс только из самой confident головы.

Датасет для обучения SAM

Для обучения SAM авторы статьи собрали самый большой датасет пар (картинка, карта сегментации). В нем 11 млн картинок и 1.1 млрд масок. Масок больше, потому что на одной картинке в среднем находится много объектов, и для каждого из них маска своя. Можно считать, что у нас есть 1.1 млрд пар (объект на картинке, маска сегментации).

Еще раз ссылки на датасет:

Интересно то, как они датасет готовили: это было не полностью с помощью людей-разметчиков (представьте, сколько бы времени заняло такой датасет собрать и сколько бы это стоило). Собирали датасет в три стадии:

Manual stage. С помощью людей собрали 4.3 млн масок для 120 тысяч картинок;
Semi-automatic stage. На данных с пункта 1 обучили нейронку и ей разметили объекты на 180к картинках. Дальше дали эти размеченные картинки людям и попросили доразметить на них те объекты, которые нейронка пропустила. Чаще всего это были мелкие объекты. В течение этой стадии на новых полученных данных нейронку несколько раз дообучали. Это повысило способность сети сегментировать больше объектов на каждой картинке;
Fully-automatic stage. Взяли нейронку, обученную на данных из второго шага. Для каждой картинки генерили плотную сетку точек, и просили модель сегментировать объекты, соответствующие этим точкам. Из полученных таким образом карт сегментации отбирали те, в которых модель наиболее уверена (confidence высокий). И далее их ещё улучшали с помощью классического NMS. Так и набрали 11 млн картинок с 1.1 млрд карт сегментации. В итоговом датасете 99% масок сегментации были получены полностью автоматически.

Такой подход позволяет, при желании, нагенерить ещё данных. Датасет полностью выложен в открытый доступ вместе со статьей.

Замечу ещё раз, что в датасет вообще нет никаких текстовых описаний к никаким объектам. И если из пар (объект на картинке, карта сегментации) можно легко для объекта сгенерить допинфу для обучения модели — кривую маску, bounding box или точку на объекте, то текстовое описание хорошо сгенерить не выйдет. Ниже обсудим, как же авторам удалось научить модель генерить карту сегментации для объекта на основе текстового описания.

Генерация маски сегментации объекта на основе текстового описания объекта

Теперь, наконец, поговорим о том, как же в отсутствии любых текстовых описаний для картинок в датасете заставить модель понимать текст, и на его основе выдавать сегментацию нужного объекта.

А идея очень классная, на мой взгляд. Вот какая:

Вспомним про CLIP: эта модель выучивает общее пространство эмбеддингов для картинок и текста.

Идея CLIP. https://www.google.com/url?sa=i&url=https%3A%2F%2Fopenai.com%2Fresearch%2Fclip&psig=AOvVaw3VIG5bknAMltNk65nBedp4&ust=1681240388439000&source=images&cd=vfe&ved=0CBIQjhxqFwoTCPDx9NKCoP4CFQAAAAAdAAAAABAE

Из этого возникает такая идея обучения SAM:

У нас есть датасет вида (объект на картинке, маска сегментации для этого объекта). Давайте для каждого такого объекта вырежем прямоугольный кусок картинки с этим объектом и подадим ее на вход CLIP. На выходе получим эмбеддинг картинки, назовем его Х. Так как картинка в целом содержит только наш объект, то эмбеддинг Х будет содержать информацию о том, что на картинке изображен именно этот объект.

Вырезаем bounding box объекта и подаем в CLIP. Получаем эмбеддинг картинки,

Во время обучения SAM будем в качестве псевдо-эмбеддинга описания объекта подавать на вход модели эмбеддинг Х. То есть, CLIP-эмбеддинг куска картинки, содержащей этот объект:

Работа во время обучения SAM

А после обучения, на этапе инференса, будем уже прогонять текстовое описание желаемого объекта через CLIP, и уже его подавать в качестве кондишена. Так как CLIP выучивает общее пространство эмбеддингов для текста и картинок, такая замена эмбеддинга картинки на эмбеддинга текстового описания должна сработать.

Ну и правда работает, вот примеры результатов:

Пример сегментации моделью SAM объектов на картинке по их текстовому описанию. https://arxiv.org/pdf/2304.02643.pdf

Заключение

Вот такая идея модели. Подробнее о нюансах архитектуры, обучения и метриках читайте в статье.

Буду рада узнать, что вы думаете насчет того, насколько эта модель важна и как повлияет на прогресс в области сегментации и CV в целом =)