April 10, 2023

Pix2Struct

Вообще забавно, сколько годнейшего ресерча проходит мимо всех просто потому что в твиттере никто не запостил толком....

где то я видел недавно модель которая тоже умела вытаскивать дофига всего с картинок, но архитектурно не было пояснений а чо внутри.... где же...

Обучение оригинальной pix2struct было похожим на обучение bart like модели на mlm task, но с рядом отличий

  • Ну очевидно учили на парах картинка-текст, на mlm
а и предсказывали HTML в ориге
  • в качестве претрейна сделали следующее: взял сет Book corpus, средерили(ака перевели в картинки тексты) и обучили на этом модель
  • Пачка сетов пар UI render - html
  • Screen2words - что на картинке и что оно делает
типа такого

Мне лениво пересказывать, но коротко - оно решает все и при этом бьет соты, при этом еще и по качеству оно сильно перебивает конкурентов