Hidden Gem - LLava 1.5

интернет начиная с августа месяца

Ладно, на самом деле картинка не верна, если нормально померить - gpt4v будет обгонять любой опенсурс на любом бенче, но api нет, папиры нет, а значит я могу клипать смешнявки на потеху публике.

Архитектура простая простейшая - давайте возьмем LM пожирнее(Vicuna 13b - удачный тюн llama), а дальше начинаются фокусы:

Обучение идет в два этапа

Треним на LAION-CC-SBU - кусок LAION размеченный BLIP, причем учим ТОЛЬКО тонкую матрицу projection поверх вектора из CLIP, за счет чего экономиться куча ресурсов - у нас все остальное заморожено! А сама проекция идет в IMAGE_TOKEN - выделенный токен под картинку, в него мы пихаем всю информацию. Короче Prefix tuning чистой воды.
Учим уже и Projection матрицу и LM на сете диалогово инстуктивного формата.

Собирался он так: брали COCO17(это кэпшены) и просили GPT4 написать диалог на их основе! Easy peasy

А еще они научили ее предсказывать bounding boxes!

Что по итогу? Вероятно самая вкусная open source Instruction - VIsion модель из возможных, а еще она cheap as fuck, сотни тысяч картинок можно размечать на паре карт, а качество будет достаточным для DAlle3 дома.

Красивые картинки из статьи:

Да, она еще и OCR умеет, ее научили парсить тексты, а еще она умеет читать рукописные буквы в том числе.

Если вам нравиться такой формат, то можно поддержать сюда, я перестал брать рекламу, а кофе и круасан сам себя не оплатит:
Для русских карт: 5280417710524519
Для иностранных карт: 5269880013404165