Агрессивная Нанобанана Про Макс 3000
Project: Baha'i Temple of South
America Archtecture: Hariri Pontarini Architects
Photo: Doublespace Photography
Geo: Santiago, CL
Всем привет. Не ругайте за тишину в эфире: сам себя ругаю за то, что организм почему-то требует иногда времени на сон. Во-первых, конец года, во-вторых, каждую неделю случается какая-то ии-революция которая меняет воркфлоу и требует оперативных внедрений. Есть спец-ресурсы для их отслеживания, поэтому я акцентирую внимание, как правило, на чём-то ключевом. Мы здесь больше про архитектуру.
Предметом на сей раз будет апдейт нанобананы до версии 3 Pro. Ключевых изменений два: мозги от Gemini 3 и нативный 4К. Важно, что 4к у меня потестировать не удалось: результат выдаёт в классическом 1024 как во встроенном интерфейсе гугла, так и в лицензии фотошопа, в которую завезли апдейт бананы сегодня. В сети говорят, что 4к включали ненадолго, но из-за длительной генерации было принято решение откатиться до обычного 1024.
Что такое банан с мозгами от гемини можно немного почитать в оф. релизе: https://deepmind.google/models/gemini-image/pro/
Релиз у меня вызвал такие эмоции, что я потревожил всю команду перед сном и с теми, кто находится на другой половине шарика философски порассуждал в 2 часа ночи, а что собственно дальше?)
Мыслей много и успокаивать вас не буду. Это уже выходит за рамки простого инструмента пайплайна, т.к. решаются и будут решаться задачи, которые ранее можно было делать только руками хороших специалистов: люди, сезоны, атмосфера, детали, наполнение, растения и вообще всё, что душа пожелает, нативно из коробки, применяя не очень умные промпты.
Но всё это меркнет по сравнению с тем, что я подсмотрел у Сергея Цыпцына, где он запульнул чертёж дома во всех проекциях в банан и получил на выходе рендер, в тех же проекциях с сохранением почти всех деталей. Я мельком повторил этот фокус на одном из старых клиентских проектов: далеко не все идеально конечно, однако работает. Сгрузил фасады, генплан, описание ракурса, спецификации, чертежи фасадов и т.п. на выходе получил рендер! Для стадии условного эскиз-проекта сгодится, но это пока 🙂
Сложности с предоставлением доступов к 4к говорит, что нужно железо даже таким монстрам, как гугл и много. Взять по щелчку его не получится, поэтому хотя бы в этом направлении есть небольшая фора: используйте её с умом.
Экспертиза, насмотренность, умение на потоке и не на бумаге решать проблемы, запросы подбирать правильные решения — это будет цениться, но войти в этот круг, просто сидя перед окном с GPT, не получится. LLM — это набор весов, и чтобы они правильно на вас работали, это тоже искусство.
PS Вопрос знатокам: можно ли из РФ привязать биллинг к API Gemini - все перепробовал (разные зарубежные карты, чистые штатовские аккаунты гугла, разные впны - ничего не пропускает)
3D · Render · Photo · Archviz · GORK