Ящик в банке: что за фигня SberBox
Почти месяц не было статей — это не специально, а потому что запланированная статья про умные колонки отложена из-за неготовности некоторых помещений в квартире. Но stay tuned, а пока расскажу про не менее забавную вещь — голосовую платформу Сбера и устройство SberBox.
Экосистемы
В сентябре прошлого года Сбербанк представил свою экосистему, которая включает купленные компанией сервисы для стримминга кино (Okko), проигрывания музыки (Zvooq, а ныне СберЗвук), такси (Ситимобил), доставку продуктов (бывший Самокат), а также несколько софтварных и хардварных решений. В первую очередь семейство голосовых помощников и пару умных устройств, о чем я расскажу ниже.
Стало понятно, что в капиталистически неограниченной среде для гигантских компаний остаётся только один способ дальнейшего роста — мутация. Поэтому все крупные игроки скупают мелких и строят экосистемы, добавляя к себе продукты и услуги, которые изначально никак не были связаны с главной функцией компании. Так в интернет-поисковике Яндекс появился, например, заказ еды и каршеринг, причем сейчас обе этих функции живут в одном приложении бок о бок. А в социальную сеть ВКонтакте добавили такси (тот же Ситимобил, пополам со Сбером) и платёжную систему с теперь уже выпуском своей банковской карты.
Это всё может показаться диким и странным с точки зрения привычного нам здравого смысла. Зачем десятый по счёту таксопарк или двадцатая доставка еды, тем более там, где я просто выкладываю фоточки? Однако, стоит посмотреть изнутри самих компаний, которые это делают, вопрос превращается в «Зачем мне дома стиральная машина, если такая же есть у соседа?». Всё это смесь собственничества, жажды заработка и синдрома not invented here. Каждая компания в пределе стремится стать единственной в мире корпорацией, делающей абсолютно всё, от автомобилей до туалетной бумаги, а затем построить свой город, превратить его в страну и объявить в ней свои законы. Это, кстати, очень популярный у фантастов и футурологов сценарий вероятного будущего — корпорации заменят государства.
Три по цене одного
Но я отвлекся. К стандартному у всех набору «чай-кофе-потанцуем такси-еда-музыка» стали добавлять голосового помощника. Крепкого business value у этих штук нет до сих пор, об этом я подробнее расскажу в следующей статье, но большинство аналитиков в корпорациях думает, что оно (это самое value) вот-вот появится. К тому же, сейчас стыдно быть корпорацией и не иметь своего голосового ассистента — пацаны во дворе не поймут.
Так что Сбер сделал сразу трёх. Ну, точнее, ассистент один, просто внутри него три разных персонажа. Отличаются они цветовой схемой, тембром, полом, немного манерой речи. Можно на выбор в один момент времени включить себе любого из трёх. Насколько я успел понять, это просто развлечение: запросы они обрабатывают одинаково, разницы в функциональности тоже нет.
Вы, кстати, можете попробовать пообщаться с ним прямо сейчас. У вас на телефоне наверняка установлено приложение Сбербанка. Ну, если вы модный хипстер, грустящий по почившему «Рокету», то всё равно установлено, чтобы маме деньги переводить и за квартиру платить. Ладно, можете не скрывать, я то знаю: «У пиратов купишь диск, и друзьям не скажешь...». Короче, запустите установленное у вас приложение Сбербанка и нажмите кнопку вверху справа от строки поиска. Эту функцию можно обнаружить весьма неожиданно для себя, а сам Сбер пока что по ощущениям продвигает её очень слабо. По крайней мере, мои тестовые запуски рекламы с предложением для аудитории нажать на эту кнопку не увенчались успехом, а пользующиеся Сбербанком, но далёкие от айти друзья ничего об этом не слышали.
Персонажа там три: главного так и зовут — Сбер — и по задумке он вполне нейтрален. Для менее формального общения есть Джой, которая веселится и обращается к пользователю на «ты». Синим же цветом представлена Афина — лично я во время презентации подумал, что она должна иметь характер строгого машинного интеллекта для гиков, но на практике отличить её по фразам от Сбера довольно сложно. Включается любой персонаж фразой «Позови...» и имя.
Кстати, синтез голоса довольно приятный. Местами работает лучше, чем у Алисы. Любопытно, что большинство фантастических произведений демонстрируют голос ИИ, как нарочито машинный, с металлическим оттенком, но на практике никакому в мире голосовому помощнику такое звучание не придали.
Платформа для разработчиков
Если вы не разработчик или не интересуетесь программированием под голосовых ассистентов, можете смело пропускать этот раздел.
Когда ВКонтакте представили своего умного ассистента Марусю, я посмотрел их протокол для написания навыков (голосовых ботов внутри платформы) и увидел точную копию протокола Яндекса годичной давности. Сейчас они, конечно, стали расходиться, но сам факт неоднозначный: с одной стороны, порог входа ниже, а с другой нет новшеств.
Сбер поступили совершенно противоположным образом. Они выкатили платформу, которая практически ничего общего не имеет с конкурентами. Плюсы и минусы поменялись местами: порог вхождения сразу вырос, зато добавилось много нового, чего у конкурентов нет.
Возможность разработки представлена тремя способами:
- Визуальный редактор блок-схем под названием SmartApp Graph
- Сервис облачных функций и облачная IDE на JavaScript под названием SmartApp Code
- HTTP-протокол с поддержкой вебхука под названием SmartApp API
Персонально мне не нравится это и на уровне идеи, и на уровне реализации. Идейно я в целом скептически отношусь к nocode-решениям, потому что для хорошей работы с ними человек должен знать алгоритмы и структуры данных. Nocode создаёт иллюзию низкого порога вхождения, из-за чего появляются не слишком качественные продукты. Но это лично моё мнение, как программиста, а я в данном случае предвзят.
С реализацией же проблема главным образом в том, что всё очень сыро: часть функций поддержаны только в определённых методах разработки (например, загружать изображения можно только в Graph и Code, статистика тоже есть только там), документация где-то не дописана, где-то с ошибками, произвольные баги и глюки возникают при одинаковых сценариях в разных методах, в именовании свойств каша: где-то camelCase, где-то snake_case, уровень вложенности дикий... короче, площадку явно выкатывали раньше срока и впопыхах.
В работе это тоже проявляется. Сообщество стало ловить глюки сходу же. И даже после нескольких месяцев существования платформы я с первого раза написал навык, который полностью роняет SberPortal на уровне операционной системы (не специально). В других местах тоже полно косяков: где-то глючит звук, где-то не выводятся сообщения, админка для разработчиков раз в неделю вылетает, вёрстка в тестовой среде едет...
В защиту платформы, однако, могу сказать две вещи:
- Администрация супер быстро реагирует на всё. От технических проблем до самых тупых вопросов. Ваш покорный слуга долбал мозги сотрудникам Сбера несколько дней подряд и всегда получал терпеливые подробные ответы, в том числе на длинные пространные рассуждения в личку. Поддержка вообще выше всяких похвал: любую проблему решают вручную и чаще всего в пользу разработчика, а про технические неисправности явно обозначают срок реализации и держат открытый Roadmap.
- Возможностей ну прям очень много. В распознавании и синтезе речи полно крутых фишек: например, подробная морфологическая карта всех произнесённых пользователем слов, с граммемами, леммами, в некоторых случаях оценкой семантики. Или, допустим, возможность указать ассистенту, как долго ему нужно дослушивать сообщение человека. И в дополнение полноценный HTML движок для вывода абсолютно любого интерфейса под своё приложение.
Да, площадка сделала акцент на устройствах с экранами, и это ещё одно серьёзное отличие от конкурентов. Amazon изначально продвигала свою Alexa исключительно как колонку, мобильное приложение всегда было глубоко вторично и урезано по возможностям, из-за чего у пользователей сформировались устойчивые подходящие под голос UX-привычки. А вот Яндекс продал всем Алису в телефоне, и это породило две взаимосвязанные проблемы:
- Разработчики делают навыки, копируя обычных экранных чатботов с кнопками и картинками;
- Пользователи общаются с Алисой в телефоне, как с обычным текстовым чатботом с кнопками и картинками.
Яндекс пытался устранить эту проблему принудительно, добавив, например, в условия Премии Алисы (конкурс для разработчиков навыков) необходимость обязательной работы с колонки, а также проводя регулярные мастер-классы и лекции на тему того, как нужно на самом деле работать с голосом. Удастся ли переучить толпу бестолковых тыкающих в экран юзеров — посмотрим.
У меня был курьёзный случай на эту тему. На одном из хакатонов мы с командой делали навык в Алисе, и отработали кучу возможных сценариев голосовых фраз. Первый же член жюри нажал в навыке на кнопку и уронил нам бэкенд, потому что мы вообще не подумали об обработке кнопок. Привыкшие работать с Алисой правильно, мы забыли про то, что кнопки в ней тоже можно нажимать. Да, прямо как в шутке «Тестировщик заходит в бар...».
У тебя в заголовке SberBox, ну и где?
Ладно. На момент написания этой статьи Сбер высылает SberBox любому разработчику, который сделал приложение на их платформе и опубликовал его, пройдя модерацию.
SberBox это такая медиаприставка к телевизору или монитору, втыкается в HDMI, воспроизводит картинку и звук, а ввод осуществляется кнопками + голосом с помощью пульта. У Яндекса был подобный проект Яндекс.Модуль, и они сняли его с производства по неизвестной мне причине. В случае со Сбером это копия Okko Smart Box. С учётом внедрения Okko в Сбер, не знаю, будет ли продаваться ещё вариант со старым брендом.
В коробке сама приставка, блок питания для неё, пульт и внезапно две накладки-«джойстика» для управления на экране смартфона.
Устройство сделано качественно, пластик очень хороший. Видно, что это не ширпотреб, а вполне себе серьёзный продукт. Упаковка тоже отличная — в меру экономная, удобные язычки везде где нужно, батарейки для пульта в комплекте. Смущает только использование устаревшего Micro USB вместо пришедшего ему на смену USB Type-C. У меня дома, кажется, последнее оставшееся устройство с Micro USB это геймпады от предыдущего поколения PlayStation. Телефоны, экшен-камеры, квадрокоптер, даже Яндекс Станция Мини — все уже с Type-C.
Устройство подключается и настраивается тривиально. Логин происходит через код, переданный в приложение Салют на смартфоне. Это чуть хуже, чем вход по QR (думаю, Сбер в какой-то момент прикрутят такое, в других местах у них есть), но значительно лучше, чем отсталый и недопустимый в 2021 году ввод логина и пароля вручную пультом, выбирая кнопки по одной. Такой логин до сих пор в PlayStation 4, и это прям ужасно.
В самом устройстве интерфейс местами подтормаживает — чувствуется относительно слабое железо. Хотя теоретически его четырёхъядерный ARM Cortex-A53 должен поддерживать UltraHD 4K (но мне пока не на чем проверить).
Больше ли внутри, чем снаружи?
На текущий момент в системе есть Okko, игры и приложения, музыка, ТВ-каналы, YouTube и, собственно, сам голосовой ассистент.
Проблема Okko и музыки в том, что они требуют дополнительной авторизации в отдельные аккаунты в соответствующих сервисах, хотя я надеялся, что логина через основной профиль Сбера будет достаточно, как это, например, происходит у Яндекса и Кинопоиска. Так что музыку я не попробовал вообще, а Okko закрыл после того, как у трёх первых нажатых мною фильмов всё ещё осталась цена за просмотр, хотя у меня куплена подписка. Вообще, такая проблема есть и у Яндекса, но они как-то хитро прячут платные фильмы. Здесь же ситуация порождает предельно негативный UX — купив подписку, я ожидаю, что весь контент внутри уже мой, но меня просят закинуть в щель ещё сантиков. Лучше бы подписка стоила дороже, но давала доступ ко всему без ограничений.
Но вообще, беда экосистемных медиаприставок, как средств для просмотра кино, в ограниченности выбора площадок. Никакая одна площадка никогда не будет содержать весь существующий контент. Поэтому простенькая TV-приставка от Xiaomi, как кандидат на подключение к вашему телевизору, выглядит лучше, чем SberBox или какая-нибудь Яндекс Станция. На Xiaomi можно поставить Netflix рядом с теми же Кинопоиском и Okko, а при некотором умении — стримить фильмы с собственного домашнего медиахранилища (сами фильмы при этом берутся с торрентов — слышал, люди так делают).
Среди игр помимо того, что сделали ребята из сообщества, есть продукты от партнёров. Как правило, это простенькие головоломки и казуалки мобильного формата. Сидя дома рядом с телевизором, к которому можно подключить PlayStation, вряд ли кто-то станет воспринимать такие развлечения всерьёз — обычно в подобные игры заходят, чтобы убить время по дороге куда-то или от скуки в офисе. Про приложения вообще не буду говорить — сложно представить себе бизнес-сценарий, для которого использовать голосового ассистента в телевизоре предпочтительнее, чем достать из кармана смартфон.
YouTube работает хорошо, умеет логиниться в аккаунт и смотреть подписки, ищет по названию каналов. Но половина важной функциональности здесь реализована самим YouTube (например, отправка видео с телефона на SmartTV).
Ассистент требует нажимать кнопку на пульте для активации. Вообще, конечно, пульты сами по себе зло, от них в наше время нужно избавляться. Они постоянно валяются по всей квартире, но когда нужны — теряются. Наличием ещё одного я не слишком доволен. Нажатие кнопки для каждой фразы голосом, на мой взгляд, убивает главную фишку голосового управления — возможность не взаимодействовать с устройством физически, а заниматься своими делами. Если у вас заняты руки, или вы не хотите вставать с дивана, то сказать телевизору нужную команду — это удобно. Если вы взяли в руки пульт, то можно и понажимать, голос становится нужен только для текстового поиска, а поставить на паузу или выключить быстрее кнопкой.
Но помощник распознаёт очень хорошо, а синтез у него/неё приятный, как я говорил выше. Пока что он(а) не понимает фразы за пределами контекста приложения, в котором находится (например, если в YouTube сказать «закрой YouTube», он ищет видео со словом «закрой»), однако, базовые вещи реализует адекватно.
Послесловие
Сбер сделал ставку на устройства с экраном: даже SberPortal это аналог обычной умной колонки с почти буквально приклеенным к ней экраном. Сработает ли эта ставка — сложно сказать. На мой субъективный взгляд удобство ввода/вывода через экран и различные кнопки-пульты будут потихоньку выдавливать голосового помощника, и он станет рудиментарной функцией, которую используют полтора землекопа в полутора процентах сценариев, как это произошло на смартфонах с Siri и Google Assistant. Пока что голосовое использование более-менее оправдывает себя только на колонках без экрана — но о них будет следующая статья.
За пределами голоса на текущий момент экосистема уступает аналогам по объёму контента. Маркетинг и позиционирование тоже вызывают вопросы — большинство известных мне пользователей Сбербанка ничего не слышало о Салюте. Что касается разработчиков, то Сбер объявил конкурс на создание приложений, критерии в котором противоречивы: в первом этапе победили популярные игры, а для следующих этапов добавили ещё и номинацию, в которой нужно сделать как можно больше приложений независимо от их качества и сложности. При этом официально заявляется, что площадка хочет стать интересной для бизнеса и многофункциональной для пользователя, хотя если прямо сейчас зайти в каталог, то категория с играми превышает любую другую по наполненности в несколько раз.
Однако, несмотря на сырой запуск, технически платформа очень мощная и содержит в себе много потенциала. Ошибки быстро устраняют, новые функции вводят, а если вдруг сработает ставка на экраны, то ещё и аудитория придёт. Пока что это одно из самых интересных предложений для разработки под экосистему. У Яндекса есть только Алиса, не имеющая визуальной части, и так и не создавшая у себя в навыках действующий рынок. У ВКонтакте есть миниприложения, активная аудитория которых состоит, кажется, из детей, из-за чего там совершенно произвольно выстреливают то клоны некогда популярных сервисов, то примитивные вирусные развлекаловки. А рынок игр в классических соцсетях уже давно поделен студиями с крупными бюджетами и отсутствием фантазии.
Сбер же предлагает все возможности HTML, интересный движок для работы с голосом, а также обещания, что появится аудитория и рынок. Мы, конечно, такие обещания слышали на многочисленных митапах от других компаний, а воз и ныне там, но про Сберовский воз хотя бы пока нет точной уверенности, что он не поехал.