Как ИИ‑агенты превращаются в финансовую дыру

Всем привет !

В конце мая появилась новость, которая сначала звучала как ИТ‑анекдот, но очень быстро превратилась в симптом эпохи. Неназванный корпоративный клиент потратил более 500 миллионов долларов всего за один месяц на ИИ‑платформу Claude от Anthropic — после того как предоставил тысячам сотрудников доступ без каких‑либо ограничений по использованию или расходам. Источником стал консультант по искусственному интеллекту, чей клиент и получил этот счёт; детали привели Axios и другие издания.

Формально не произошло ничего «чрезвычайного» в техническом смысле. Компания просто дала широкому кругу сотрудников доступ к Claude через API и веб‑интерфейс, причём в максимально щадящем для пользователей режиме: без индивидуальных лимитов, без панелей мониторинга и без оповещений, которые предупреждали бы о слишком быстром росте расходов. Иными словами, это была политика «пускаем ИИ везде и не мешаем людям им пользоваться», доведённая до логического предела.

Реальный масштаб стал очевиден только тогда, когда пришёл счёт за первый месяц. К этому моменту сотрудники уже не ограничивались перепиской в стиле «вопрос–ответ». Они активно строили агентные конвейеры: многозадачные процессы, в которых модель сама планирует шаги, пишет код, запускает его, анализирует результат, вносит правки и повторяет цикл, пока не дойдёт до цели. Каждый такой шаг — это отдельный API‑вызов, а корпоративные клиенты платят не фиксированную абонентскую плату, а за объём обработанных токенов.

По оценкам, которые приводит в том числе Tom’s Hardware, сложные агентные воркфлоу способны потреблять до тысячи раз больше токенов, чем обычное общение с чат‑ботом. Если умножить это на тысячи сотрудников, работающих параллельно, на отсутствие лимитов и дашбордов, становится понятно, как счёт на сотни миллионов мог накопиться за считаные недели и не вызвать тревоги до момента, когда бухгалтерия увидела цифру в инвойсе.

Этот кейс оказался громким не только из‑за суммы и бренда Anthropic. Он вскрыл сразу несколько слоёв проблем: как корпорации внедряют ИИ быстрее, чем выстраивают финансовый контроль; как метрика «больше токенов = больше продуктивности» превращается в самоцель; и почему сегодняшние ИИ‑агенты по своим эффектам больше напоминают безлимитный облачный хостинг образца 2012 года, чем «умного ассистента» из презентаций.

Как именно сгорели эти деньги: токены, агенты и невидимый счётчик

Если отбросить шок от суммы, в этой истории нет никакой магии. Она собирается из трёх понятных ингредиентов: тарификация по токенам, агентные сценарии и отсутствие видимого счётчика для людей, которые этим пользуются.

В отличие от привычных SaaS‑подписок «N долларов в месяц за пользователя», корпоративный доступ к Claude и другим крупным моделям почти всегда устроен как оплата по факту — за объём обработанных токенов. Токен — это минимальная единица текста или кода, которую модель «переваривает» при каждом запросе: чем длиннее промпт, чем объёмнее контекст и ответ, тем больше токенов сгорает за один сеанс. Для отдельного разработчика это обычно десятки центов или несколько долларов в день. Для компании с тысячами пользователей — уже совсем другая шкала.

Ситуация меняется принципиально, когда в игру вступают агенты. Обычный чат выглядит просто: человек написал запрос, модель ответила, цикл закончился. Агентный сценарий работает иначе: модель сама разбивает задачу на шаги, пишет фрагмент кода, запускает его, анализирует результат, вносит правки и повторяет цикл, пока не получит приемлемый итог. С точки зрения биллинга это уже цепочка из десятков или сотен API‑вызовов там, где раньше был один.

Теперь добавим человеческий фактор. Когда ресурс выглядит «бесплатным на рабочем месте», им пользуются иначе, чем личной картой, привязанной к API. Разработчик, который платит за токены сам, первым делом ставит лимиты и алерты. Корпоративный пользователь, который не видит счёт, о них даже не задумывается. В результате ИИ‑платформа может месяцами работать как бесконечно дорогой, но очень молчаливый дата‑центр — пока кто‑то не заглянет в сводку расходов.

Токенмаксинг: когда токены становятся новой формой показухи

В англоязычной ИИ‑тусовке для происходящего уже придумали отдельное слово — tokenmaxxing, по‑русски чаще пишут «токенмаксинг». Термин всплывает в разборах вокруг Amazon и их внутреннего рейтинга KiroRank, а также в аналитике о корпоративных расходах на ИИ, но в мейнстрим‑медиа почти не звучит, так что для широкого круга читателей пока остаётся незнакомым.

Суть явления довольно приземлённая. Когда внутри компании запускают ИИ‑инициативу, кому‑то нужно показывать «успех внедрения» в цифрах. Самая простая и доступная метрика — не бизнес‑показатели, а технический суррогат: сколько токенов сожгли, сколько запросов сделали, сколько часов агент «работал». Если не быть аккуратными, эта метрика быстро превращается в цель сама по себе: команды соревнуются в объёмах использования, руководители радостно демонстрируют графики роста потребления ИИ‑сервисов — и почти никто не задаёт прямой вопрос: «А что мы получили взамен?»

Показательный пример — история Amazon. Там существовала внутренняя система KiroRank, где сотрудников ранжировали по объёму потреблённых токенов ИИ. Логика была простой: больше используешь — значит, активнее внедряешь ИИ в работу. На практике это привело к ожидаемому результату: сотрудники начали намеренно завышать использование ради рейтинга, запускать лишние задачи и удерживать модели занятыми просто для того, чтобы «тикал счётчик». В итоге компания получила рост вычислительных издержек без сопоставимого роста продуктивности — и KiroRank пришлось закрыть.

История с полумиллиардным счётом за Claude устроена немного иначе, но корень тот же. Когда сотрудникам раздают доступ к мощному ИИ‑инструменту без ограничений и без прозрачной связи между токенами и деньгами, токенмаксинг возникает почти автоматически — даже без злого умысла. Агентные цепочки растут в длину, сценарии становятся всё тяжелее, потребление ресурсов воспринимается как признак активности и «продвинутости», а реальная бизнес‑ценность редко обсуждается на том же уровне детализации, что и красивые демо.[

Если не зафиксировать эту проблему в словах, она легко остаётся невидимой: «ну да, много потратили на ИИ, зато как круто он у нас работает». Появление понятия токенмаксинга — полезный симптом взросления индустрии. Как когда‑то FinOps дал язык для разговора об облачных расходах, так сейчас это слово помогает честно обсудить ситуацию, в которой объём токенов стал новой формой показухи — и незаметно превратился в дыру в бюджете.

Хайп, льготные подписки и момент отрезвления

Важный контекст этой истории — то, как сами ИИ‑компании разгоняли спрос на свои сервисы последние пару лет. Модель была довольно классической: бесплатные тарифы, щедрые лимиты, льготные условия для корпораций, бонусные токены — всё ради того, чтобы как можно быстрее вырасти по аудитории, пока конкуренты не успели подтянуться. Anthropic, OpenAI, Google и другие крупные игроки годами сжигали инвесторские деньги ради роста, а не ради устойчивой юнит‑экономики.

Проблема в том, что у такой стратегии есть точка перелома. В какой‑то момент вычислительные мощности перестают успевать за спросом, а субсидированный рост начинает просто съедать прибыль. Тогда у компании остаётся несколько вариантов: поднять цены, урезать лимиты или мириться с убытками. Все три сценария мы уже начали видеть вживую: Google меняет систему лимитов Gemini и несколько раз в спешке пересматривает их после волны пользовательских жалоб, OpenAI аккуратно ограничивает возможности бесплатного ChatGPT, Anthropic вводит новый формат корпоративных закупок через Claude Marketplace, чтобы сделать расходы предсказуемее.

С этой точки зрения кейс на $500 млн — не сбой, а естественный «момент отрезвления». Он показывает, что эпоха условно бесплатного ИИ для корпораций заканчивается, просто потому что инфраструктура и бюджеты не выдерживают прежних темпов роста. А вместе с ней заканчивается и период, когда можно было раздавать мощные ИИ‑инструменты без оглядки на то, как они будут использоваться и кто платит за каждую дополнительную тысячу токенов.

Параллели с облаками и телефонией: мы это уже видели

Во многом происходящее напоминает историю с облачными вычислениями десятилетней давности. В начале 2010‑х все радостно переезжали в AWS и другие облака, наслаждаясь тем, что ресурсы можно получать «по щелчку» и платить только за фактическое использование. Через какое‑то время начали появляться истории про забытые тестовые инстансы, которые месяцами крутились в продакшене, и про счета на десятки тысяч долларов за невовремя закрытый S3‑бакет. Ответом индустрии стало появление FinOps — целой дисциплины по управлению облачными расходами, с дашбордами, бюджетами и ответственными за каждый ресурс.

Ещё одна параллель — телеком и классический международный фрод. В эпоху традиционной телефонии взломщики подключались к корпоративным АТС и гоняли трафик на премиальные номера, пока оператор или сама компания не замечали странную активность. В какой‑то момент операторам стало ясно, что молчать невыгодно: да, на каждом таком кейсе можно было заработать, но репутационный и регуляторный риск перевешивал. Пришлось строить системы fraud detection, отсечки и автоматические алерты.

С ИИ‑агентами мы сейчас примерно в той же точке, только цикл сжат сильнее. Токены накапливаются быстрее, чем минуты звонка, а агенты не спят и не уходят в отпуск. Управленческие практики и финансовые инструменты ещё не успели догнать технологию. Поэтому на первый план выходят именно такие истории: они болезненные, но полезные — индустрия видит, чем заканчивается внедрение ИИ без взрослого контроля.

Unit economics агентов: прирост производительности против скрытой себестоимости

Отдельного разговора заслуживает экономика ИИ‑агентов. В маркетинговых материалах про них чаще всего говорят так: «агент выполнит тысячу операций вместо десяти, ускорит команду в пять–десять раз, снимет рутину с людей». Всё это звучит логично и местами соответствует реальности. Но в этих обещаниях почти никогда не проговаривается вторая часть уравнения: сколько стоит каждая из этих операций и не съедает ли эта себестоимость всю потенциальную выгоду.

Классический пример, который приводится в обсуждениях вокруг Claude Code: по данным источников, Microsoft сократила внутренние лицензии этого инструмента после того, как расходы на одного инженера достигли 500–2000 долларов в месяц. На фоне общей зарплаты разработчика в США это может выглядеть не так страшно. Но если объективный прирост продуктивности — условные 20–30 процентов, то экономия рабочего времени и дополнительная выручка легко оказываются сопоставимыми с расходами на токены и лицензии. Реальный эффект становится размазанным и далеко не всегда положительным.

То же самое можно применить и к кейсу на $500 млн: если смотреть только на «тысячи выполненных агентом операций», история выглядит как триумф производительности. Если добавить к этому стоимость этих операций, картина меняется. Автоматизация, которая на бумаге должна была дать преимущество, превращается в источник риска для P&L, просто потому что никто не считал unit economics до момента масштабирования.

Что делать компаниям: зачатки «FinOps для ИИ»

Из всего этого напрашивается довольно тривиальный, но почему‑то до сих пор неочевидный вывод: ИИ‑сервисы нужно изначально рассматривать как серьёзную инфраструктурную статью затрат — с теми же подходами к контролю, что применяются к облакам, сетям или телеком‑каналам. Аналитики, которые комментируют историю с полумиллиардным счётом, фактически говорят одно и то же: «нельзя управлять тем, что не измеряешь».

На практике это значит несколько вещей.

Во‑первых, нужны дашборды затрат в реальном времени: не агрегированный счёт раз в месяц, а живое представление того, сколько токенов сжигает каждая команда, каждый агентный сценарий и каждый продукт.

Во‑вторых, нужны жёсткие лимиты и алерты: потолки по проектам и пользователям, уведомления при достижении порогов, механизмы автоматического отключения или деградации сценариев при выходе за рамки. Это может казаться «тормозом внедрения», но на деле экономит и деньги, и репутацию.

В‑третьих, нужен регулярный аудит: перед масштабированием ИИ‑решения стоит ответить на простой вопрос — что мы реально получили от пилота, кроме красивых демо и внутренних презентаций? Какие процессы ускорились, какие показатели выросли, где агент дал измеримый эффект, а где просто потратил токены.

По сути, речь идёт о зарождении «FinOps для ИИ» — отдельной практики, которая будет помогать компаниям не только внедрять модели, но и жить с их экономикой.

Вместо эпилога: конец эпохи «бесплатного ИИ» — и это нормально

История с полумиллиардным счётом за Claude легко читается как очередной страшный анекдот про безответственных менеджеров и жадных провайдеров. Можно воспринять её и иначе — как точку взросления индустрии. Эпоха условно бесплатного ИИ, льготных подписок без ограничений и романтического отношения к токенам заканчивается. На смену ей приходит более прозаичный, но необходимый этап: считать, сравнивать, проектировать системы не только по «вау‑эффекту», но и по unit economics.

Мы никого здесь не поучаем и не призываем «резко перестать пользоваться ИИ‑агентами». Скорее фиксируем собственное впечатление от происходящего. За последние пару лет индустрия успела убедить всех, что ИИ — это прежде всего про прирост производительности. История на 500 миллионов напоминает: без разговора о себестоимости и управлении ресурсами любой прирост легко превращается в дым, пусть и очень технологичный.

Всем удачи!

Ваш AppleScroll