Большие числа, которых у тебя никогда не будет ?))

Почему твоя статистика плоха или ГХХЭ , если хвосты толстые (Extended Cut).

Ты привык считать как нечто среднее. Средний P&L на сделку, среднюю доходность за месяц, средний Sharpe. Бабушка твоя вяжет носки, а ты вяжешь из исторических данных «ожидалку» и молишься на неё. Так вот, у меня для Вас новость, и она Вам не понравится.

Нассим Талеб разобрал эту тему в работе The Law of Large Numbers Under Fat Tails. Потому что если твои returns не из гауссова болота, а из реального мира — с опционами, криптой, нефтью, волатильностью — то всё, что ты знаешь о сходимости среднего, можно выкинуть в мусорку. И сегодня мы копнём глубже: поговорим про частичные ожидания, stable-распределения, почему твой риск-менеджмент — самообман, и как не просрать депозит, когда сам чёрт не знает, какое у тебя истинное матожидание.

Ты живёшь в мире Парето, а думаешь как Гаусс

Напомню базу. По слабому закону больших чисел, если у тебя есть последовательность i.i.d. случайных величин с конечным средним m, то выборочное среднее X̄ сходится к m по вероятности при n → ∞. КРУТО? Только вот мы не живём при n → ∞. Мы живём при конечном n, и разница между сходимостью в пределе и сходимостью в реальности — это пропасть размером с твой потенциальный drawdown=)))

В нормальном мире (Гаусс, ЦПТ) сходимость быстрая: корень из n рулит, и 100 наблюдений уже дают тебе какую-то уверенность. А теперь представь, что твои доходности — это степенной закон с хвостовым показателем α между 1 и 2. Это значит, дисперсия бесконечна или почти бесконечна, и закон больших чисел работает, но так медленно, что его можно не дождаться до пенсии. Талеб выделяет три режима:

Case 1a: дисперсия и все моменты существуют (Гаусс или около). Сходимость охуенная, ЦПТ в деле, 30 точек — и ты уже что-то можешь сказать.
Case 1b: дисперсия существует, но высшие моменты — нет (α ≥ 2, но куртозис дикий). Сходимость есть, но тормозная, нужно больше данных.
Case 2: дисперсия не существует (1 < α ≤ 2). Вот тут пиздец. Среднее существует, но сходимость чудовищно медленная. Это наш главный злодей.

Почему это важно для трейдера? Потому что рыночные доходности — это Case 2. Ты думаешь, твой P&L распределён как нормальный? Посмотри на хвосты: крипта, опционы, сырьё, даже S&P 500 во время кризисов. Там α часто около 1.2–1.5. А теперь держитесь за стул.

Sample equivalence: сколько данных тебе реально нужно?
Спойлер: до*уя

Талеб вводит понятие «sample equivalence» — сколько нужно наблюдений n_α для распределения с толстыми хвостами, чтобы получить ту же точность оценки среднего (в смысле среднего абсолютного отклонения, L¹), что и для гауссова с n_g наблюдениями. Он не использует L², потому что дисперсии может не быть, и L¹ — более надёжная метрика. Так вот, цифры (для n_g = 30, как пример):

α = 2 (Гаусс): n_α = 1 (база)
α = 1.75: 56 наблюдений
α = 1.5: 574 634 наблюдения
α = 1.16 (классическое 80/20): примерно 6×10¹² наблюдений
Для скошенных и односторонних хвостов — ещё больше, вплоть до 2×10¹⁴
ПРОСТО ПРЕДСТАВЬТЕ ЭТО КОЛ-ВО ДАННЫХ!!

Что это значит? Если твоя стратегия генерит убытки с хвостом α=1.16 (редкие, но убийственные лузы), то чтобы твоя оценка среднего P&L имела ту же погрешность, что у гауссианы с 30 сделками, тебе нужно шесть триллионов сделок. Ты делаешь одну сделку в день? Поздравляю, тебе понадобится примерно 16 миллиардов лет — аккурат к тепловой смерти Вселенной ты поймёшь, что торговал в минус =)))))))))

На практике: у тебя есть 100 сделок за год. Ты считаешь средний профит — плюс 0.2%. Ты рад. Но при α=1.5 точность твоей оценки такая же, как у гауссианы после 0.002 сделок. Ты просто ещё не встретил хвост. А он придёт. И когда придёт, твой «плюс» станет минусом, а ты будешь сидеть с убытком в 10 годовых доходностей и думать, какого ху*.

Почему стандартное отклонение — МИФ),
а «волатильность волатильности» тебя убивает

Многие думают: «Ок, среднее считать нельзя, давай считать стандартное отклонение». Но при α ≤ 2 дисперсия не существует. А если α чуть больше 2, дисперсия существует, но её выборочная оценка так скачет, что лучше бы не существовала.

Талеб вводит кумулянты C₁ = E(|X - m|) — среднее абсолютное отклонение, и C₂ = E(|X - E(|X - m|)|) — «волатильность» этого самого отклонения.
И показывает, что если взять гауссову и степенную выборки с одинаковым C₁, то у степенного закона C₂ будет в разы выше.
Например, для α=1.5 C₂ в 1.4 раза больше, чем у гауссианы.
Это значит: твоя оценка разброса сама имеет дикий разброс.
Ты посчитал VaR 99% по истории — получил 5%.
А на следующий день рынок делает -12%, потому что хвост толще, чем ты думал, и твоя оценка VaR была просто шумом.

Отсюда правило: никогда не используй Sharpe ratio для активов с толстыми хвостами. Sharpe делит excess return(избыточная доходность) на стандартное отклонение. Если дисперсия бесконечна, ты делишь на бесконечность — получаешь ноль независимо от реальной доходности. Если дисперсия конечна, но хвосты толстые, выборочный Sharpe будет завышен, потому что ты недооцениваешь волатильность в плохие времена.
Классика: хедж-фонд показывает Sharpe 2.0 на истории, а потом получает -30% за месяц. Разве это не правда?? LTCM как там дела?

Аналогия для трейдера: твой бэктест — это ложь (сочнее)

Давай на конкретном примере. Ты торгуешь опционы на Brent: продаёшь стрэнглы с дельтой 10, собираешь тетту. 80% месяцев ты закрываешься в плюс (маленький профит), 20% — в минус, причём минус может быть в 10 раз больше плюса. Распределение твоих P&L — это смещённое распределение с толстым левым хвостом. Хвостовой индекс для убытков около 1.3.

Ты делаешь бэктест за 5 лет, 60 месяцев.
Считаешь средний месячный доход: +1.5%.
Думаешь: «Система рвёт/ЕПАШИТ, я гений». Но по таблице эквивалентности тебе нужно порядка 400 000 месяцев (>30 000 лет) для хоть какой-то надёжности. Твои 60 — это пшик. Ты просто не видел настоящей движухи, типа 2020 или 2008. Когда прилетит хвост (а он прилетит), ты сольёшь всё, что заработал за 5 лет, и останешься должен.

Второй пример: HFT стратегия, скальпинг стакана. У тебя 10 000 сделок в день. Казалось бы, большие числа работают? Да, но если распределение удара по цене имеет толстые хвосты (например, из-за внезапных разрывов ликвидности), то даже при 1 млн сделок средний профит на сделку может быть шумом. Ты будешь видеть плюс, а реальное матожидание — отрицательное, просто хвосты редкие, но убийственные.

Модельная неопределённость: когда даже хвост неизвестен (stochastic α)

Талеб идёт дальше: а что если мы не знаем истинный α? На практике мы его оцениваем по истории, и оценка сама есть случайная величина. Например, α может быть распределён логнормально вокруг некоторого α₀ с волатильностью σ_α. Тогда смесь распределений с разными α даёт ещё более толстый хвост. Это выпуклость, собака-такая: ожидаемое n_α для смеси больше, чем n_α для среднего α. Иными словами, неопределённость параметров делает твои оценки ещё более оптимистичными.

Представь, ты смотришь на исторические убытки и оцениваешь хвостовой индекс как 1.8 (вроде не так страшно).
Но из-за небольшой ошибки оценки (скажем, реальный α может быть 1.6),
необходимое количество данных взлетает с ~100 до ~10 000.
Ты думаешь, у тебя всё под контролем, а на самом деле ты дико недооцениваешь риск. Это частая история: трейдер калибрует модель по спокойному периоду, а потом рынок меняет режим, хвосты становятся жирнее, и модель летит КУДА? Правильно на завод или додеп.

Partial expectation и CVaR: как мерить хвосты, не зная среднего

Поскольку среднее — воздух, а дисперсия — тем более, Талеб предлагает использовать «частичные ожидания» (partial expectations).
Это условное матожидание выше порога

По сути, это Expected Shortfall (CVaR) в финансах, только без деления на вероятность.
Через характеристическую функцию он выводит формулы для stable-распределений (с хвостовым индексом α, параметром скошенности β, масштабом σ). Главный результат: для симметричного случая (β=0) и K=0 имеем компактное выражение:

Уф, звучит сложно, но суть проста: мы можем оценить ожидаемый убыток в хвосте напрямую, не полагаясь на среднее всех наблюдений. Для трейдера это значит: вместо того чтобы считать средний убыток, считай CVaR (Expected Shortfall) по хвосту. Но и тут без подвоха: для stable-распределений CVaR сам по себе имеет толстые хвосты и требует много данных. Тем не менее, это более робастный подход, чем среднее.

Устойчивые распределения (Stable Distributions) и скорость конвергенции

Для степенных законов с α < 2 сумма наблюдений сходится не к Гауссу, а к stable-распределению с тем же α. Это ключевой факт из обобщённой центральной предельной теоремы. Свойства stable: бесконечная дисперсия при α<2, толстые хвосты, самоподобие. Когда ты суммируешь n переменных, распределение среднего тоже стабильно с тем же α, просто масштаб меняется как n^(1/α − 1). Для гауссианы (α=2) масштаб уменьшается как 1/√n. Для α=1.5 — как n^(−1/3). Медленнее. Для α=1.16 — n^(−0.13). Почти не уменьшается. Увеличение выборки в 10 раз снижает ошибку всего на ~20%. Пиздец.

Талеб показывает, что отношение ожидаемой ошибки при kn наблюдениях к ошибке при n равно k^(1/α − 1). Это называется speed of convergence.
Для не-stable распределений (например, Student T с конечной дисперсией, но толстыми хвостами) в конечном счёте они притягиваются к stable-бассейну с α=min(α_истинное, 2), но на малых выборках могут вести себя иначе.
Но вывод тот же: чем толще хвосты, тем медленнее ты приближаешься к истине.

Асимметрия и разные классы распределений

Талеб рассматривает не только симметричные степенные законы, но и асимметричные, а также логнормальные, смеси гауссиан, Бернуллиевские суммы, субгауссовы (thin tails). Для трейдера важно:

Скошенные распределения (β ≠ 0): если у тебя стратегия с асимметрией (продажа опционов, керри-трейд), то n_α становится ещё больше. Например, одностороннее Парето с α=1.5 требует ~1.88 млн наблюдений против 574 тыс. для симметричного.
Логнормальное: имеет все моменты, но хвосты толще гауссовых, и оценка среднего также нестабильна при малых выборках.
Смеси гауссиан с разными средними могут создавать мультимодальности, но иногда ускоряют сходимость за счёт «стабилизации» (эффект thin-tailedness). Это интересный контринтуитивный момент, но на практике рынки редко ведут себя как смеси с фиксированными средними.
Бинарные опционы/беттинг (Бернулли): при малых вероятностях успеха сходимость медленная, потому что дисперсия p(1-p) велика относительно матожидания.

Альтернативный метод: оценивай хвостовой индекс, а не среднее

Раз прямое среднее — хуйня, Талеб предлагает другой путь: сначала оцени α (методом Хилла, например), а потом вычисли среднее из формулы для Парето: E(X) = α L / (α−1), где L — минимальное значение. Оценка Хилла несмещённая для α при большом числе наблюдений, но у неё тоже есть дисперсия. Зато среднее, полученное из α, оказывается более робастным, чем прямое выборочное среднее, потому что ты используешь структуру распределения. Но это работает только если данные действительно степенные. На практике: лучше использовать не среднее, а медиану, усечённое среднее, квантили. И всегда думать о хвостах.

Финальное резюме для трейдера

Средний P&L — ложный бог. При толстых хвостах ты никогда не узнаешь его с приемлемой точностью за разумное время. Лучше вообще не смотри на среднее, смотри на медиану и на хвосты.
Дисперсия и Sharpe — опасны. Если α близка к 2 или меньше, дисперсия — шум. Sharpe вводит в заблуждение: он может быть высоким, пока не прилетит хвост.
Бэктесты — это просто одна реализация случайного процесса. Ты можешь просимулировать 1000 бэктестов с теми же свойствами, и твой реальный результат окажется где-то посередине. Думай в терминах распределения возможных исходов, а не точечных оценок.
Риск-менеджмент должен быть ориентирован на хвосты. Используй CVaR, стресс-тесты, сценарный анализ. Предполагай, что завтра случится событие, которое твоя модель считает невозможным.
Диверсификация не спасает при системных хвостах. Если все активы имеют толстые хвосты и коррелируют в кризис, ты не уменьшишь риск, просто размазав капитал.
Неопределённость параметров — твой главный враг. Всегда добавляй запас по риску к тому, что говорит модель. Если ты думаешь, что α=1.8, считай, что он 1.5. Если ты думаешь, что VaR 99% = 5%, считай 10%.
Смотри на частоту больших движений, а не на среднюю волатильность. Если за последние 2 года не было ни одного дня с движением >3σ, это не значит, что система стабильна. Это значит, что скоро он будет.

И да, когда очередной «профессионал» будет тебе втирать про «устойчивый expected return 2% в месяц», поинтересуйся, сколько у него данных и какой у них хвостовой индекс. Скорее всего, он даже не знает, что это такое. Шли его к нам на канал , нам нужен траффик))).

Торгуй так, будто завтра прилетит хвост. Потому что он прилетит. И лучше бы тебе быть к этому готовым.

ДИСКЛЕЙМЕР / DISCLAIMER Текст построен как свободный критический разбор (fair use / fair dealing) с добавлением авторских аналогий из области трейдинга, опционных стратегий, HFT и риск-менеджмента. Все добавленные трейдерские параллели, интерпретации и метафоры являются исключительно продуктом автора канала. Материал не содержит плагиата: никакие фрагменты оригинальных работ не скопированы verbatim, математические формулы переписаны в символьный формат, а таблицы перестроены.

Использованные первоисточники:

Taleb, N. N., "The Law of Large Numbers Under Fat Tails" (2015–2020). Опубликована в составе сборника:
— Taleb, N. N. Statistical Consequences of Fat Tails: Real World Preasymptotics, Epistemology, and Applications. The Technical Incerto Collection, Vol. 1. arXiv:2001.10488 [stat.OT]. Доступ: https://arxiv.org/abs/2001.10488
— Прямая ссылка на статью: https://arxiv.org/pdf/1802.05495.pdf
— Страница проекта Fat Tails: https://fooledbyrandomness.com/FatTails.html
Русскоязычное издание: Талеб, Н. Н. Статистические последствия жирных хвостов: о новых вычислительных подходах к принятию решений. — М.: КоЛибри, Азбука-Аттикус, 2023. — 478 с. ISBN 978-5-389-19584-4. (Перевод с англ. В. Боруна.)
Видеоматериалы:
— Taleb, N. N., "The Law of Large Numbers Under Fat Tails", MIT Big Data Luncheon presentation. YouTube. Доступ: https://www.youtube.com/watch?v=nDY_fh2TVlI
Сопутствующие работы, упомянутые в оригинальной статье Талеба:
— Samorodnitsky, G., & Taqqu, M. S. (1994). Stable Non-Gaussian Random Processes: Stochastic Models with Infinite Variance. CRC Press.
— Zolotarev, V. M. (1986). One-Dimensional Stable Distributions. American Mathematical Society, Vol. 65.
— Wolfe, S. J. (1973). "On the Local Behavior of Characteristic Functions". The Annals of Probability, pp. 862–866.
— Hardin, C. D. Jr. (1984). "Skewed Stable Variables and Processes". DTIC Document.
— Pinelis, I. (2015). "Characteristic Function of the Positive Part of a Random Variable and Related Results, with Applications". Statistics & Probability Letters, Vol. 106, pp. 281–286.

Fair Use Statement: Данный материал создан исключительно в образовательных и информационных целях, не имеет коммерческого характера и не заменяет оригинальные публикации. Прямое цитирование научных результатов ограничено минимально необходимым объёмом для аналитического комментария. Все права на оригинальные исследования и формулы принадлежат их авторам — Нассиму Н. Талебу и соавторам.