Корреляция — это ложь, которую вам продали , почему это так устроенно ?
Число, которое захватило мир
Представьте себе картину. Март 2019 года. Где-то в Нью-Йорке Нассим Талеб садится и пишет работу с сухим названием «Fooled by Correlation: Common Misinterpretations in Social 'Science'». Просто ещё один раз говорит всем что вы не правы =) «Ребята, вы всё делаете неправильно».
Проходит шесть лет. 10 октября 2025 года крипторынок схлопывается на $19 миллиардов ликвидаций. И знаете, что объединяет эти два события? Одно и то же число. Одна и та же метрика. Одна и та же статистическая иллюзия, в которую поверили все — от социальных психологов до риск-менеджеров крупнейших бирж. Но мы не будем об этом.
Имя этой иллюзии — корреляция
Талеб ещё в 2019-м написал: корреляция — это не «сила связи». Это узкий линейный датчик, который работает только в очень специальных условиях. Он показывает, насколько две переменные колеблются вместе вдоль прямой линии. Не больше.
Но рынок услышал другое:
«Корреляция — это мера зависимости. Если корреляция высокая — активы связаны. Если низкая — диверсифицированы».
И на этом построили всё. Современная портфельная теория Марковица (мы писали об этом предыдущих статьях) начинается с ковариационной матрицы. Модель CAPM оценивает «бету» актива через корреляцию с рынком. Risk parity распределяет капитал, предполагая, что корреляции стабильны. Факторные модели (PCA) выделяют источники риска, веря, что ковариационная структура постоянна. Хедж-фонды отчитываются о «некоррелированной альфе».
Биржи строят коридоры ликвидаций на основе исторических корреляций.
Вся индустрия стоит на предположении, что корреляция — это настоящая, устойчивая, значимая величина. Но Талеб говорит: это не так. Корреляция ломается о нелинейность. Ломается о жирные хвосты. Ломается о подвыборки. Ломается об ошибки измерения. И когда рынок переходит в режим стресса — все эти «надёжные» корреляционные конструкции рушатся одновременно.
Корреляция — это не спидометр
Начнём с главного - корреляция не равна зависимости. Корреляция отвечает на очень узкий вопрос: насколько две переменные имеют линейное совместное движение. Не нелинейное, не пороговое, не сигмоидальное — только линейное.
Формула выглядит благородно и вроде как просто:
Но люди читают её как: «насколько X объясняет Y». Это подмена. Корреляция не измеряет информацию. Корреляция не измеряет причинность. Корреляция не измеряет устойчивость связи. Корреляция измеряет только одно: насколько облако точек похоже на прямую линию.
Вот пример, возьмём простую математическую зависимость: Y = X².
Если X симметричен вокруг нуля (положительные и отрицательные значения равновероятны), то линейная корреляция между X и Y будет равна нулю. Абсолютный ноль. При том что Y полностью, на 100%, определяется X. Зависимость стопроцентная. Но корреляция говорит: «Связи нет». Как так?
Что происходит на практике? Представьте себе зависимость между волатильностью биткоина и объёмом ликвидаций. Когда волатильность растёт, ликвидации взлетают по экспоненте. Это нелинейная связь: при низкой волатильности ликвидаций почти нет, при средней — они появляются, при высокой — происходит каскад. Линейная корреляция на всей выборке может показать 0.3, 0.4 — «умеренная связь». Но в хвосте, где волатильность зашкаливает, связь почти детерминированная. Просто корреляция
«размазала» этот хвостовой эффект по всем спокойным дням и выдала среднюю температуру по больнице.
Талеб в своей работе показывает картинку, где correlation между X и Y равна 0, а взаимная информация видит полную зависимость. Он пишет:
«Большинство парадоксов зависимости с корреляцией исчезает, если использовать взаимную информацию». Позже мы вернёмся к этой альтернативе, а пока запомните: нулевая корреляция не означает независимость.
Почему корреляция ломается, когда вы делите рынок на части
Самый первый большой технический парадокс : корреляция субаддитивна.
Это значит, что если общая корреляция по всей выборке равна 0.75, то внутри подгрупп она может быть значительно ниже.
Он показывает это математически. Берёт две гауссовы-переменные с общей корреляцией около 0.75. Разрезает пространство на квадранты — и локальные корреляции падают до 0.52 и 0.18. Если нарезать ещё мельче, на квадраты размером (0,2)×(0,2), корреляция опускается до 0.11–0.13.
Его теорема
То есть локальная корреляция внутри неслучайной подвыборки всегда может быть меньше глобальной. И это не исключение, а правило.
Переносим на рынок. Общая корреляция BTC/ETH за год — 0.8. Но теперь разобьём год на три режима: боковик (январь–июль), паника (август–октябрь), восстановление (ноябрь–декабрь). В боковике корреляция может быть 0.5 активы двигаются вяло, каждый сам по себе. В день падения на 36% корреляция подскакивает до 0.99 — всё летит в пропасть синхронно. В восстановление — снова падает до 0.3, потому что одни активы отскакивают быстрее других.
Когда риск-менеджер на дэске говорит: «У нас диверсифицированный портфель, корреляция активов 0.5», он берёт цифру, посчитанную по всему году. Но ваш портфель живёт не «в среднем за год» (если он есть конечно-же =)).
Он живёт каждый день. И в день, когда всё летит в пропасть, корреляция становится единицей. Именно это убило хомяков 10 октября: они думали, что диверсифицированы, а на самом деле все их активы были одной сделкой.
Талеб формулирует это очень просто: корреляцию нельзя использовать для неслучайных подвыборок. А любой рыночный режим — это именно неслучайная подвыборка. Вы не можете взять корреляцию, посчитанную по всем дням, и применить её к кризисному дню. Это разные вселенные.
Корреляция не передаётся по цепочке
Один из самых главных споров это , корреляция транзитивна.
Люди думают: если A связано с B, а B связано с C, то A связано с C.
Талеб разбирает эту ошибку на примере из психометрики. Есть три переменные: гены (A), IQ-тест (B), успеваемость (C). Исследователь видит: гены коррелируют с IQ, IQ коррелирует с успеваемостью.
Вывод: «гены коррелируют с успеваемостью» =). Но это логическая ошибка.
Он показывает математически
Третья корреляция может быть отрицательной.
Две положительные корреляции не гарантируют третью положительную.
Переносим на крипту. Трейдер строит портфель: BTC, ETH, SOL. Смотрит: BTC коррелирует с ETH на 0.8, ETH коррелирует с SOL на 0.7. Значит ли это, что BTC коррелирует с SOL? Необязательно. В спокойные дни SOL может двигаться независимо от BTC (своя экосистема, свои новости). В панику — всё синхронизируется. Но в обычное время корреляция BTC/SOL может быть значительно ниже, чем вы ожидаете, исходя из цепочки.
Или хуже: вы строите диверсификацию, добавляя в портфель третий актив, потому что он «слабо коррелирует» с первыми двумя. Но если его связь с портфелем опосредована через цепочку корреляций, вы не получаете реальной диверсификации. Вы получаете иллюзию, построенную на математической ошибке.
Корреляция — это не наследство. Она не передаётся по цепочке. Если ваш риск-менеджмент построен на транзитивных предположениях, он построен на песке. N.N.Taleb
50% корреляции — это не 50% связи
Что это значит практически? Корреляции нельзя сравнивать как проценты. Переход от 0.5 к 0.6 — это не «+10% связи», а увеличение информации в разы.
И наоборот: падение корреляции с 0.6 до 0.5 — это не «небольшое ослабление», а значительная потеря информативности.
Теперь — к трейдингу. Фонд А показывает Sharpe 2.5, фонд Б — Sharpe 2.0. Обычный инвестор думает: «Разница небольшая, возьму фонд Б, он подешевле». Но Sharpe ratio, как и любая метрика, построенная на стандартном отклонении и корреляции, нелинейна по содержащейся в ней информации.
Разница между 2.0 и 2.5 в мире жирных хвостов может означать разницу между «плюсом» и «минусом» в кризис. Вы сравниваете проценты, а должны сравнивать информацию.
Или другой пример. Вы строите портфель из двух активов с корреляцией 0.3. Потом находите третий актив с корреляцией 0.2 к каждому из первых двух. Кажется, что это улучшение — «корреляция ниже, значит, диверсификация лучше». Но информационная разница между 0.3 и 0.2 на гауссовой шкале невелика. А если в хвосте корреляция всё равно улетает в 0.99, то никакая «низкая средняя корреляция» вас не спасёт.
Вы оптимизируете то, что не имеет значения в момент истины.
Ошибка измерения, или Почему ваш тест — резиновая линейка
Талеб разбирает ситуацию, знакомую каждому, кто сталкивался с психометрикой. Есть некий тест, измеряющий X. Но у теста есть ошибка измерения с дисперсией κ2. Тогда наблюдаемая корреляция между X и Y падает:
Если тест сам шумный, корреляция между тестом и результатом — это не чистая связь X/Y, а смесь сигнала и шума измерения.
Теперь по порядку : что такое «ошибка измерения» в трейдинге?
Это проскальзывание. Это задержка оракула. Это несовершенство исторических данных. Вы бэктестите стратегию на исторических ценах.
Но эти цены — не «истина». В них уже вшиты спреды, комиссии, задержки исполнения. А когда вы торгуете в реальном времени, добавляется ещё и рыночное воздействие.
Предположим, истинная корреляция между сигналом вашей стратегии и будущей доходностью равна 0.4. Но сигнал измеряется с шумом (задержка данных, ошибки API, неточность индикаторов). Если дисперсия ошибки измерения составляет 50% от дисперсии сигнала (κ2 = 0.5), наблюдаемая корреляция падает:
Ваш Sharpe ratio, посчитанный на исторических данных, занижен на 20% только из-за шума. А теперь представьте, что шум ещё больше (например, вы торгуете на минутных свечах с плохим интернетом). Наблюдаемая корреляция может упасть до нуля — и вы выбросите прибыльную стратегию,
потому что «метрики плохие».
Или обратная ситуация: вам показывают стратегию с «потрясающим Sharpe 3» на исторических данных. Но эти данные «чистые» — без проскальзывания, без комиссий, без задержек. В реальности к ним добавляется ошибка измерения — и Sharpe превращается в 1.5. Вас не обманули.
Вам просто не сказали, что линейка резиновая =))
Dead Man Bias: как трупы создают ложные корреляции
Самый яркий пример из работы Талеба. Представьте эксперимент:
Даже если среди живых связи нет вообще, наличие группы людей, которые проваливают всё одновременно, создаёт положительную корреляцию.
Талеб называет это dead man bias: тест может хорошо отличать трупа от живого, но из этого не следует, что он умеет отличать гения от нормального человека.
В трейдинге это работает так же. Фонд показывает вам backtest стратегии с «прибыльностью в 95% дней». Вы смотрите: ого, какая консистентность. Но спросите: не включили ли они в выборку «мёртвые дни» — периоды, когда стратегия не торговала? Если стратегия стоит в кэше 200 дней из 1000, то эти 200 дней — это «мертвецы». Они не генерируют ни прибыли, ни убытков. Они просто есть. Но их присутствие в выборке искусственно завышает долю «нулевых» дней, что делает график эквити более гладким, а Sharpe — более высоким.
Или ещё хуже: фонд включает в выборку дни, когда он «был вне рынка из-за технических причин». Эти дни не несут информации о качестве стратегии, но они создают ложную корреляцию между «работой стратегии» и «отсутствием убытков». На самом деле стратегия, возможно, убыточна в рабочие дни — просто вы этого не видите за грудой трупов.
Dead man bias — это не мошенничество. Это статистический артефакт. Но когда вам продают инвестиционный продукт, основанный на таком артефакте, разница между «артефактом» и «мошенничеством» стирается.
Fake R²: почему жирные хвосты убивают регрессию
Один из центральных блоков работы Талеба для финансов: жирные хвосты делают R² фейковым.
Он разбирает регрессию Y = aX + b + ε, где X — thin-tailed Gaussian
(например, IQ), а ε — fat-tailed residual (например, доход). Проблема: если остатки имеют степенные хвосты, выборочный R² может выглядеть высоким, но настоящая объяснительная сила модели в пределе стремится к нулю.
Формально: когда дисперсия остатков бесконечна, E(R²)→0
На малой выборке модель выглядит прекрасно. R² гордо сообщает:
«Я объясняю 40% дисперсии». А в пределе, при увеличении выборки, истинное значение R² идёт к нулю. Потому что хвосты остатков начинают доминировать и перекрывают всё, что модель «объяснила».
В крипте это повсеместно. Стратегия показывает R² = 0.6 на выборке за 200 дней. Но 200 дней — это ничто для жирных хвостов. Хвост ещё не пришёл. А когда придёт (например, минус 36% за день), R² рухнет, потому что один хвостовой остаток перевесит все предыдущие.
Талеб подчёркивает: доходы и богатство распределены по степенному закону (power law), а IQ и другие психометрические показатели — по гауссу. Регрессировать одно на другое — всё равно что скрещивать ужа и ежа. Но именно это делает вся социальная наука. И именно это делает крипто-индустрия, когда регрессирует доходность стратегии на рыночные факторы, предполагая, что остатки нормальны.
Практический тест : возьмите остатки вашей регрессии и постройте QQ-plot против нормального распределения. Если хвосты отклоняются от прямой — ваш R² фейковый. Не в том смысле, что вас обманули. В том смысле, что он не означает то, что вы думаете =)).
Mutual Information: альтернатива, которую многие не знают и не понимают
Талеб не просто критикует. Он предлагает альтернативу: взаимная информация (mutual information). В отличие от корреляции, она измеряет, сколько информации одна переменная даёт о другой, без требования линейности.
Простыми словами: взаимная информация показывает, насколько совместное распределение двух переменных отличается от того, что было бы, если бы они были независимы. Если переменные независимы — взаимная информация равна нулю. Если одна полностью определяет другую — взаимная информация максимальна.
Главное преимущество: взаимная информация аддитивна по разбиениям. Если вы режете пространство на сегменты, её можно аккуратно агрегировать. Корреляцию — нельзя. В рыночных терминах: вы можете посчитать взаимную информацию BTC/ETH отдельно для боковика, отдельно для паники, отдельно для восстановления, а потом агрегировать в общую картину. С корреляцией этот фокус не пройдёт — она субаддитивна и теряет информацию при нарезке.
Второе преимущество: взаимная информация видит нелинейности.
В примере с Y = X² корреляция равна нулю, а взаимная информация — не ноль. Она ловит зависимость, которую корреляция пропускает.
Третье: взаимная информация устойчивее к выбросам.
Корреляция квадратично раздувается от экстремальных значений, взаимная информация — логарифмически, что делает её более стабильной в жирных хвостах.
Почему же рынок до сих пор использует корреляцию? Потому что корреляцию легко считать. В Excel есть функция CORREL. Взаимную информацию нужно оценивать через гистограммы или ядерные оценки плотности, что требует больше данных и вычислительных ресурсов. Но когда на кону ваш депозит, «сложно считать» — не аргумент.
Корреляция — это тень на стене пещеры
Талеб воюет не с формулой. Он воюет с ритуалом. Ритуал такой ,
взять сегрегированную дату, посчитать корреляцию, построить регрессию, показать R², запустить PCA, назвать фактор «g», «talent», «risk», «alpha», сделать вывод.
Большинство этих шагов валидны только при условиях, которые никто не проверяет:
В крипте нарушены все эти условия. Активы нелинейно зависят друг от друга (пороговые эффекты ликвидаций). Дисперсия бесконечна или близка к тому
(α < 2 для большинства криптоактивов). Корреляции зависят от режима
(боковик vs паника). Ошибки измерения повсеместны
(задержки оракулов, проскальзывание). Выборки неслучайны
(вы тестируете на исторических данных, которые включают специфические рыночные режимы).
В этих условиях корреляция превращается в число с научным запахом, но без научного содержания.
Корреляция не объясняет мир. Она объясняет, насколько ваш мир похож на линейную гауссову картинку. А крипта на эту картинку не похожа.
И теперь, когда вы в следующий раз увидите в презентации фонда
«Sharpe 3», «R² = 0.7», «некоррелированная альфа» или «диверсифицированный портфель с низкими корреляциями», — вы будете знать, что делать. Спросите: «А вы проверяли остатки на жирные хвосты? Вы считали взаимную информацию? Вы проверяли корреляции в подвыборках кризисных дней? Если нет — ваши цифры не имеют смысла».
Дисклеймер
Всё написанное ниже — художественная реконструкция, аналитический памфлет и плод творческого воображения автора. Данный текст представляет собой субъективное мнение, основанное на общедоступных источниках, и не содержит утверждений о фактах, которые могут быть истолкованы как клевета, диффамация или введение в заблуждение. Автор не является финансовым, юридическим или инвестиционным консультантом.
Все упомянутые в статье названия компаний, торговых площадок, продуктов (включая, но не ограничиваясь: Binance) и имена физических лиц (включая, но не ограничиваясь: Нассим Николас Талеб) используются исключительно в информационных, образовательных и дискуссионных целях. Любые совпадения с реальными обстоятельствами являются случайными, но, как показывает практика, чрезвычайно показательными.
Настоящая статья не является инвестиционной рекомендацией, призывом к покупке или продаже каких-либо активов, а также предложением финансовых услуг. Любые решения, принятые читателем на основе данного текста, являются его собственной ответственностью. Криптовалютный рынок сопряжён с экстремально высокими рисками, включая полную потерю капитала. Прошлые результаты не гарантируют будущих доходов.
Автор не несёт ответственности за любые прямые или косвенные убытки, упущенную выгоду или репутационный ущерб, возникшие в результате прочтения, интерпретации или использования данного материала.
Все статистические данные, гипотетические сценарии и математические выкладки, представленные в статье, носят иллюстративный характер. Исторические примеры (включая, но не ограничиваясь: обсуждение корреляционных ловушек в социальных науках и финансах) приводятся в аналитическом контексте и не подразумевают, что описываемые в статье гипотетические события октября 2025 года являются достоверным отражением реальности. Академические исследования, цитируемые в тексте (включая, но не ограничиваясь: работы Нассима Талеба о корреляции, взаимной информации, распределениях с толстыми хвостами), используются для иллюстрации теоретических концепций и не подразумевают, что описываемые в них методологические выводы применялись или не применялись какой-либо конкретной организацией.
Любое воспроизведение, распространение или цитирование данного материала допускается только с обязательным указанием автора и активной ссылкой на оригинал. Автор оставляет за собой право на собственную интерпретацию публичных данных в рамках свободы слова, творчества и сатиры.
Если после прочтения вам захочется обратиться к юристу — вы имеете на это полное право. Но прежде чем подавать иск, перечитайте ещё раз этот дисклеймер. Если захочется пересчитать все свои корреляции через взаимную информацию — значит, статья свою задачу выполнила.
Ни один биржевой хомяк не пострадал. Но каждому из них стоило бы знать, что корреляция — это не связь, а тень на стене гауссовой пещеры.
Если вы хотите самостоятельно ознакомиться с данными, на которые опирается статья:
- Taleb, N. N. — «Fooled by Correlation: Common Misinterpretations in Social 'Science'», draft, March 2019.
- Taleb, N. N. — «Fooled by Correlation» (видео), YouTube-канал N N Taleb’s Probability Questions. Доступно: [https://www.youtube.com/watch?v=o9Ac85xdjE4]
- Taleb, N. N. — «Statistical Consequences of Fat Tails: Real World Preasymptotics, Epistemology, and Applications» — arXiv:2001.10488, 2020.