Мета-обучение
October 20, 2023

Эффект Даннинга — Крюгера — миф. Разбираемся на статистике

Время прочтения — 20 минут.

О чем поговорим сегодня

Короткой строкой: Даннинг энд Крюгер

  • Эффект Даннинга — Крюгера - переоценка своих знаний неквалифицированными людьми.
  • Эффект был открыт психологами Джастином Крюгером и Дэвидом Даннингом в 1999 году.
  • Эффект основан на автокорреляции, когда переменная коррелирует сама с собой.
  • Проблема в том, что переменная попадает в обе части уравнения, где о ней забывают.
  • Эффект Даннинга — Крюгера не имеет отношения к психологии человека, это статистический артефакт.
  • Эдвард Нюфер и его коллеги в 2016 году опровергли эффект Даннинга — Крюгера.

Об авторе:

Вот как автор отзывается о себе:

Блэр Фикс — Политэкономист. Блогер. Наглец. Противник неоклассической экономики.

Ссылка на оригинал статьи: https://economicsfromthetopdown.com/2022/04/08/the-dunning-kruger-effect-is-autocorrelation/


Далее текст автора

Эффект Даннинга — Крюгера — это автокорреляция

Слышали ли вы об «эффекте Даннинга — Крюгера»? Это неявная тенденция неквалифицированных людей переоценивать свои знания. Открытый в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект стал крайне популярным.

И понятно почему.

Это слишком «сочная» идея, чтобы не быть правдой. Все знают, что идиоты, как правило, не осознают своего идиотизма. Или, как говорит Джон Клиз, «если ты очень-очень глуп, как ты можешь осознать, что ты очень-очень глуп?»

Конечно, психологи, как и все ученые, тщательно следят за тем, чтобы эксперимент можно было бы повторить с теми же данными. Но ведь эффект Даннинга — Крюгера именно такой: 1) эксперимент является возобновляемым и 2) выводится из данных. Казалось бы, все надежно.

Но есть одна проблемка.

Эффект Даннинга — Крюгера проявляется и в тех данных, в которых он проявляться не должен. Например, если тщательно подобрать случайные данные так, чтобы в них не было эффекта Даннинга — Крюгера, то эффект все равно обнаружится. Причина оказывается досадно простой: эффект Даннинга — Крюгера не имеет никакого отношения к психологии человека. Это статистический артефакт — потрясающий пример автокорреляции.

Что такое «автокорреляция?»

Автокорреляция возникает, когда переменная коррелирует сама с собой. Например, если я измерю рост 10 человек, то обнаружу, что рост каждого из них прекрасно коррелирует с самим собой. Если для вас это похоже на какой-то замкнутый круг, не переживайте: так оно и есть. Автокорреляция — это статистический эквивалент утверждения, что 5 = 5.

В таком виде идея автокорреляции звучит абсурдно. Ни один компетентный ученый не станет коррелировать переменную с самой собой. И это справедливо для чистой формы автокорреляции. Но что, если переменная попадает в обе части уравнения, где о ней забывают? В этом случае автокорреляцию обнаружить сложнее.

Приведем пример. Предположим, я работаю с двумя переменными — x и y. Я обнаружил, что эти переменные совершенно не коррелированны, как показано на левой панели рис. 1. Пока все хорошо.

Рисунок 1. Генерация автокорреляции. На левой панели изображены случайные величины x и y, которые являются некоррелированными. На правой панели показано, как эта некоррелированность может быть преобразована в автокорреляцию. Мы определяем переменную z, которая сильно коррелирует с x. Проблема в том, что z оказывается суммой x + y. Таким образом, мы коррелируем x с самим собой. Переменная y добавляет статистический шум.

Далее я начинаю играть с данными. После некоторых манипуляций я пришел к величине, которую назвал z. Я сохранил свою работу и забыл о ней. Спустя несколько месяцев мой коллега обращается к набору данных и обнаруживает, что z сильно коррелирует с x (рис. 1, справа). Мы обнаружили что-то интересное!

На самом деле мы обнаружили автокорреляцию. Видите ли, мой коллега не был в курсе, что я определил переменную z как сумму x + y. В результате, когда мы коррелируем z с x, мы фактически коррелируем x с самим собой. (Переменная y, в свою очередь, является статистическим шумом). Вот как происходит автокорреляция — забываешь, что по обе стороны корреляции находится одна и та же переменная.

Эффект Даннинга — Крюгера

Теперь, когда вы поняли, что такое автокорреляция, давайте поговорим об эффекте Даннинга — Крюгера. Как и в примере на рис. 1, эффект Даннинга — Крюгера представляет собой автокорреляцию. Но вместо того, чтобы скрываться в перемаркированной переменной, автокорреляция Даннинга-Крюгера прячется под обманчивым графиком.

Давайте разбираться.

В 1999 году Даннинг и Крюгер сообщили о результатах простого эксперимента. Они попросили группу людей пройти тест на проверку навыков. (На самом деле Даннинг и Крюгер использовали несколько тестов, но это не имеет значения для моего обсуждения). Затем они попросили каждого человека оценить свои собственные способности. Даннинг и Крюгер (как им казалось) обнаружили, что люди, плохо справившиеся с тестом, также склонны переоценивать свои способности. Это и есть «эффект Даннинга — Крюгера».

Даннинг и Крюгер визуализировали свои результаты, как показано на рис. 2. Это простой график, который обращает внимание на разницу между двумя кривыми. По горизонтальной оси Даннинг и Крюгер распределили людей по четырем группам (квартилям) в соответствии с их тестовыми оценками. На графике две линии показывают результаты внутри каждой группы. Черная линия с кружочками показывает средние результаты людей по тесту навыков. Черная линия с квадратиками показывает их среднее «восприятие способностей». Очевидно, что люди, получившие низкие баллы по тесту, слишком самоуверенны в своих способностях. (Или так кажется).

Рисунок 2: Диаграмма Даннинга-Крюгера. Из работы Dunning and Kruger (1999). На этом рисунке показано, как Даннинг и Крюгер представили свои первоначальные результаты. Даннинг и Крюгер провели тест на определение навыков, а также попросили каждого оценить свои способности. Затем Даннинг и Крюгер распределили людей по четырем группам в соответствии с их рейтинговыми оценками по тесту. На этом рисунке показан контраст между (средним) процентилем «реальной оценкой» в каждой группе (черная линия с кружочками) и (средним) процентилем «восприятия способностей». Эффект Даннинга — Крюгера» — это разница между двумя кривыми, т. е. тот факт, что неквалифицированные люди переоценивают свои способности.

Сама по себе диаграмма Даннинга-Крюгера выглядит убедительно. Добавьте к этому тот факт, что Даннинг и Крюгер — прекрасные авторы, и вы получите рецепт хитовой статьи. В связи с этим я рекомендую прочитать их статью, поскольку она напоминает нам о том, что хорошая риторика — это не то же самое, что хорошая наука.

Деконструкция эффекта Даннинга — Крюгера

Теперь, когда вы познакомились с данными Даннинга-Крюгера, давайте покажем, как они скрывают автокорреляцию. Для наглядности я буду комментировать график по ходу дела.

Начнем с горизонтальной оси. На диаграмме Даннинга-Крюгера горизонтальная ось является «категориальной», то есть на ней отображаются «категории», а не числовые значения. Конечно, нет ничего плохого в том, чтобы откладывать категории. Но в данном случае категории на самом деле являются числовыми.

Даннинг и Крюгер берут результаты тестирования людей и распределяют их по 4 ранжированным группам. (Статистики называют эти группы «квартилями»).

Это ранжирование означает, что по горизонтальной оси фактически откладывается тестовый балл. Назовем этот балл «x».

Рисунок 3: Деконструкция диаграммы Даннинга-Крюгера. На графике Даннинга-Крюгера по горизонтальной оси откладывается «фактический тестовый балл», который я буду называть x.

Далее рассмотрим вертикальную ось, которая обозначена как «процентиль». Это означает, что вместо реальных результатов теста Даннинг и Крюгер откладывают их рейтинг по 100-балльной шкале.

Теперь давайте посмотрим на кривые. Линия, обозначенная как «фактический тестовый балл», показывает средний перцентиль тестового балла каждого квартиля. Все вроде бы хорошо, но тут мы понимаем, что Даннинг и Крюгер, по сути, строят график тестового балла (x) против него самого.

Заметив этот факт, давайте изменим обозначение линии с кружками. Она фактически представляет собой график x против x.

Рисунок 3: Деконструкция диаграммы Даннинга-Крюгера. На графике Даннинга-Крюгера линия, обозначенная как «реальная оценка», представляет собой график сравнения тестового балла (x) с самим собой. В моей системе обозначений это x против x.

Далее рассмотрим линию, обозначенную как «воспринимаемые способности». Эта линия измеряет средний процент самооценки каждой группы. Назовем эту самооценку y. Вспомнив, что «реальную оценку» мы обозначили как x, мы видим, что черная линия c квадратиками показывает зависимость y от x.

Рисунок 3: Деконструкция диаграммы Даннинга-Крюгера. На графике Даннинга-Крюгера линия, обозначенная как «восприятие способностей», строит график зависимости «воспринимаемой способности» y от реального тестового балла x.

Пока ничто не бросается в глаза как явная ошибка. Да, это немного странно — строить график x против x. Но Даннинг и Крюгер не утверждают, что важна только эта линия. Важна разница между двумя линиями («восприятие способностей» и «реальная оценка»). Именно в этой разнице и проявляется автокорреляция.

В математическом смысле «разница» означает «вычитание». Поэтому, показывая нам две расходящиеся линии, Даннинг и Крюгер (неявно) просят нас вычесть одну из другой: взять «восприятие способностей» и вычесть «реальную оценку». В моей системе счисления это соответствует y — x.

Рисунок 3: Деконструкция графика Даннинга-Крюгера. Чтобы интерпретировать график Даннинга-Крюгера, мы (неявно) смотрим на разницу между двумя кривыми. Это соответствует тому, чтобы взять «восприятие способностей» и вычесть из нее «фактическую оценку». В моей системе обозначений эта разница равна y — x (показано стрелкой с двумя концами). Когда мы оцениваем эту разницу как функцию горизонтальной оси, мы неявно сравниваем y — x с x. Поскольку x находится по обе стороны сравнения, результатом будет автокорреляция.

Вычитание y — x кажется нормальным, пока мы не поймем, что должны интерпретировать эту разницу как функцию горизонтальной оси. Но по горизонтальной оси откладывается тестовый балл x. Таким образом, нас (неявно) просят сравнить y — x с x:

(y−x)∼x

Видите проблему?

Мы сравниваем x с отрицательной версией самого себя. Это и есть типичный пример автокорреляции. Это означает, что мы можем бросать в x и y случайные числа — числа, которые не могут содержать эффект Даннинга — Крюгера, — и все равно эффект проявится.

Воспроизведение эффекта Даннинга — Крюгера

Честно говоря, меня не очень убеждают приведенные выше аналитические аргументы. Только используя реальные данные, я могу понять проблему эффекта Даннинга — Крюгера. Итак, давайте посмотрим на реальные цифры.

Предположим, что мы — психологи, получившие большой грант на воспроизведение эксперимента Даннинга — Крюгера. Мы набираем 1 тыс. человек, проводим с каждым из них тест на определение навыков и просим их дать самооценку. Когда результаты получены, мы смотрим на данные.

Они выглядят не очень хорошо.

Когда мы строим график зависимости результатов теста от самооценки, данные выглядят совершенно случайными. На рис. 7 показана эта закономерность. Похоже, что люди с любыми способностями одинаково плохо предсказывают свои способности. Нет и намека на эффект Даннинга — Крюгера.

Рисунок 7: Неудачное воспроизведение. На этом рисунке показаны результаты мысленного эксперимента, в котором мы пытаемся воспроизвести эффект Даннинга — Крюгера. Мы попросили 1 тыс. человек пройти тест на определение навыков и оценить свои способности. Здесь мы строим график исходных данных. Каждая точка представляет собой результат отдельного человека: по горизонтальной оси откладывается «реальная оценка, а по вертикальной — «самооценка». Нет и намека на эффект Даннинга — Крюгера.

Просмотрев исходные данные, мы опасаемся, что сделали что-то не так. Многие другие исследователи воспроизвели эффект Даннинга — Крюгера. Неужели мы допустили ошибку в нашем эксперименте?

К сожалению, мы не можем собрать больше данных. (У нас закончились деньги). Но мы можем поиграть с анализом. Коллега предлагает вместо построения графика исходных данных рассчитать «ошибку самооценки» каждого человека. Эта ошибка — разница между самооценкой человека и его тестовым баллом. Возможно, эта ошибка оценки связана с реальным результатом теста?

Проведем расчеты и, к нашему удивлению, обнаружим колоссальный эффект. На рис. 8 показаны результаты. Похоже, что неквалифицированные люди чрезвычайно самоуверенны, а квалифицированные — чрезмерно скромны.

(Наши лаборанты отмечают, что корреляция удивительно тесная, как будто числа подбирались вручную. Но мы отбрасываем это замечание и идем дальше).

Рисунок 8: Может быть, эксперимент удался? Используя исходные данные рисунка 7, на этом рисунке рассчитана «погрешность в самооценке» — разница между самооценкой индивида и его реальным тестовым баллом. Эта ошибка оценки (вертикальная ось) сильно коррелирует с фактическим тестовым баллом (горизонтальная ось).

Окрыленные успехом на рис. 8, мы решаем, что результаты, возможно, не так уж и плохи. Мы обнаруживаем, что, несмотря на наши опасения по поводу данных, эффект Даннинга — Крюгера присутствовал всегда. Более того, как показано на рис. 9, наш эффект даже больше, чем исходный (из рис. 2).

Рисунок 9: Восстановление эффекта Даннинга и Крюгера. Несмотря на кажущееся отсутствие эффекта в наших исходных данных (рис. 7), когда мы подставляем эти данные в диаграмму Даннинга-Крюгера, мы получаем огромный эффект. Неквалифицированные люди переоценивают свои возможности! А опытные люди слишком скромны!

Все развалилось!

Довольные успешным воспроизведением, мы начинаем оформлять результаты. И тут все разваливается. Наш куратор данных, мучимый чувством вины, признается: он потерял данные нашего эксперимента и в порыве паники заменил их случайными числами. Наши результаты, по его словам, основаны на статистическом шуме.

Опустошенные, мы возвращаемся к нашим данным, чтобы понять, что же пошло не так. Если мы работали со случайными числами, то как мы могли воспроизвести эффект Даннинга — Крюгера? Чтобы понять, что произошло, мы отказываемся от идеи, что работаем с психологическими данными. Мы «перемаркируем» наши графики в терминах абстрактных переменных x и y. Таким образом, мы обнаруживаем, что наш кажущийся «эффект» на самом деле является автокорреляцией.

На рис. 10 это показано наглядно. Наш набор данных состоит из статистического шума — двух случайных переменных, x и y, которые совершенно не связаны между собой (рис. 10А). При расчете «погрешности в самооценке» мы взяли разницу между y и x. Неудивительно, что эта разница коррелирует с x (рис. 10Б). Но это потому что x автокоррелирует с самим собой. Наконец, мы разбираем диаграмму Даннинга-Крюгера и понимаем, что она тоже основана на автокорреляции (рис. 10В). Она предлагает нам интерпретировать разницу между y и x как функцию от x. Это автокорреляция из панели B, обернутая в более обманчивую оболочку.

Рисунок 10: Отказ от идеи психологического эксперимента. На этом рисунке повторяется анализ, представленный на рисунках 7—9, но при этом отбрасывается идея о том, что мы имеем дело с психологией человека. Мы работаем со случайными переменными x и y, взятыми из равномерного распределения. На панели. А показано, что переменные абсолютно некоррелированы. На панели Б показано, что при построении графика y — x относительно x мы получаем сильную корреляцию. Но это потому что мы скоррелировали x с самим собой. На панели. В мы вводим эти переменные в диаграмму Даннинга-Крюгера. И снова видимый эффект равен автокорреляции — интерпретации y — x как функции от x.

Смысл этой истории в том, чтобы проиллюстрировать, что эффект Даннинга — Крюгера не имеет никакого отношения к психологии человека. Это статистический артефакт — пример автокорреляции, скрытой от глаз.

Интересно, что исследователям потребовалось немало времени, чтобы осознать недостаток анализа Даннинга и Крюгера. Даннинг и Крюгер опубликовали свои результаты в 1999 году. Однако полное понимание ошибки пришло только в 2016 году. Насколько мне известно, Эдвард Нюфер и его коллеги стали первыми, кто исчерпывающе опровергли эффект Даннинга — Крюгера. (См. их совместные работы 2016 и 2017 гг.) В 2020 году Жиль Жиньяк и Марцин Заенковски опубликовали аналогичную критику.

После прочтения этих критических статей становится до боли очевидно, что эффект Даннинга — Крюгера — это статистический артефакт. Но до сих пор об этом мало кто знает. В совокупности эти три критические статьи имеют примерно в 90 раз меньше цитирований, чем оригинальная статья Даннинга-Крюгера. Таким образом, большинство ученых по-прежнему считают, что эффект Даннинга — Крюгера — это надежный аспект человеческой психологии.

Никаких признаков эффекта

Проблема с диаграммой Даннинга-Крюгера заключается в том, что она нарушает фундаментальный принцип статистики. Если вы собираетесь коррелировать два набора данных, то они должны быть измерены независимо друг от друга. В диаграмме Даннинга-Крюгера этот принцип нарушается. Диаграмма смешивает тестовые баллы по обеим осям, что приводит к автокорреляции.

Осознав эту ошибку, Эдвард Нюфер и его коллеги задались интересным вопросом: что произойдет с эффектом Даннинга-Крюгера, если его измерить статистически достоверным способом? Согласно полученным Нюфером доказательствам, ответ заключается в том, что эффект исчезает.

На рис. 11 показаны их результаты. Здесь важно то, что «навык» людей измеряется независимо от результатов их тестирования и самооценки. Для измерения «мастерства» Нюфер группирует людей по уровню их образования, что показано на горизонтальной оси. По вертикальной оси откладывается ошибка в самооценке людей. Каждая точка представляет собой отдельного человека.

Рисунок 11: Статистически достоверный тест на эффект Даннинга — Крюгера. На этом рисунке представлен тест эффекта Даннинга — Крюгера, проведенный Нюфером и коллегами в 2017 году. Как и на рис. 8, на этом графике соотносятся навыки людей и их ошибки в самооценке. Но, в отличие от рис. 8, здесь переменные статистически независимы. По горизонтальной оси измеряется квалификация с помощью академического ранга. Вертикальная ось измеряет ошибку самооценки следующим образом. Нюфер берет оценку человека по тесту SLCI (science literacy concept inventory test) и вычитает ее из его самооценки, которая называется KSSLCI (knowledge survey of the SLCI test). Каждая черная точка указывает на ошибку самооценки индивидуума. Зеленые пузырьки обозначают средние значения в каждой группе с соответствующим доверительным интервалом. Тот факт, что зеленые пузырьки перекрывают линию нулевого эффекта, указывает на то, что внутри каждой группы средние значения статистически не отличаются от 0. Другими словами, эффект Даннинга — Крюгера не проявляется.

Если бы эффект Даннинга — Крюгера присутствовал, то на рис. 11 он проявился бы в виде тенденции к снижению данных (аналогично тенденции на рис. 7). Такая тенденция свидетельствовала бы о том, что неквалифицированные люди переоценивают свои способности и что эта переоценка уменьшается с ростом квалификации. Если посмотреть на рис. 11, то здесь нет и намека на тенденцию. Вместо этого средняя ошибка оценки (обозначенная зелеными пузырьками) колеблется около нуля. Другими словами, погрешность оценки тривиально мала.

Несмотря на отсутствие намека на эффект Даннинга — Крюгера, на рис. 11 прослеживается интересная закономерность. Если двигаться слева направо, то разброс ошибок в самооценке имеет тенденцию к уменьшению с ростом уровня образования. Другими словами, преподаватели в целом лучше оценивают свои способности, чем первокурсники. Это вполне логично. Заметим, однако, что это увеличение точности отличается от эффекта Даннинга — Крюгера, который заключается в систематической предвзятости средней оценки. В данных Нюфера такой предвзятости нет.

Некомпетентны и не знают об этом

Ошибки случаются. Поэтому в этом смысле мы не должны обвинять Даннинга и Крюгера в том, что они ошиблись. Однако в обстоятельствах их ошибки есть забавная ирония. Вот два профессора Лиги плюща, утверждающие, что неквалифицированные люди несут «двойное бремя»: они не только «некомпетентны», но и не осознают своей некомпетентности.

Ирония заключается в том, что на самом деле ситуация обратная. В своей основополагающей работе именно Даннинг и Крюгер транслируют свою (статистическую) некомпетентность, путая автокорреляцию с психологическим эффектом. В этом свете название работы может быть вполне уместным. Просто авторы (а не испытуемые) были «некомпетентны и не знали об этом».