Как оценить сожаление у мышей?

Летом 2022 я был на европейском съезде нейробиологов FENS Forum в Париже и на постерной сессии пообщался с автором одного совершенно чумового исследования - авторы придумали, как оценить сожаление/досаду (regret) у мышей и как она связана с чувствительностью с стрессу. Я еще тогда решил, что надо вам про него рассказать, a прошлой осенью результаты опубликовали в Science Advances. Но руки у меня дошли только сейчас, спустя год, и то потому что мы решили записать новогодний выпуск подкаста "Эффект наблюдателя", где эта история подошла для ключевого слова "К столу!" (слушайте выпуск, он вышел замечательным).

Что же такое сожаление? В целом это осознавание, что иное решение в прошлом могло бы принести к лучшему результату и для большей эффективности это ощущение сопровождается сильными эмоциями. У сожаления есть немедленные и отсроченные последствия: немедленные нацелены на минимизацию ущерба от неправильного решения, отсроченные - на избегание аналогичных ошибок в будущем. Кроме того, для ощущения сожаления необходимо ощущение собственной ответственности за совершаемые действия и признание собственной ошибки.

Множество психологических и нейробиологических исследований изучали феномен сожаления у людей, а также у высших приматов, но до грызунов дело дошло лишь недавно. Впервые "модель ресторана" для изучения сожаления у крыс была опубликована командой из Университета Минесоты в 2014 году в журнале Nature Neuroscience. В 2018 году команда из топового нью-йоркского института Icahn School of Medicine at Mount Sinai (вместе с одим из авторов первой работы) опубликовала в журнале PloS Biology, модифицированную модель для мышей. Итак что же это за модель (Рис. 1)?

Рисунок 1. А - Таймлайн 70-дневного обучения. В - Схема ресторана. С - формирование вкусовых предпочтений, черные точки - досрочный выход из зоны ожидания (quit). Sweis et al., 2018, PloS Biology.

В течение 70 дней мышей тренировали в ресторанном лабиринте, который был их единственным источником пищи. Он представлял собой замкнутый квадратный коридор, в четырех углах которого были точки выдачи разной еды (рестораны) - обычного корма для грызунов, но со вкусом шоколада, банана, винограда или без добавки. Предварительно мышей знакомили с лабиринтом, где каждый ресторан имел свои опознавательные знаки в виде разноцветных фигур для пространственной ориентации мышей - они знали, в каком углу какую еду дают. Каждый ресторан находился в ответвлении лабиринта, таким образом мышь, двигаясь против часовой стрелки, в каждом углу принимала решение, повернуть направо в ресторан или налево дальше по лабиринту. Непосредственно угол квадратного лабиринта назывался зоной предложения (offer zone), а закуток ресторана - зоной ожидания (wait zone).

Далее начиналась 70-дневная тренировка, состоящая из 4 стадий:

Дни 1-7. Каждый раз заходя в зону ожидания, мышь слышала звуковой сигнал длительностью 500 мс, громкостью 70 дБ и частотой 4000 Гц (авторы называют его низким, но видимо низкий он только для мышей, оцените сами), который повторялся каждую секунду, пока мышь не вышла из зоны предложения - или в следующий ресторан, или в зону предложения, где получала печеньку (так я буду называть pellet, то есть кусочек корма). Несъеденные печеньки автоматически исчезали из ресторана, и мыши быстро учились не оставлять их, а съедать сразу же. Следующее предложение ждало мышь только в одном из соседних ресторанов, так что они быстро учились передвигаться от ресторана к ресторану только против часовой стрелки, чтобы посещать их все по очереди.
Дни 8-12. Предложение действовало от 1 до 5 секунд и сопровождалось более высокими звуками (от 4000 до 5548 Гц с шагом в 387 Гц) в виде 5 псевдослучайных комбинаций частоты и длительности. Вновь звук повторялся с интервалом в 1 секунду, пока мышь не покидала зону предложения. При этом, в зоне ожидания мышь также ожидал 500-мс звуковой сигнал, каждую секунду звучащий ниже на 387 Гц в виде обратного отсчета до выдачи печеньки. Если же мышь выходила из ресторана до окончания обратного отсчета, печеньки ей не доставалось и она перемещалась к следующему ресторану. Таким образом, на этапе два мыши учились не только выбирать ресторан, но и ждать окончания сигнала до выдачи печеньки.
Дни 13-17. Предложение действовало от 1 до 15 секунд с еще большим разбросом частоты (4000 - 9418 Гц) и аналогичными этапу 2 правилами.
Дни 18-70. Предложение действовало от 1 до 30 секунд с частотой от 4000 до 15223 Гц.

Так как каждая ежедневная сессия длилась лишь один час, более длительное ожидание печеньки означало, что можно получить в сумме меньше печенек. У мышей в ходе обучения формировались вкусовые предпочтения, в результате более вкусные печеньки они были готовы ждать дольше. Так как обратный отсчет в зоне ожидания начинался с тем более высокого звука, чем дольше было ожидание, мыши после обучения могли по высоте звука понять, сколько придется ждать печеньку и принимали решение, стоит оно того или нет.

В результате в ходе каждой сессии мышь балансировала между стремлением наесться и желанием получить побольше любимых печенек. Каждое решение принимается в два этапа - выбор печеньки в зоне предложения и взвешивание цены печеньки в зоне ожидания. Длительное обучение и тестирование в течение 70 дней позволяет мышам протестировать различные подходы и сформировать оптимальную стратегию поведения в ресторанном лабиринте.

На первом этапе мыши быстро понимали концепцию и стабилизировали количество полученных печенек и пройденных кругов. У них формировались стойкие вкусовые предпочтения, и они пропускали рестораны с менее вкусными печеньками в пользу более вкусных. В последующих этапах количество заработанных печенек снижалось, а время между ними росло из-за смены парадигмы. Голодные мыши становились менее избирательны в выборе ресторана, но чаще бросали ожидание, столкнувшись с его длительностью и в итоге проходили больше кругов. Количество съеденных печенек вернулось к показателям 1 этапа только через две недели после начала 4 этапа (спустя 32 дня эксперимента).

На основе статистики по заходам в ресторан (enter), проходам мимо (skip), получении печеньки (earn) и выхода, не дождавшись (quit) авторы рассчитали показатели ценности каждого ресторана - цена предложения, ниже которой мышь скорее получит печеньку, а выше которой - пройдет мимо.

Если мышь провела сначала время в зоне предложения, потом в зоне ожидания, но бросила, не дождавшись печеньки - она потеряла время, количество которого ограничено одним часом. Поэтому за первые две недели 4 этапа мыши учились бросать как можно быстрее, чтобы тратить меньше драгоценного времени. Рассчеты показали, что время ожидания до того, как бросить не достигало порога, после которого экономически целесообразнее было бы дождаться печеньки. Что интересно, в более вкусных ресторанах мышам было сложнее придерживаться экономически оптимальной стратегии и не ждать слишком долго.

Теперь, наконец про сожаление. Когда у каждого ресторана вычислена ценность для каждой мыши, можно выявить два типа экономических ошибок. Ошибка 1 рода - игнорирование выгодного предложения, ошибка 2 рода - принятие невыгодного предложения. Если мышь зашла в ресторан с низким соотношением цена/качество (долго ждать не очень вкусной печеньки), она уже совершила ошибку 2 рода, но быстро выйти из зоны ожидания будет возможностью частично исправить ошибку, сделанную в зоне предложения. В то время как отложенным эффектом сожаления будет не принимать такое предложение в следующий раз. Авторы проанализировали эпизоды игнорирования или захода-и-выхода из одного ресторана, где мышь провела одинаковое количество времени. Оказалось что после досрочного выхода мыши в следующий раз с большей вероятностью и быстрее примут аналогичное предложение, чем после прохода мимо. Причина - не хотят сталкиваться с чувством сожаления.

Похоже как мышам, так и людям сложно поменять уже принятое решение, даже если оно объективно неправильное. Авторы приводят наглядную аналогию их эксперимента с человеком: стоять в очереди на фудкорте в часовой обеденный перерыв. Уходить из очереди обидно, даже если это объективно правильное решение, идеальное развитие событий - сразу выбрать подходящую очередь. Мыши учатся сразу выбирать правильный ресторан, исходя из чувства сожаления - это не влияет на количество съеденной еды и затраченных / полученных калорий. Вместо того, чтобы смириться и принять сожаление, мыши тратят время и энергию на то, чтобы его избежать.

Недавняя работа в Science Advances сравнивает сожаление от ошибок 1 и 2 рода и анализирует их связь с чувствительностью или устойчивостью к стрессу (Рис. 2). Помимо ресторанного лабиринта в этой работе мышей подвергали социальному стрессу - сажали в клетку к большому агрессивному самцу, в итоге от постоянных побоев и невозможности ни победить, ни убежать у мышей развивалось депрессивно-подобное состояние. Однако не у всех - это позволило разделить их по результатам поведенческих тестов на стрессочувствительных (susceptible) и стрессоустойчивых (resilient).

Рисунок 2. А - Схема ресторана. В - Пример вкусового предпочтения мыши по количеству съеденных за день печенек. С - Рассчет экономической ценности каждого ресторана для одной мыши. D, E - Иллюстрация ошибок 1 и 2 рода. Durand-de Cuttoli et al., 2022, Science Advances.

Дальше анализировали как ошибки 1 и 2 рода в ресторане А влияют на ошибку 2 рода (заход в невыгодный ресторан) в следующем ресторане Б. В качестве контроля использовали ошибку 2 рода в ресторане Б при отсутствии ошибки в ресторане А. Сравнение друх таких видов события позволило понять роль совершенной ошибки в принятии решения в следующем ресторане, при этом статистический анализ позволил учитывать различия в индивидуальном предпочтении каждой мыши к тому или иному ресторану.

Авторы подтвердили, что ошибки увеличивают вероятность совершения невыгодной сделки в следующем ресторане, но на этот феномен влияла чувствительность или устойчивость к стрессу. Ошибка 1 рода (игнорирование выгодного ресторана А) увеличивала вероятно захода в невыгодный ресторан Б только у стрессочувствительных мышей, но не у контрольных и стрессоустойчивых. Ошибка 2 рода (заход в невыгодный ресторан А) также увеличивала вероятность последующего захода в невыгодный ресторан Б, но в этом случае, напротив, этот феномен встречался у контрольных мышей и в еще более выраженной форме у стрессоустойчивых мышей, но не у стрессочувствительных (Рис. 3). Оба явления не зависили от индивидуальных предпочтений мышей и наблюдались во всех ресторанах. Корреляционный анализ показал, что чем более чувствительна мышь к стрессу, тем выше вероятность совершения ошибки в ресторане Б. А вот с уровнем гормона стресса кортикостерона она не коррелировала. При этом аналогичный эксперимент с выгодным рестораном Б показал, что ошибки 1 и 2 рода не влияют на вероятность ошибки 1 рода в следующем ресторане.

Рисунок 3. Ошибки 1 рода (А, В) и 2 рода (C, D) у мышей, чувствительных (SUS) и устойчивых (RES) к стрессу

Дальше авторы анализировали видеозаписи движения мышей в лабиринте и составляли точную траекторию их движения в ресторанах, в которых была допущена ошибка. На основании траектории они вычисляют индекс "компенсаторных проб и ошибок" (vicarious trial-and-error, VTE) - при низком VTE мышь сразу поворачивает либо в ресторан, либо в коридор, при высоком VTE она сначала поворачивает в одну сторону, но потом, осмотревшись и все обдумав, поворачивает в противоположном направлении (Рис. 4)

Рисунок 4. Траектория движения в зоне предложения при низких (А) и высоких (В) значениях VTE. С - распределение VTE в зависимости от ценности ресторана.

Анализ траектории показал, что мыши уверенно заходят в ресторан (Рис. 4А), в то время как при игнорировании они сомневаются, раздумывают и чаще меняют первичное решение о заходе (Рис. 4В). Рестораны с однозначно низкой ценностью без колебаний игнорируются, рестораны с однозначно высокой ценностью без колебаний посещаются - крайние случаи соответствуют низкому уровню VTE (Рис. 4С). А вот когда ценность ресторана близка к пороговой и решение неочевидно, тут мыши сомневаются и часто меняют свое решение в последний момент - это выражается в высоких значениях VTE. Пик однако смещен влево относительно реальной цены ресторана, то есть самое сложное решение - о посещении ресторана с ценой чуть выше порога. Вероятность правильного игнорирования слишком дорогого ресторана возрастает с VTE, то есть активностью и временем размышления мыши о целесообразности посещения (Рис. 4D). Более того, в самых вкусных ресторанах надо поразмышлять подольше, чтобы правильно его проигнорировать.

Стресс влиял на структуру принятия решений - стрессочувствительные мыши отличались большими сомнениями при заходе в выгодный ресторан, что выражается в отсутствии у них перевернутой U-образной кривой на графике (Рис. 4С). Стрессоустойчивые же мыши наоборот меньше сомневались при игнорировании невыгодных ресторанов даже по сравнению с контрольными.

Математический анализ нейроэкономического поведения мышей показал, что стрессочувствительные мыши хотя и получают в сумме такое же количество пищи, потребляют меньше вкусных печенек, что может свидетельствовать об ангедонии - снижении стремления получить удовольствие, ключевой симптом депрессии.

При этом время, за которое мыши покидали ошибочно посещенный ресторан, было сходным у всех трех групп и экономически более выгодным, чем дожидаться печеньки. Это аналог человеческой "ловушки невозвратных затрат" - люди часто продолжают вкладывать деньги в убыточный бизнес, вместо того, чтобы его закрыть и двигаться дальше. Это порождает когнитивный диссонанс и сильный внутренний конфликт. В случае мышиного эксперимента невозвратные затраты - это, время проведенное в зоне ожидания до досрочного выхода из ресторана. Как и у людей, величина невозвратных затрат (время, уже проведенное в ресторане), увеличивала вероятность дальнейших вложений (продолжать ждать печеньку). Неожиданно оказалось, что этот феномен выражен сильнее у стрессоустойчивых мышей по сравнению с контрольными и стрессочувствительными (Рис. 5Е).

Рисунок 5. Досрочные выходы из зоны ожидания. А - Вероятность выхода в зависимости от ценности предложения и времени до получения печеньки. В - Доля трех типов выхода. С, D - Зависимость вероятности получения печеньки от уже прошедшего и оставшегося времени ожидания. E - Чувствительность к невозвратным потерям у трех групп мышей.

После детального анализа поведения мышей в лабиринте, авторы окунулись вглубь нейробиологических механизмов. Они сфокусировались на CREB - ключевом факторе транскрипции, который регулирует экспрессию разных генов и интенсивность синтеза соответствующих белков в разных клетках организма. Предыдущие исследования показали, что CREB в прилежащем ядре nucleus accumbens (известном как "центр удовольствия") и в медиальной префронтальной коре (ключевая область для мотивации) играет противоположную роль в чувствительности/устойчивости к стрессу - увеличение CREB в nucleus accumbens стимулирует депрессивные симптомы, а в медиальной префронтальной коре наоборот предотвращает их развитие. В этом исследовании авторы также обнаружили увеличение активности CREB в прилежащем ядре чувствительных мышей и снижение в медиальной префронтальной коре устойчивых мышей. Анализ экспрессии генов, регулируемых CREB показал, что в медиальной префронтальной коре она коррелирует с сожалением об ошибках 1 рода, а в nucleus accumbens - с сожалением об ошибках 2 рода.

Однако как известно, корреляция еще не свидетельствует о причинно-следственной связи. Для этого в арсенале современной нейробиологии есть мощный инструмент в виде генномодифицированного вируса, который можно точечно ввести в исследуемую область (в даннос случае медиальную префронтальную кору или nucleus accumbens, Рис. 6А). Там вирус вводит свою РНК в нейроны и связываясь с мРНК целевого белка (CREB), подавляет его синтез. После восстановления от операции мыши аналогичным образом обучались в ресторанном лабиринте.

Оказалось, что подавление экспрессии CREB как в медиальной префронтальной коре, так и в nucleus accumbes усиливает вероятность неправильного захода после совершенной ошибки 1 рода (игнорирования выгодного предложения, Рис. 6Е) - то есть усиливает чувство сожаления. После ошибки 2 рода (захода в невыгодный ресторан) сожаление усиливало подавление экспессии CREB в медиальной префронтальной коре, но не в nucleus accumbens (Рис. 6G).

Рисунок 6. А - Схема хирургической инъекции вируса и его внедрения в нейроны. В, С - Вирус не влиял на массу тела, поведение в лабиринте и формирование вкусовых предпочтений. D-G - Подавление экспрессии CREB в медиальной префронтальной коре и nucleus accumbens по-разному влияет на сожаление 1 и 2 рода. Н - Влияние подавления экспрессии CREB на VTE в зоне предложения. J - Влияние подавления экспрессии CREB на чувствительность к невозвратным потерям.

Анализ поведения и траектории движения в ресторане показал, что форма перевернутой U-кривой наблюдается во всех группах (то есть сложнее всего принять решение, когда цена близка к пороговому значению). Однако подавление экспрессии CREB в двух областях мозга по-разному меняло поведение мышей (Рис. 6Н) - в медиальной префронтальной коре оно снижало метания и раздумья, а в nucleus accumbens усиливало как метания, так и время блужданий, необходимых для корректного игнорирования невыгодного предложения. Более того, подавление экспрессии CREB в медиальной префронтальной коре усиливало чувствительность к невозвратным потерям, т.е. вероятность дальнейшего ожидания (Рис. 6J). Напротив, в nucleus accumbens эффект был противоположный - вероятность досидеть в невыгодном ресторане до получения печеньки снижалась.

В сумме получается, что подавление экспрессии CREB в медиальной префронтальной коре (ключевой зоне мотивационного поведения и принятия решений) и в nucleus accumbens (ключевом центре удовольствия и положительного подкрепления) приводит к противоположному эффекту - снижению/усилению сомнений при риске ошибки 2 рода (принятия невыгодного предложения) и усилению/снижению последующего сожаления от невозвратных потерь. При этом на ошибку 1 рода (игнорирование выгодного предложения) манипуляции с обеими областями мозга влияют одинаково.

Наконец, последним шагом исследования было совместное влияние стресса и подавления экспрессии CREB в двух областях мозга, чтобы понять, какую роль они играют в различиях картины сожаления у стрессоустойчивых и стрессочувствительных мышей. Для этого перед обучением в ресторанном лабиринте мышей подвергали подпороговому социальному стрессу (аналогичная модель с агрессивным самцом) и сравнивали фенотип сожаления в зависимости от места подавления экспрессии CREB. Если экспрессия снижалась в nucleus accumbens, стресс снижал чувствительность к ошибкам 1 рода (игнорирование выгодного предложения) и усиливал чувствительность к ошибкам 2 рода (принятия невыгодного предложения) - то есть приводил к фенотипу, ранее типичному для стрессоустойчивых мышей. Напротив, подавление экспрессии CREB в медиальной префронтальной коре воспроизводило фенотип стрессочувствительных мышей - усиление чувствительности к ошибкам 1 рода.

В МРТ-исследованиях на людях активация медиальной префронтальной коры тоже коррелировала с диссонансом между фактическим действием и более выгодной альтернативой в азартных играх. С другой стороны, повреждение этой зоны нарушает формирование сожаления от упущенных возможностей. Кроме того, формирование чувства сожаления и его предсказание может быть нарушено при депрессии, причем независимо от других симптомов.

Интересным результатом исследования стала находка, что именно стрессоустойчивые мыши демонстрируют более тонкую регуляцию восприятия ошибок с разной чувствительностью в ошибкам 1 и 2 рода, в отличие от стрессочувствительных. Так как разделение на стрессоустойчивых и стрессочувствительных происходило по степени социального избегения после стресса, то и снижение страха незнакомца, и заход в невыгодный ресторан - открытость новому опыту и меньшая ригидность поведения, может быть связана со стрессоустойчивостью. Кроме того, чувствительность к невозвратным потерям усиливалась при подавлении экспрессии CREB в медиальной префронтальной коре, из чего авторы делают вывод, что в ходе эволюции стрессоустойчивые мыши могли выработать нейробиологический механизм, опирающийся на невозвратные потери и сожаление от неправильной смены тактики (change-of-mind-related regret), чтобы уделять больше внимания избеганию более дорогостоящих ошибок.

По началу эта работа привлекла меня в основном остроумным дизайном эксперимента, но итоговый вывод, что нейробиологические механизмы могут связывать сожаление от ошибок и восприимчивость к стрессу, выглядит не менее впечатляющим. В дальшнейших исследованиях авторы планируют посмотреть на другие модели стресса, а главное повторить эксперименты на самках - они более чувствительны к стрессу и вся история с сожалением от совершенных ошибок у них может отличаться самым радикальным образом. Не менее интересным выглядит и обратный эксперимент - как чуувствительность к ошибкам 1 и 2 рода связана с чувствительностью/устойчивостью к стрессу? Могут ли оптогенетические, вирусные или фармакологические манипуляции снизить чувствительность с сожалению, усиленную стрессом? Впереди еще много увлекательных исследований, которые, надеюсь, дадут ответы на эти вопросы.