Анализ профилей MMPI образа Мэрилин Монро на основе больших языковых моделей и системы ТЕЗАЛ
В этом кратком сообщении я анализирую профили MMPI–I, созданные различными большими языковыми моделями (БЯМ), для Мэрилин Монро, с целью сравнения их с профилем системы ТЕЗАЛ (ТЕЗаурус Автоматизированный Личностный). В своем мини-исследовании опираюсь на статью А. Г. Шмелёва «Патохарактерологический профиль „Мэрилин Монро“ в системах DeepSeek и ТЕЗАЛ», где обсуждается использование БЯМ DeepSeek для создания профилей на основе текстовых данных (текстового запроса в виде инструкции и перечня личностных черт). В ней автор описывает сравнение двух систем (БЯМ и ТЕЗАЛ) для создания патохарактерологических профилей MMPI для экранного образа «Мэрилин Монро» на основе 10 русскоязычных черт личности:
РАЗВЕСЁЛЫЙ, ЛЮБВЕОБИЛЬНЫЙ, ПОТЕШНЫЙ, БАЛОВНОЙ, ТРАНЖИРА, РАЗБОЛТАННЫЙ, СМЕШЛИВЫЙ, БЕСПЕЧАЛЬНЫЙ, РАСТОЧИТЕЛЬНЫЙ, УМОРИТЕЛЬНЫЙ.
Важно! Эти черты были выделены участниками вебинара и характеризуют кинематографический образ, а не реальную личность актрисы (ознакомитесь с детальным описанием в исходной статье).
Основные отличия в данном мини-исследовании:
1. использование 6 различных БЯМ: ChatGPT-4o от компании OpenAI, DeepSeek от одноименной китайской компании, DeepSeek_simple_prompt (данные из статьи Шмелёва А.Г.), GROK-3 от компании xAI Илона Маска, Mistral Large 2 от французского стартапа Mistral AI, Qwen2.5-MAX от китайской компании Alibaba, YandexGPT 5 Pro от российской компании Яндекс.
2. использование улучшенного промпта, в котором наряду с контекстом и описанием шкал MMPI фиксируется требование к БЯМ возвращать ответ в виде целого числа по шкалам MMPI (Т-баллы). Например, в таком формате:
3. использование кроме корреляции Пирсона другой метрики сходства профилей — коэффициентa McCrae’s rpa, а также расчет средней абсолютной ошибки (MAE) как для моделей, так и для оценок всех моделей по каждой шкале MMPI в отдельности.
Целью было определить, какая большая языковая модель наиболее близко соответствует профилю ТЕЗАЛ (может сгенерировать похожий профиль на основе личностных черт в сравнении со специализированной экспертной системой), используя коэффициент McCrae’s rpa и корреляцию Пирсона.
Краткое описание методологии
- ТЕЗАЛ: Конверсия исходного списка из 10 черт в количественный профиль (факторная система MMPI) с последующей конверсией Тезал-баллов в T-баллы (данные из оригинальной статьи А. Г. Шмелёва).
- БЯМ: Генерация T-баллов на основе тех же черт по каждой шкале MMPI. В тексте запроса к БЯМ нет упоминания, что список качеств выделен для Мэрилин Монро.
- Расчет сходства профилей (профиль ТЕЗАЛ — целевой профиль).
Коэффициент McCrae’s rpa — это метрика сходства двух личностных профилей, полученных на основе многошкальных личностных опросников, например, MMPI, Big5, HEXACO, etc. Она учитывает не только форму (паттерн) профиля, но и его уровень (среднее значение). Это важно, потому что два профиля могут иметь схожую форму, но различаться по общему уровню T-баллов. Например, один профиль может быть выше по всем шкалам, чем другой, и rpa это заметит, в то время как корреляция Пирсона этого не покажет.
Например, у нас есть два профиля: profile1 <- c(50, 80, 75, 65, 55) profile2 <- c(40, 60, 65, 35, 25) > cor(profile1, profile2) [1] 0.8096409 > rpa(profile1, profile2, mu = 50, sd = 10, is_zscore = FALSE, plot_profiles = TRUE) [1] -0.04079085
Иными словами, два профиля могут иметь одинаковую форму и, следовательно, высокую корреляцию, но один может быть «высоко-расположенным», а другой — «утопленным».
Данные
Исходные данные представлены в файле LLM_data_profile.csv. Для каждой модели и системы ТЕЗАЛ были получены T-баллы по 10 шкалам MMPI. Также был рассчитан усредненный профиль на основе всех протестированных моделей (AverageLLM).
Примечание: В тексте далее DeepSeek_simple_prompt представляет оригинальный результат из статьи, тогда как DeepSeek — результат модели с использованием улучшенного промпта, но модель DeepSeek в обоих случаях.
Данные, графики и исходный код анализа на языке R доступны на Github.
Таблица сходства профилей
Ниже приведены результаты расчета rpa, cor — корреляции Пирсона, MAE (средняя абсолютная ошибка) для каждой модели по сравнению с баллами ТЕЗАЛ:
MAE рассчитывается как среднее абсолютное отклонение значений каждой модели от значений ТЕЗАЛ. Это показывает, насколько в среднем модель отклоняется от ТЕЗАЛ (чем меньше MAE, тем лучше).
В таблице мы видим рейтинг больших языковых моделей (БЯМ) по их соответствию баллам профиля ТЕЗАЛ для Мэрилин Монро, отсортированных по убыванию коэффициента rpa. YandexGPT 5 Pro лидирует (rpa 0.793, cor 0.849, mae 5.85). Это указывает на лучшее соответствие профиля как по форме, так и по уровню профиля ТЕЗАЛ с минимальными отклонениями по сравнению с другими БЯМ.
AverageLLM (усреднённый профиль всех моделей) на втором месте.
Модели, такие как Qwen2.5-MAX, MistralAI и ChatGPT-4o, показали умеренное сходство, в то время как GROK-3 (rpa = 0.633, r = 0.715) оказалась наименее близкой к ТЕЗАЛ.
В следующей таблице представлены в порядке убывания средние абсолютные ошибки (MAE) для каждой шкалы MMPI, рассчитанные по всем моделям (без учета AverageLLM). Чем выше значение MAE, тем больше среднее отклонение предсказаний моделей от эталонных данных (целевой профиль ТЕЗАЛ):
MAE имеет размерность T-шкалы, если разделить на 10 (1 SD = 10 T-баллов), то получим ошибку в стандартных отклонениях (sMAE):
- sMAE > 1.0 (больше одного стандартного отклонения на шкале T-баллов) указывает на существенное отклонение от эталонных или целевых значений (например, 1.41 по Pd и 1.14 по Si). Это говорит о том, что модели наименее точно воспроизводят оценки для соответствующих шкал. Вероятно, у моделей сложности с корректным определением поведенческих проявлений антисоциальных черт, социальной дезадаптации и интровертированного поведения и т.п.
- sMAE ≈ 0.5 — 1.0 — умеренные расхождения (например, Hy, HS, Pt). Модели менее уверенно определяют особенности эмоциональной нестабильности, мнительности и тревожности и т.п.
- sMAE < 0.5 — наиболее точные предсказания моделей (например, Ma, D, Pa). Модели лучше справляются с интерпретацией поведенческих проявлений, связанных с депрессивностью, гиперактивностью и импульсивностью и т.п.
Визуализация профилей
График ниже показывает профили MMPI для всех моделей, с выделением профиля ТЕЗАЛ, YandexGPT-5 и AverageLLM:
Основные выводы
- YandexGPT 5 Pro демонстрирует наилучшее соответствие профилю ТЕЗАЛ, то есть наиболее точно воспроизводит патохарактерологический профиль кинематографического образа Мэрилин Монро, основанный на заданных 10 русскоязычных личностных чертах.
- AverageLLM как надежная альтернатива — усредненный профиль всех протестированных БЯМ (AverageLLM) занял второе место по сходству с профилем ТЕЗАЛ. Агрегирование результатов нескольких моделей может служить эффективным подходом для получения профиля, близкого к эталонному, даже если отдельные модели демонстрируют вариативность в точности. Ансамблевый подход, где объединение выводов нескольких моделей, является ресурсоемким и дорогим решением. Я попробовал только один из способов агрегирования, но можно использовать другие статистические методы агрегации — медиану или усечённое среднее (trimmed mean). Оставляю за читателями сделать самостоятельно такие расчеты, поскольку данные и код открыты.
- Сложности с отдельными шкалами MMPI. Анализ средних абсолютных ошибок (MAE) по каждой шкале MMPI выявил области, где модели испытывают наибольшие трудности. Скорее всего, необходимо улучшать промпт или проводить дополнительное обучение БЯМ на данных, для решения такой задачи — генерирования личностного профиля в одной из факторных систем на основе входного списка личностных черт. Полученный результат лишь показывает, ограниченность практического применения БЯМ для решения подобной задачи в сравнении со специализированной системой ТЕЗАЛ, валидность которой для применения в качестве инструмента автоматизированной интерпретации результатов психологического тестирования имеет эмпирические свидетельства, полученных в том числе экспертно-статистическими методами.
- Впечатляющий результат БЯМ заставляет задуматься, нет ли у них зачатков «ментальной модели реальности»? :)