Что такое современная теория тестирования (Item Response Theory, IRT)?

Рубрика #приглашенный_эксперт #психометрика #IRT #R

Публикую первый пост в новой рубрике канала, в которой приглашенный эксперт раскрывает кратко и доступным языком какую-либо тему из области HR-аналитики/Психометрики/Оценки персонала/Анализа и визуализации данных. Приглашенный эксперт рубрики – Денис Федерякин, научный сотрудник Центра психометрики и измерений в образовании Института образования НИУ ВШЭ, рассказывает о том, что такое современная теория тестирования и как глубже разобраться в психометрике всем желающим.

Часто говорят – Психометрика, подразумевают – IRT, говорят – IRT, подразумевают – Психометрика. Однако это совсем разные вещи.

IRT – это группа методов психометрического моделирования вероятности наблюдаемого поведения, которую очень удобно использовать в психологических и образовательных исследованиях, а также для рекомендательных систем и улучшения качества измерительного инструмента. IRT в своем наипростейшем виде подразумевает несколько фундаментальных теоретических допущений.

Во-первых, существует некоторый латентный параметр респондента по конструкту – уровень его способности. «Латентный» означает, что этот параметр может быть только вычислен, и его нельзя пронаблюдать напрямую. Значение этого параметра у каждого респондента своё (свой уровень способности), и это всё, чем различаются респонденты между собой в терминах изучаемого конструкта. Именно этот параметр респондента мы и хотим получить и использовать вместо простой суммы баллов за задания, потому что эта характеристика обладает более мощными математическими свойствами и более надежна.

Во-вторых, существует латентный параметр задания – уровень его трудности. Этот параметр описывает различия между заданиями точно так же, как параметр способности – различия между респондентами, и обладает теми же свойствами, что и параметр респондента.

В-третьих, соотношение этих параметров определяет вероятность того, что каждый респондент верно (и, соответственно, неверно) решит каждое из заданий теста. Это соотношение управляется психометрической моделью – уравнением, которое отражает какие-то теоретические допущения о процессе ответа и природе измеряемого конструкта.

Продолжая описанный пример, возьмем т.н. одномерную дихотомическую логистическую модель Г. Раша. В ней как раз у каждого задания только один параметр (трудность), а у респондента – одна способность. Уравнение этой модели подразумевает, что измеряемый конструкт состоит только из одного континуума способности, у него нет компонентов (он одномерный), задания могут быть решены только полностью неправильно или только полностью правильно (дихотомическая), а вероятность решить одно конкретное задание с возрастанием способности описывается с помощью логистической функции. Из этих допущений вытекает еще несколько (вероятно, более интересных), но про них мы поговорим в следующий раз.

Это все касается описания самой базовой модели IRT. Более сложные модели описывают более сложные ситуации измерения. Например, случаи, когда для описания различий между заданиями нужно больше параметров заданий, когда конструкт состоит из нескольких черт, когда задания допускают частично верные решения, и т.д. Параллельно с этим, IRT позволяет решать огромное количество проблем, связанных с тестированием, в глубине изучать качество теста, и повышать его психометрические характеристики.

Психометрика – это научная дисциплина, которая изучает измерения в социальных науках. Она затрагивает вопросы не только математического моделирования результатов тестирования, но и философские вопросы измерений, построение определений конструктов, их операционализации, анализ качества инструментов измерения, корректность использования результатов измерения, и т.д. Поэтому IRT – это только одна из областей психометрики. А описанная выше модель Раша – это только одна из моделей IRT.

Сотрудники Института образования НИУ ВШЭ подготовили цикл программ дополнительного профессионального образования, который поможет глубже разобраться в психометрике всем желающим. Цикл состоит из двух направлений: (1) программы по разработке и квалифицированному использованию тестов и опросников, и (2) программы по статистическому моделированию результатов измерения.

Слушатели программ первого направления научатся правильно операционализировать характеристику (психологическую или образовательную), которую они хотят измерить, разрабатывать задания, применять инструменты измерения, квалифицированно выбирать инструмент измерения под конкретные цели, понимать ограничения каждого из инструментов и видеть их сильные и слабые стороны.

Слушатели второго направления получат доступ к иерархии программ, которая плавно и безболезненно введет их в курс сложного психометрического моделирования: от самых основ до самых современных психометрических моделей, способных извлекать из данных тестирования огромное количество информации о респондентах, о заданиях, и о их взаимодействии. Эти программы научат не только интерпретации и понимаю структуры психометрических моделей, но и их применению на языке программирования R.

Слушатели могут выбрать ту программу, которая наиболее полно отвечает их потребностям и проектам, или открывает путь к желаемой работе. Все обучение проходит дистанционно по видеосвязи, но в синхронном режиме. Каждая программа включает два академических часа индивидуальной консультации с преподавателем программы по выбору. При успешном завершении каждой из программ, слушателям вручается удостоверение государственного образца.

Обучение начинается 30 мая 2022 года (см. более подробную информацию об этом цикле программ повышения квалификации).