Взаимодействие факторов
Какое основное отличие многофакторных моделей от однофакторных?
Многофакторные позволяют оценить взаимодействие факторов.
Когда мы оцениваем зависимость изучаемого признака от какого-нибудь фактора, то должны понять, изменится ли наше предположение о значении этого признака, если мы будем знать значение фактора.
Например, мы можем построить модель, где покажем, что артериальное давление (АД) зависит от возраста. О чем говорит такая зависимость? О том, что зная, какой возраст у человека, мы сможем предположить, какое у него АД. Если одному человеку 25 лет, а другому - 70, то, скорее всего, у второго человека АД выше, чем у первого.
А если мы изучаем зависимость признака от двух факторов? Мы можем поступить следующим образом:
✔️ Построить 2 отдельные модели, в каждой из которых рассмотреть влияние одного из факторов на зависимую переменную.
✔️ Построить 1 двухфакторную модель, где одновременно оценим влияние обоих факторов на зависимую переменную.
В первом варианте мы сможем только оценить влияние каждого фактора без учета влияния другого фактора.
А во втором варианте сможем как оценить влияние каждого фактора при условии устранения влияния другого фактора - такое влияние называется главным эффектом (main effect), так и оценить взаимодействие факторов (interaction effect).
Взаимодействие означает, что влияние одного из факторов на изучаемый признак зависит от значения другого фактора, и наоборот.
И вот здесь могут получиться очень разные варианты сочетания статистической значимости эффектов. Главные эффекты могут быть значимыми, а взаимодействие - нет. Могут быть все эффекты значимыми. Может быть значимым только один фактор. Или только взаимодействие. И т.д. То есть главные эффекты и взаимодействие факторов - не связаны между собой и могут существовать в разных комбинациях.
Это сочетание эффектов очень важно для клинического вывода о влиянии факторов на зависимую переменную. Определяя их, мы ответим на такие вопросы:
- Изменится ли наше предположение о зависимой переменной, если мы будем знать информацию о первом факторе? (Главный эффект первого фактора)
- Изменится ли наше предположение о зависимой переменной, если мы будем знать информацию о втором факторе? (Главный эффект второго фактора)
- Когда мы предполагаем зависимую переменную исходя из значения одного фактора, нужно ли нам знать информацию о другом факторе? (Эффект взаимодействия факторов)
Давайте рассмотрим разные варианты сочетания главных эффектов и взаимодействия факторов на клиническим примере. Предположим, что мы изучаем влияние на АД двух факторов: ожирения и курения. Оба фактора бинарные, поэтому можно изобразить связь АД с ними четырьмя точками, означающими среднее АД у пациентов:
Построим диаграмму, где значение фактора курения будет на оси Х, пациенты с ожирением и без будут показаны отдельными линиями (красной и синей, соответственно). А АД будет измерено на оси Y.
Первый пример будет такой:
Значим ли главный эффект ожирения? Нам нужно понять, позволяет ли информация о наличии ожирения (при условии одного и того же статуса курения) предположить изменение уровня АД. Очевидно, что да. При наличии ожирения ожидается более высокое значение АД, так как красная линия, соответствующая наличию ожирения находится выше, чем синяя линия.
То есть если взять двух человек: у одного есть ожирение, у другого - нет ожирения, при этом они либо оба курят, либо оба не курят, то мы легко ответим на вопрос, у кого АД выше: у того, у кого есть ожирение.
То же самое можно сказать о курении. У курящих - как при ожирении, так и при его отсутствии - АД выше, так как обе линии на графике восходящие: слева - ниже, справа - выше.
Итак, оба главных эффекта - статистически значимы. А что с взаимодействием факторов? Важно ли нам знать о наличии курения, если мы сравниваем пациентов с ожирением и без? Да, важно! Ведь если они не курят, ожирение даст прирост среднего АД всего на 10.6 мм рт.ст. (137.3 - 126.7). А если курят - тогда прирост будет намного больше: на 41.5 мм рт.ст. (193.9 - 152.4).
Итак, для того, чтобы оценить влияние одного из факторов, нам необходимы информация о другом факторе. Это и есть взаимодействие факторов. На графике мы можем заподозрить его, если линии будут находиться под углом друг к другу. И действительно, линии расходятся под заметным углом, веером.
График был построен в SPSS по конкретным данным, полученные значения p подтверждают наши выводы:
Посмотрим второй пример:
Здесь мы видим 2 параллельные восходящие линии. Это означает, что наличие курения как у людей с ожирением, так и у людей без ожирения, - увеличивает среднее АД примерно на одну величину (на 41.6 и на 34 мм рт.ст., соответственно).
Также и наличие ожирения как у курящих, так и у некурящих увеличивает АД на 33.2 или на 25.6 мм рт.ст.
То есть оба главных эффекта - статистически значимы.
А вот взаимодействие факторов здесь несущественное. Линии почти параллельны, то есть для предположения о приросте АД при наличии одного из факторов, информация о значении другого фактора (при условии, что оно одинаково у сравниваемых людей) - нам особо ничего не даст.
Третий пример:
Здесь линии тоже параллельны друг другу (что означает - взаимодействие факторов несущественно). При этом они также почти параллельны оси Х. То есть влияние курения на АД - практически отсутствует: у пациентов без ожирения прирост АД у курящих всего 1.4 мм рт.ст., у пациентов с ожирением - 4.9 мм рт.ст.
Зато выражен главный эффект ожирения: как у некурящих, так и у курящих прирост существенный: на 29.7 или на 33.2 мм рт.ст.
Итак, информация о наличии ожирения позволяет предположить изменение АД, при этом это изменение не зависит от значения фактора курения. Влияние курения на АД - несущественно.
И заключительный пример:
Его я предлагаю вам проанализировать самостоятельно. И написать в комментариях, существенны ли главные эффекты и взаимодействие факторов в этой модели?