Математическая статистика для продвинутых
Математическая статистика кажется скучной и страшной, пока не поймёшь, для чего она нужна. По сути, это набор инструментов, которые помогают делать выводы из данных, даже если данные неполные или шумные. Благодаря статистике бизнес может предсказать спрос, инженер — проверить качество партии деталей, а врач — оценить эффективность нового лекарства.
В этой статье мы разбираем тест продвинутого уровня по математической статистике. Пройдём вопросы шаг за шагом, объясним, почему правильный ответ именно этот, а не другой. Даже если вы далеки от математики, поймёте логику рассуждений.
Эти знания нужны не только аналитикам и дата-сайентистам. Они важны для всех, кто работает в IT, управляет проектами, принимает решения на основе цифр. Чем лучше вы понимаете статистику, тем проще вам проверить гипотезы и не попасться на ложные выводы.
Вся навигация по материалам в Telegram 👇🏻
Вопрос 1. В проекте разработки ПО среднее время завершения задачи — 20 дней с дисперсией 25. Какова вероятность того, что задача будет завершена за менее чем 15 дней?
Чтобы понять, как часто задача заканчивается быстрее 15 дней, используем нормальное распределение.
Дисперсия = 25, значит стандартное отклонение (σ) = √25 = 5.
Это значит, что 15 дней на 1 стандартное отклонение меньше среднего.
Смотрим таблицу стандартного нормального распределения:
То есть примерно 16% задач завершается быстрее 15 дней.
Вопрос 2. Случайная величина X имеет нормальное распределение с параметрами μ = 10 и σ = 2. Чему равна вероятность того, что X попадёт в интервал от 8 до 12?
У нас нормальное распределение со средним 10 и стандартным отклонением 2.
Нас спрашивают про интервал от 8 до 12. Это значит от среднего ±2 единицы.
То есть нас интересует вероятность того, что значение окажется в пределах ±1 σ от среднего.
Что говорит правило для нормального распределения?
Примерно 68% значений попадают в интервал μ ± σ (один стандарт).
Вопрос 3. Какой размер выборки нужен для 95% уровня доверия и 5% допустимой ошибки при партии из 10,000 изделий?
Тут нужно понять, сколько изделий проверить, чтобы быть уверенным в результате на 95% (и при этом ошибиться не больше чем на 5%).
Используем известную приближенную формулу для выборки (для больших N):
· p = 0.5p (максимальная вариативность — наибольший запас),
n = ((1.96)^2 × 0.5 × 0.5) / 0.05^2 = 3.8416 × 0.25 / 0.0025 = 0.9604 / 0.0025 = 384.16
Это если бы партия была очень большой (N → ∞).
С учётом конечной совокупности (10,000):
Примерно 370 изделий нужно проверить.
Вопрос 4. Чем НЕ характеризуется качество точечной оценки параметра распределения?
Когда мы оцениваем какой-то параметр (например, среднее), мы хотим, чтобы наша оценка была:
1. несмещённой (в среднем даёт правильный результат),
2. состоятельной (при увеличении выборки приближается к истинному значению),
3. эффективной (имеет наименьшую возможную дисперсию).
А вот случайность — это не характеристика качества оценки. Все статистики — случайные величины, но это не свойство их качества. Качество измеряется другими терминами.
Вопрос 5. Какой тест используют для проверки нормальности распределения данных?
Заказчик сказал, что продажи распределены нормально — но нам нужно это проверить.
Для этого есть специальные статистические тесты, которые как раз и показывают, насколько данные «похожи» на нормальное распределение.
- Тест Шапиро-Уилка — классический критерий для проверки нормальности. Он специально разработан для этой задачи.
- Остальные тесты (Спирмена, Краскела-Уоллиса, Манна-Уитни, Левенса) проверяют другие свойства: корреляцию, различия между группами, равенство дисперсий, но не нормальность.
Выбранный ответ: Тест Шапиро-Уилка
Вопрос 6. Какова вероятность того, что в выборке из нормального распределения со средним 100 и σ=15 значение окажется меньше 85?
Ø Нас интересует вероятность X < 85.
z = (85−100) / 15 = −15 / 15 = −1
То есть 85 — это ровно на одно σ меньше среднего.
Смотрим стандартную таблицу нормального распределения:
Это значит, что примерно 15,87% значений окажутся меньше 85.
Вопрос 7. Что правильно говорит о построенном 99% доверительном интервале?
1. Мы можем быть на 99% уверены, что каждый посетитель торгового центра тратит сумму, находящуюся в пределах интервала
2. При многократном повторении опроса и построении доверительного интервала, истинное среднее значение расходов всех посетителей торгового центра окажется внутри построенного интервала в 99% случаев
3. Вероятность того, что истинное среднее значение расходов всех посетителей торгового центра лежит в построенном интервале, равна 99%
4. Построенный доверительный интервал всегда будет содержать выборочное среднее значение (1200 рублей)
5. 99% посетителей торгового центра тратят сумму в пределах интервала
Когда мы строим 99% доверительный интервал, это значит:
- если бы мы много раз повторили эксперимент (брали бы новые выборки по 250 человек) и каждый раз строили интервал, то примерно в 99% этих интервалов оказалось бы истинное среднее значение для всех посетителей.
То есть доверительный интервал говорит о надёжности процедуры, а не о том, что внутри интервала 99% людей или что вероятность для конкретного уже построенного интервала равна 99%.
Ø «Каждый посетитель тратит сумму в пределах интервала» — это не так, CI не для каждого человека.
Ø «При многократном повторении... истинное среднее окажется в интервале в 99% случаев» — это верно.
Ø «Вероятность, что истинное среднее в этом конкретном интервале, =99%» — строго говоря, это не классическая интерпретация.
Ø «Интервал всегда содержит выборочное среднее» — это банально, но не раскрывает смысла доверия.
Ø «99% посетителей тратят сумму в пределах интервала» — это вообще о другом, это был бы prediction interval.
Выбранный ответ:
При многократном повторении опроса и построении доверительного интервала, истинное среднее значение расходов окажется внутри построенного интервала в 99% случаев
Вопрос 8. Что лучше всего использовать для проверки гипотезы о том, что распределение баллов соответствует нормальному с неизвестным средним и дисперсией?
3. Критерий хи-квадрат Пирсона
4. Критерий Колмогорова-Смирнова
Нам нужно проверить, «похожи ли данные на нормальное распределение».
Для таких задач чаще всего применяют Критерий Колмогорова-Смирнова, который сравнивает эмпирическую функцию распределения выборки с теоретической нормальной функцией.
- t-критерий Стьюдента — для проверки равенства средних.
- Критерий знаков, Вилкоксона — для сравнения медиан или рангов.
- χ²-критерий Пирсона может использоваться для нормальности, но он более грубый, чувствителен к разбиению интервалов. Для непрерывных проверок чаще используют Колмогорова-Смирнова.
Выбранный ответ:
Критерий Колмогорова-Смирнова
Вопрос 9. Компания, производящая батарейки, утверждает, что средний срок службы их батареек составляет 50 часов. Была протестирована случайная выборка из 64 батареек, обнаружено, что средний срок службы в выборке составляет 48 часов со стандартным отклонением 8 часов. Какой статистический критерий следует использовать для проверки гипотезы о среднем сроке службы батареек, и каковы будут правильно сформулированные нулевая и альтернативная гипотезы для проверки утверждения компании на уровне значимости 5%?
1. Двухвыборочный t-критерий. Нулевая гипотеза: средний срок службы равен 50 часам. Альтернативная гипотеза: средний срок службы не равен 50 часам
2. Одновыборочный t-критерий. Нулевая гипотеза: средний срок службы равен 50 часам. Альтернативная гипотеза: средний срок службы меньше 50 часов
3. Критерий хи-квадрат. Нулевая гипотеза: средний срок службы равен 48 часам. Альтернативная гипотеза: средний срок службы не равен 48 часам
4. Парный t-критерий. Нулевая гипотеза: разница в среднем сроке службы равна О часам. Альтернативная гипотеза: разница в среднем сроке службы не равна О часам
5. Одновыборочный z-критерий. Нулевая гипотеза: средний срок службы равен 50 часам. Альтернативная гипотеза: средний срок службы не равен 50 часам
У нас есть одна выборка, которую сравнивают с заданным средним значением (50 часов).
Размер выборки n=64 большой, можем использовать z-критерий (так как известно стандартное отклонение выборки, выборка достаточно велика для нормального распределения средней).
Если бы выборка была маленькая или неизвестна σ генеральной совокупности, применяли бы t-критерий для одной выборки.
Тут явно дан «Одновыборочный z-критерий». Это на практике правильный подход для больших выборок с известной s.
1. H0: Средний срок службы равен 50 часам.
2. H1: Средний срок службы не равен 50 часам. (двусторонняя проверка, так как может быть и меньше, и больше).
Выбранный ответ:
Одновыборочный z-критерий. Нулевая гипотеза: средний срок службы равен 50 часам. Альтернативная гипотеза: средний срок службы не равен 50 часам
Вопрос 10. Что произойдет со спросом, если цена увеличится на 10%, реклама на 20%, а сезонность не изменится?
Вопрос даёт нам модель множественной регрессии, где каждый фактор умножается на свой коэффициент.
· Цена: − 0.5 × 10% = −5% (уменьшает спрос на 5%).
· Реклама: + 0.3 × 20% = +6% (увеличивает спрос на 6%).
· Сезонность не изменилась, значит добавляет 0.
Выбранный ответ:
Увеличится на 1%
Вопрос 11. Какой коэффициент корреляции Пирсона между количеством удобрений и урожайностью?
· -0.50 - Умеренная отрицательная корреляция
· -0.99 - Сильная отрицательная корреляция
· 0.50 - Умеренная положительная корреляция
· 0.00 - Отсутствие корреляции
· 0.99 - Сильная положительная корреляция
Смотрим таблицу: чем больше внесли удобрений (100 → 300), тем выше урожайность (30 → 70).
Это почти идеально линейная зависимость: рост удобрений даёт рост урожайности.
Значит, корреляция высокая и положительная.
Для наглядности: если бы все точки лежали на одной прямой, корреляция была бы +1.
Здесь данные именно такие (каждый шаг +50 удобрений даёт +10 урожайности), значит близко к +1.
Выбранный ответ:
0.99 — Сильная положительная корреляция
Вопрос 12. Сравнивается два метода обучения студентов (традиционный и интерактивный) по результатам итогового экзамена. Распределение результатов не является нормальным. При применении критерия Манна-Уитни обнаруживается, что статистика U равна О. Какое из следующих утверждений наиболее точно описывает ситуацию?
1. Существует статистическая ошибка в расчетах, поскольку U не может быть равно О
2. Распределение результатов в обеих группах идентично
3. Критерий Манна-Уитни не может быть применен к данным такого типа
4. Отсутствуют различия между группами, и критерий Манна-Уитни не выявил значимых результатов
5. Все значения в одной группе строго меньше, чем все значения в другой группе
Критерий Манна-Уитни нужен для сравнения двух выборок, когда распределения не обязательно нормальные.
Статистика U показывает, сколько раз значение из одной группы больше, чем из другой.
Если U = 0, значит нет ни одной пары, где бы значение из первой группы оказалось больше значения из второй.
То есть все значения одной группы строго меньше всех значений другой группы — очень сильное различие.
Выбранный ответ:
Все значения в одной группе строго меньше, чем все значения в другой группе
Заключение
Вы прошли тест продвинутого уровня и разобрали каждое задание. Теперь вы умеете не просто угадывать ответы, а понимаете, почему они такие. Это главное — вы учитесь мыслить как аналитик: проверять допущения, задавать уточняющие вопросы, разбирать задачи на простые части.
Эти навыки пригодятся в любой сфере, где важны данные и принятие решений: от IT до маркетинга и управления продуктами. Чем больше вы практикуетесь, тем увереннее будете себя чувствовать в сложных задачах и переговорах. А значит, сможете быстрее расти в профессии.