Базовые принципы математической статистики
Математическая статистика — это умение работать с данными так, чтобы принимать решения на основе фактов, а не догадок. Здесь не нужно быть учёным или математиком. Главное — понимать простые вещи: что такое среднее, дисперсия, вероятность и как они помогают увидеть закономерности.
В этой статье пошагово разберём тест базового уровня, постараюсь понятно объяснить о чём речь. Такие знания нужны аналитикам, маркетологам, продуктовым менеджерам и тем, кто только собирается на стартовую позицию в IT. Без статистики не получится ни посчитать воронку, ни проверить гипотезу, ни оценить эффективность рекламы.
Вопрос 1. Статистическая вероятность события — это:
1. Частота появления события в одном эксперименте
2. Среднее значение случайной величины
3. Количество исходов в эксперименте
4. Число экспериментов, в которых произошло событие
5. Доля случаев, в которых событие происходит, при большом числе повторений эксперимента
Объяснение:
Представь, что ты кидаешь монету тысячи раз. Если она выпадет орлом примерно в половине случаев, ты скажешь: «Вероятность выпадения орла — примерно 0.5».
Статистическая вероятность — это про то, сколько раз событие случается, если мы проводим очень много одинаковых экспериментов. То есть доля случаев, в которых событие происходит, когда мы экспериментируем снова и снова.
Это не «в одном эксперименте» (слишком мало данных), не «среднее значение случайной величины» (это другое понятие), не «количество исходов» и не просто «число экспериментов, где событие произошло».
Правильнее всего — это доля случаев, в которых событие происходит, при большом числе повторений эксперимента.
Выбранный ответ:
Доля случаев, в которых событие происходит, при большом числе повторений эксперимента.
Вопрос 2. В два последовательных броска подбрасываются по одному игральному кубику. Какова вероятность того, что: (а) в первом броске выпадет число меньше 4 (б) во втором броске выпадет четное число?
Объяснение:
Представь, что ты два раза кидаешь кубик. Эти броски никак не влияют друг на друга — это важно.
Теперь считаем шаг за шагом:
В первом броске нужно, чтобы выпало число меньше 4.
На кубике числа от 1 до 6. Под число меньше 4 подходят 1, 2 и 3.
Это 3 подходящих исхода из 6 возможных.
Вероятность = 3/6 = 1/2.
Во втором броске нужно, чтобы выпало четное число.
Четные на кубике — это 2, 4 и 6.
Опять 3 подходящих исхода из 6.
Вероятность = 3/6 = 1/2.
Так как броски независимые, чтобы найти вероятность сразу двух условий, их вероятности умножаются:
(1/2) × (1/2) = 1/4.
Вопрос 3. В компании 70% сотрудников работают в офисе, а 30% — удалённо. Вероятность опоздания офисного работника = 8% Вероятность опоздания удалённого = 3%. Известно, что сотрудник опоздал. Какова вероятность, что он работает в офисе?
Объяснение:
Это задача на формулу Байеса.
Если сказать по-человечески:
— Нас интересует: среди всех, кто опоздал, какова доля офисных сотрудников?
Нужно посчитать, кто чаще всего среди опоздавших.
1. Считаем долю всех, кто опоздал:
- среди офисных: 0.7 × 0.08 = 0.056
- среди удалённых: 0.3 × 0.03 = 0.009
Итого вероятность, что случайный сотрудник опоздал:
0.056 + 0.009 = 0.065
2. Применяем Байеса:
Вероятность, что опоздавший работает в офисе =
Вопрос 4. Что такое математическое ожидание случайной величины?
2. Вероятность наступления события
4. Среднее значение, ожидаемое при большом числе повторений
5. Центральный момент второго порядка
Объяснение:
Математическое ожидание — это если ты будешь проводить эксперимент очень много раз и будешь записывать результаты, то их среднее значение в итоге приблизится к одному числу.
Например, если много раз бросать кубик, то среднее значение выпавших граней будет около 3.5 — это и есть математическое ожидание.
Это не вероятность события, не ошибка выборки, не размах (разность между максимумом и минимумом), и не дисперсия (которая является центральным моментом второго порядка).
Выбранный ответ:
Среднее значение, ожидаемое при большом числе повторений
Вопрос 5. Если стандартное отклонение равно 2, то дисперсия составляет:
Объяснение:
Дисперсия — это квадрат стандартного отклонения.
Если стандартное отклонение (σ) = 2, то дисперсия (σ²) = 2² = 4.
Это одно из самых базовых свойств в статистике.
Можно запомнить так: стандартное отклонение — это просто корень из дисперсии, а значит дисперсия = (стандартное отклонение)².
Вопрос 6. Какой закон распределения наиболее часто используется для моделирования количества событий, происходящих за фиксированный период времени, если эти события происходят независимо друг от друга с постоянной средней интенсивностью?
Объяснение:
Если у нас есть события, которые происходят случайно, но в среднем с какой-то постоянной частотой (например, звонки в колл-центр, поломки машин, поступления заказов в интернет-магазин), и нам нужно узнать, сколько таких событий случится за час, день, неделю — для этого чаще всего используют пуассоновское распределение.
- Биномиальное — для конечного числа испытаний с двумя исходами (да/нет).
- Равномерное — когда все значения одинаково вероятны.
- Экспоненциальное — для моделирования времени ожидания между событиями.
- Нормальное — для «колоколообразного» распределения около среднего.
А вот пуассоновское — как раз для подсчета числа событий за фиксированный промежуток времени при известных средней интенсивности и независимости.
Выбранный ответ: Пуассоновское
Вопрос 7. Вероятность того, что случайно выбранный вал будет признан бракованным
Объяснение:
У нас вал с диаметром, который нормально распределён вокруг 50 мм.
- Среднее μ = 50
- Стандартное отклонение σ = 0.1
Брак — если отклонение более чем на 0.15 мм, то есть за пределами [49.85; 50.15].
Теперь найдём, сколько это в σ: Z = 0,15/0,1 = 1,5
То есть нас интересует вероятность отклонения больше 1.5 σ в любую сторону (и влево, и вправо).
По таблице нормального распределения:
Это означает, что примерно 13.36% таких валов окажутся браком.
Вопрос 8. Что из перечисленного наиболее точно описывает разницу между генеральной совокупностью и выборкой в статистическом исследовании?
1. Генеральная совокупность всегда меньше выборки
2. Выборка — это теоретическое понятие, в то время как генеральная совокупность — это реальный набор данных
3. Генеральная совокупность — это вся интересующая нас группа объектов, а выборка — это подмножество этой группы, отобранное для исследования
4. Выборка включает в себя все элементы генеральной совокупности
5. Генеральная совокупность и выборка — это синонимы, обозначающие одно и то же
- Генеральная совокупность — это всё множество объектов или явлений, которые нас интересуют. Например, все люди в стране.
- Выборка — это маленькая часть этой группы, которую мы действительно изучаем. Например, тысяча человек, которых мы опросили.
Все остальные варианты — неверные:
- Генеральная совокупность не меньше выборки (обычно наоборот).
- Не наоборот: выборка — реальные данные, а генеральная совокупность — чаще теоретическая.
- Выборка не включает всю генеральную совокупность.
- И точно это не синонимы.
Выбранный ответ:
Генеральная совокупность — это вся интересующая нас группа объектов, а выборка — это подмножество этой группы, отобранное для исследования
Вопрос 9. Какое из перечисленных свойств оценки параметра означает, что с увеличением размера выборки оценка стремится к истинному значению оцениваемого параметра?
Объяснение:
Если мы всё больше и больше набираем данных, а наша оценка при этом всё ближе и ближе подходит к настоящему (истинному) значению параметра, то говорят, что такая оценка состоятельна.
Это ключевое определение свойства «состоятельность».
- Несмещённость означает, что в среднем оценка не завышает и не занижает параметр, но это не гарантирует приближения при росте выборки.
- Эффективность — что оценка даёт наименьшую дисперсию среди несмещённых.
- Робастность — устойчива к нарушениям предположений.
- Достаточность — использует всю информацию о параметре, содержащуюся в данных.
Выбранный ответ: Состоятельность
Вопрос 10. Найдём несмещённую оценку математического ожидания (среднее значение)
Объяснение:
Это просто среднее взвешенное. Нужно умножить каждое количество проданных товаров на число сотрудников с таким результатом, всё сложить и разделить на общее число сотрудников.
(4*5)+(6*8)+(8*10)+(10*4)+(12*3)=(20)+(48)+(80)+(40)+(36)= 224
Делим на общее число сотрудников (30): 224/ 30 ≈ 7.47
Это и будет несмещённая оценка математического ожидания.
После разбора теста вам станет легче читать простые статистические показатели и сможете уверенно говорить о данных. Это первая ступенька. Дальше можно разбираться в А/В-тестах, прогнозах и более сложных моделях. Такой фундамент открывает путь к аналитике, управлению продуктами и любым задачам, где нужны цифры и логика.