July 25

Базовые принципы математической статистики

Математическая статистика — это умение работать с данными так, чтобы принимать решения на основе фактов, а не догадок. Здесь не нужно быть учёным или математиком. Главное — понимать простые вещи: что такое среднее, дисперсия, вероятность и как они помогают увидеть закономерности.
В этой статье пошагово разберём тест базового уровня, постараюсь понятно объяснить о чём речь. Такие знания нужны аналитикам, маркетологам, продуктовым менеджерам и тем, кто только собирается на стартовую позицию в IT. Без статистики не получится ни посчитать воронку, ни проверить гипотезу, ни оценить эффективность рекламы.

Вопрос 1. Статистическая вероятность события — это:

Варианты ответов:

1.     Частота появления события в одном эксперименте

2.     Среднее значение случайной величины

3.     Количество исходов в эксперименте

4.     Число экспериментов, в которых произошло событие

5.     Доля случаев, в которых событие происходит, при большом числе повторений эксперимента

Объяснение:
Представь, что ты кидаешь монету тысячи раз. Если она выпадет орлом примерно в половине случаев, ты скажешь: «Вероятность выпадения орла — примерно 0.5».
Статистическая вероятность — это про то, сколько раз событие случается, если мы проводим очень много одинаковых экспериментов. То есть доля случаев, в которых событие происходит, когда мы экспериментируем снова и снова.
Это не «в одном эксперименте» (слишком мало данных), не «среднее значение случайной величины» (это другое понятие), не «количество исходов» и не просто «число экспериментов, где событие произошло».
Правильнее всего — это доля случаев, в которых событие происходит, при большом числе повторений эксперимента.

Выбранный ответ:
Доля случаев, в которых событие происходит, при большом числе повторений эксперимента.

Вопрос 2. В два последовательных броска подбрасываются по одному игральному кубику. Какова вероятность того, что: (а) в первом броске выпадет число меньше 4 (б) во втором броске выпадет четное число?

Варианты ответов:

·        1/9

·        1/3

·        1/4

·        1/2

·        1/6

Объяснение:
Представь, что ты два раза кидаешь кубик. Эти броски никак не влияют друг на друга — это важно.
Теперь считаем шаг за шагом:

В первом броске нужно, чтобы выпало число меньше 4.
На кубике числа от 1 до 6. Под число меньше 4 подходят 1, 2 и 3.
Это 3 подходящих исхода из 6 возможных.
Вероятность = 3/6 = 1/2.

Во втором броске нужно, чтобы выпало четное число.
Четные на кубике — это 2, 4 и 6.
Опять 3 подходящих исхода из 6.
Вероятность = 3/6 = 1/2.

Так как броски независимые, чтобы найти вероятность сразу двух условий, их вероятности умножаются:
(1/2) × (1/2) = 1/4.

Выбранный ответ: 1/4

Вопрос 3. В компании 70% сотрудников работают в офисе, а 30% — удалённо. Вероятность опоздания офисного работника = 8% Вероятность опоздания удалённого = 3%. Известно, что сотрудник опоздал. Какова вероятность, что он работает в офисе?

Варианты ответов:

·        0.65

·        0.80

·        0.72

·        0.86

·        0.50

Объяснение:
Это задача на формулу Байеса.
Если сказать по-человечески:
— Нас интересует: среди всех, кто опоздал, какова доля офисных сотрудников?
Нужно посчитать, кто чаще всего среди опоздавших.

1. Считаем долю всех, кто опоздал:

  • среди офисных: 0.7 × 0.08 = 0.056
  • среди удалённых: 0.3 × 0.03 = 0.009
    Итого вероятность, что случайный сотрудник опоздал:
    0.056 + 0.009 = 0.065

2. Применяем Байеса:
Вероятность, что опоздавший работает в офисе =

0,056/0,065 ≈ 0,8615

Выбранный ответ: 0.86

Вопрос 4. Что такое математическое ожидание случайной величины?

Варианты ответов:

1.     Средняя ошибка выборки

2.     Вероятность наступления события

3.     Размах распределения

4.     Среднее значение, ожидаемое при большом числе повторений

5.     Центральный момент второго порядка

Объяснение:
Математическое ожидание — это если ты будешь проводить эксперимент очень много раз и будешь записывать результаты, то их среднее значение в итоге приблизится к одному числу.
Например, если много раз бросать кубик, то среднее значение выпавших граней будет около 3.5 — это и есть математическое ожидание.

Это не вероятность события, не ошибка выборки, не размах (разность между максимумом и минимумом), и не дисперсия (которая является центральным моментом второго порядка).

Выбранный ответ:
Среднее значение, ожидаемое при большом числе повторений

Вопрос 5. Если стандартное отклонение равно 2, то дисперсия составляет:

Варианты ответов:

·        4

·        2

·        16

·        1

·        8

Объяснение:
Дисперсия — это квадрат стандартного отклонения.
Если стандартное отклонение (σ) = 2, то дисперсия (σ²) = 2² = 4.

Это одно из самых базовых свойств в статистике.
Можно запомнить так: стандартное отклонение — это просто корень из дисперсии, а значит дисперсия = (стандартное отклонение)².

Выбранный ответ: 4

Вопрос 6. Какой закон распределения наиболее часто используется для моделирования количества событий, происходящих за фиксированный период времени, если эти события происходят независимо друг от друга с постоянной средней интенсивностью?

Варианты ответов:

1.     Биномиальное

2.     Равномерное распределение

3.     Экспоненциальное

4.     Пуассоновское

5.     Нормальное

Объяснение:
Если у нас есть события, которые происходят случайно, но в среднем с какой-то постоянной частотой (например, звонки в колл-центр, поломки машин, поступления заказов в интернет-магазин), и нам нужно узнать, сколько таких событий случится за час, день, неделю — для этого чаще всего используют пуассоновское распределение.

  • Биномиальное — для конечного числа испытаний с двумя исходами (да/нет).
  • Равномерное — когда все значения одинаково вероятны.
  • Экспоненциальное — для моделирования времени ожидания между событиями.
  • Нормальное — для «колоколообразного» распределения около среднего.

А вот пуассоновское — как раз для подсчета числа событий за фиксированный промежуток времени при известных средней интенсивности и независимости.

Выбранный ответ: Пуассоновское

Вопрос 7. Вероятность того, что случайно выбранный вал будет признан бракованным

Варианты ответов:

1.     0.9938

2.     0.1336

3.     0.8664

4.     0.0062

5.     0.2416

Объяснение:
У нас вал с диаметром, который нормально распределён вокруг 50 мм.

  • Среднее μ = 50
  • Стандартное отклонение σ = 0.1
    Брак — если отклонение более чем на 0.15 мм, то есть за пределами [49.85; 50.15].

Теперь найдём, сколько это в σ: Z = 0,15/0,1 = 1,5

То есть нас интересует вероятность отклонения больше 1.5 σ в любую сторону (и влево, и вправо).

По таблице нормального распределения:

  • Вероятность попасть внутри ±1.5σ ≈ 0.8664
  • Тогда вероятность выйти за пределы = 1 - 0.8664 = 0.1336

Это означает, что примерно 13.36% таких валов окажутся браком.

Выбранный ответ: 0.1336

Вопрос 8. Что из перечисленного наиболее точно описывает разницу между генеральной совокупностью и выборкой в статистическом исследовании?

Варианты ответов:

1.     Генеральная совокупность всегда меньше выборки

2.     Выборка — это теоретическое понятие, в то время как генеральная совокупность — это реальный набор данных

3.     Генеральная совокупность — это вся интересующая нас группа объектов, а выборка — это подмножество этой группы, отобранное для исследования

4.     Выборка включает в себя все элементы генеральной совокупности

5.     Генеральная совокупность и выборка — это синонимы, обозначающие одно и то же

Объяснение:

  • Генеральная совокупность — это всё множество объектов или явлений, которые нас интересуют. Например, все люди в стране.
  • Выборка — это маленькая часть этой группы, которую мы действительно изучаем. Например, тысяча человек, которых мы опросили.

Все остальные варианты — неверные:

  • Генеральная совокупность не меньше выборки (обычно наоборот).
  • Не наоборот: выборка — реальные данные, а генеральная совокупность — чаще теоретическая.
  • Выборка не включает всю генеральную совокупность.
  • И точно это не синонимы.

Выбранный ответ:
Генеральная совокупность — это вся интересующая нас группа объектов, а выборка — это подмножество этой группы, отобранное для исследования

Вопрос 9. Какое из перечисленных свойств оценки параметра означает, что с увеличением размера выборки оценка стремится к истинному значению оцениваемого параметра?

Варианты ответов:

1.     Несмещённость

2.     Робастность

3.     Эффективность

4.     Состоятельность

5.     Достаточность

Объяснение:
Если мы всё больше и больше набираем данных, а наша оценка при этом всё ближе и ближе подходит к настоящему (истинному) значению параметра, то говорят, что такая оценка состоятельна.
Это ключевое определение свойства «состоятельность».

Другие свойства:

  • Несмещённость означает, что в среднем оценка не завышает и не занижает параметр, но это не гарантирует приближения при росте выборки.
  • Эффективность — что оценка даёт наименьшую дисперсию среди несмещённых.
  • Робастность — устойчива к нарушениям предположений.
  • Достаточность — использует всю информацию о параметре, содержащуюся в данных.

Выбранный ответ: Состоятельность

Вопрос 10. Найдём несмещённую оценку математического ожидания (среднее значение)

Варианты ответов:

·        8.15

·        7.47

·        7.32

·        7.6

·        8.2

Объяснение:
Это просто среднее взвешенное. Нужно умножить каждое количество проданных товаров на число сотрудников с таким результатом, всё сложить и разделить на общее число сотрудников.

Считаем:

(4*5)+(6*8)+(8*10)+(10*4)+(12*3)=(20)+(48)+(80)+(40)+(36)= 224

Делим на общее число сотрудников (30): 224/ 30 ≈ 7.47

Это и будет несмещённая оценка математического ожидания.

Выбранный ответ: ≈ 7.47

Заключение

После разбора теста вам станет легче читать простые статистические показатели и сможете уверенно говорить о данных. Это первая ступенька. Дальше можно разбираться в А/В-тестах, прогнозах и более сложных моделях. Такой фундамент открывает путь к аналитике, управлению продуктами и любым задачам, где нужны цифры и логика.