Middle-специалисту о математической статистике: простые принципы
Знания математической статистики на среднем уровне — это уже не просто «посчитать среднее», а умение смотреть глубже: понимать доверительные интервалы, анализировать дисперсию, строить гипотезы и проверять их.
В этой статье подробно разберём тест среднего уровня сложности. Каждый вопрос разложим по полочкам, чтобы всё стало максимально понятно. Такие умения нужны бизнес-аналитикам, специалистам по BI, продвинутым маркетологам, финансовым менеджерам и всем, кто хочет серьёзно развиваться в IT и data-driven проектах.
Вопрос 1. В городе 90% автомобилей — легковые, а 10% — грузовые. Вероятность повреждения легкового = 0.04, грузового = 0.15. Какова вероятность того, что случайно выбранное повреждённое авто — легковое?
Варианты ответов:
Это снова задача на формулу Байеса:
Нам дано, сколько всего в городе легковых и грузовых машин, а также вероятность, что каждая из них повреждена.
Мы узнали, что машина повреждена, и хотим понять: а насколько вероятно, что это именно легковая?
1. Вероятность «нарваться» на повреждённую легковую:
P (Легк&Поврежд) =0.9×0.04=0.036
2. Вероятность «нарваться» на повреждённую грузовую:
P (Груз&Поврежд) =0.1×0.15=0.015
3. Всего повреждённых (любых):
4. Применяем Байеса для условной вероятности:
P (Легк ∣ Поврежд) =P (Легк&Поврежд) / P (Поврежд)=0.036 / 0.051 ≈ 0.7058
При округлении до сотых получаем: ≈ 0.71
Вопрос 2. Модой дискретной случайной величины называют такое значение признака, которое…
1. повторяется наименьшее число раз
2. наблюдалось наименьшее число раз, то есть имеет наименьшую вероятность
3. имеет наибольшую среднюю величину
4. обладает максимальной дисперсией
5. наблюдалось наибольшее число раз, то есть имеет наибольшую вероятность
Мода — это самое «популярное» значение.
Если бы это был опрос про любимый цвет, мода — это тот цвет, который выбрали чаще всего.
Поэтому среди вариантов верным будет тот, где сказано, что значение наблюдалось наибольшее число раз, а значит, имеет наибольшую вероятность.
Остальные ответы — наоборот про наименьшее число раз, или про среднее, дисперсию — это не про моду.
Выбранный ответ: наблюдалось наибольшее число раз, то есть имеет наибольшую вероятность
Вопрос 3. Найдём стандартную ошибку среднего дохода при выборке из 50 клиентов
Стандартная ошибка среднего — это мера того, насколько среднее по выборке «колеблется» около истинного среднего.
1. Находим стандартное отклонение по известной дисперсии:
2. Теперь находим стандартную ошибку среднего:
SE = 200 / √50 ≈ 200 / 7.071 ≈ 28.28
При округлении до целого получаем: ≈ 28
Вопрос 4. Вероятность того, что ровно 2 из 10 деталей окажутся бракованными
Это классическая задача для биномиального распределения, потому что:
- есть фиксированное число испытаний (10 деталей),
- каждый раз только два исхода (брак или нет),
- вероятность брака постоянна (0.2),
- испытания независимы.
Формула биномиальной вероятности:
2. Вероятность для 2 бракованных:
3. Вероятность для 8 небракованных:
P(2) = 45 * 0.04 * 0.1678 ≈ 45 * 0.0067 ≈ 0.302
Вопрос 5. Вид наблюдения, при котором единицы изучаемой совокупности отбираются по схеме на основе случайности
Если мы хотим узнать, что происходит в большой группе (например, узнать средний доход жителей города), но не можем опросить всех, то выбираем часть этой группы. Чтобы результаты были честными и не «подтасованными», обычно делаем это случайно, по специальной методике.
Такой вид исследования называется выборочным наблюдением. Это противоположность сплошному, где изучают всех без исключения.
Все остальные варианты либо не говорят о случайности, либо не подходят по сути (например, «сплошное» — это наоборот, когда смотрят на всю совокупность целиком).
Вопрос 6. Какая формула даёт несмещённую оценку дисперсии генеральной совокупности, полученную методом моментов?
Когда у нас есть выборка, и мы не знаем настоящую дисперсию, то чтобы её оценить без систематической ошибки (несмещённо), нужно делить не на n, а на (n−1).
Формула для несмещённой оценки дисперсии (по методу моментов для нормального распределения) такая:
Это как бы немного «завышает» оценку по сравнению с делением на n, но зато она правильно учитывает, что мы использовали выборочное среднее, а не настоящее.
Вопрос 7. Чему равна выборочная дисперсия для данных в таблице?
Дисперсия показывает, насколько значения разбросаны вокруг среднего.
Для этого нужно:
— Найти среднее значение.
— Посчитать отклонения от среднего, возвести в квадрат.
— Найти среднее этих квадратов (с поправкой на n-1).
X = (2 * 186+5 *192+ 3 * 194)/10 = (372+960+582) / 10 = 191,4
2. Посчитаем суммы квадратов отклонений:
(186 – 191,4)*2 = (−5,4)*2 = 29,16
(192 – 191,4)*2 = (0,6)*2 = 0,36
(194 – 191,4)*2 = (2,6)*2 = 6,76
3. Общая сумма квадратов отклонений:
4. Найдём выборочную дисперсию:
S^2 = 80,4 / 10 −1 = 80,4 / 9 ≈ 8,93
Вопрос 8. Какая модель распределения лучше всего описывает количество дефектов на плитке и какой параметр нужен?
1. Нормальное распределение, необходимы математическое ожидание и дисперсия
2. Экспоненциальное распределение, необходима интенсивность потока дефектов
3. Биномиальное распределение, необходимы количество возможных мест дефектов и вероятность дефекта в каждом месте
4. Равномерное распределение, необходимы минимальное и максимальное количество дефектов
5. Распределение Пуассона, необходимо среднее количество дефектов на плитку
Когда мы считаем количество дефектов за фиксированную площадь (30×30 см) при условии, что они:
- возникают случайно и независимо друг от друга,
- появляются с постоянной средней частотой (0.5 дефекта на плитку),
то это классический случай применения пуассоновского распределения.
Для Пуассона нужен всего один параметр — среднее количество событий на единицу (λ), в данном случае это 0.5 дефекта на плитку.
Остальные варианты не подходят:
- нормальное — для непрерывных значений с «колоколом»,
- экспоненциальное — для времени до следующего события,
- биномиальное — для конечного числа попыток,
- равномерное — для одинаковой вероятности всех значений.
Выбранный ответ: Распределение Пуассона, необходимо среднее количество дефектов на плитку
Вопрос 9. Какова доля клиентов, набравших менее 60 баллов удовлетворённости?
У нас нормальное распределение с:
Нужно найти долю клиентов с результатом меньше 60.
Z = (60 – 75) / 15 = −15 / 15 = −1
2. Находим вероятность для z < −1
Согласно таблице стандартного нормального распределения:
P(Z<−1) = 0.1587 − Это примерно 16% .
Вопрос 10. В какой ситуации уместно использовать доверительный интервал для оценки разницы между двумя средними значениями?
1. Необходимо точно определить средний вес одного конкретного яблока из партии
2. Нужно предсказать будущую цену акции на основе исторических данных
3. Необходимо установить фиксированное значение заработной платы для новых сотрудников компании
4. Требуется узнать, существует ли статистически значимое различие в успеваемости студентов, обучающихся по двум разным методикам преподавания
5. Нужно описать распределение доходов населения в виде гистограммы
Доверительный интервал для разности двух средних используют, чтобы проверить, есть ли статистически значимая разница между двумя группами. Например:
- Учились ли студенты по разным методикам с разной эффективностью?
- Различается ли среднее давление у людей после двух разных препаратов?
Из всех вариантов ровно такой смысл имеет фраза:
«Требуется узнать, существует ли статистически значимое различие в успеваемости студентов, обучающихся по двум разным методикам преподавания.»
Все остальные — про одно среднее, прогнозы или просто описание данных.
Выбранный ответ: Требуется узнать, существует ли статистически значимое различие в успеваемости студентов, обучающихся по двум разным методикам преподавания
Вопрос 11. Какая формулировка является нулевой гипотезой в данном контексте?
1. Новое сырье приводит к статистически значимому сокращению срока службы ламп
2. Использование нового сырья повысит рентабельность производства ламп
3. Новое сырье не оказывает существенного влияния на средний срок службы ламп
4. Новое сырье значительно увеличивает срок службы ламп
5. Срок службы ламп с новым сырьем более изменчив, чем со старым
Нулевая гипотеза в статистике обычно формулируется так:
«Нет различий» или «нет эффекта».
«По умолчанию, ничего не изменилось, пока мы это не докажем».
В данном случае компания проверяет, влияет ли новое сырьё на срок службы ламп. Значит, нулевая гипотеза должна звучать так, что новое сырьё не оказывает существенного влияния на срок службы.
Все другие варианты либо утверждают наличие эффекта (например, увеличение или сокращение срока службы), либо говорят о рентабельности и изменчивости, что не про средний срок службы.
Выбранный ответ: Новое сырьё не оказывает существенного влияния на средний срок службы ламп
Вопрос 12. Какой метод наиболее целесообразно применить для анализа взаимосвязи между температурой и давлением с целью выявления опасных сочетаний значений?
1. Расчёт коэффициента корреляции между температурой и давлением
2. Построение двумерной гистограммы или графика рассеяния
3. Использование линейной регрессии между температурой и давлением
4. Построение совместного распределения для температуры и давления
5. Все вышеперечисленные методы
Если инженеры хотят найти опасные сочетания температуры и давления, им важно увидеть, как вместе ведут себя эти две переменные.
Для этого идеально подходит метод, который сразу показывает их совместное поведение — построение совместного распределения.
Это позволяет понять, в каких областях значений температура и давление чаще всего встречаются вместе и где находится зона риска.
Остальные методы тоже полезны, но:
- корреляция покажет лишь степень линейной зависимости,
- регрессия спрогнозирует одно по-другому,
- двумерная гистограмма или график рассеяния — наглядны, но не дадут точной плотности.
Для именно анализа сочетаний (определения, где значения одновременно находятся в опасных зонах) наиболее целесообразно использовать построение совместного распределения.
Выбранный ответ: Построение совместного распределения для температуры и давления
Вопрос 13. Какие из утверждений о коэффициенте корреляции Пирсона (r) являются наиболее точными?
1. Коэффициент корреляции не зависит от масштаба измерения переменных, но чувствителен к выбросам
2. Коэффициент корреляции равен 1, если и только если между двумя переменными существует причинно-следственная связь
3. Коэффициент корреляции всегда положителен и принимает значения от О до 1
4. Коэффициент корреляции измеряет силу любой, даже нелинейной, связи между двумя переменными
5. Коэффициент корреляции равен О, если две переменные независимы, и не равен О, если они зависимы
Давай разберём каждое утверждение:
1. «Коэффициент корреляции не зависит от масштаба измерения переменных, но чувствителен к выбросам»
— Это правда. Корреляция не изменится, если умножить переменные на константу или сдвинуть их (она «инвариантна» к линейным преобразованиям), но выбросы сильно влияют на её величину.
2. «r = 1, если и только если есть причинно-следственная связь»
— Нет. Корреляция не доказывает причинность, она лишь указывает на силу линейной связи.
3. «Коэффициент корреляции всегда положителен и принимает значения от 0 до 1»
— Нет, он принимает значения от -1 до +1. Может быть отрицательным, показывая обратную связь.
4. «Коэффициент корреляции измеряет силу любой, даже нелинейной, связи»
— Нет. Корреляция Пирсона измеряет только линейную зависимость.
5. «r = 0, если две переменные независимы, и не равен 0, если они зависимы»
— Не всегда. r=0 гарантирует отсутствие линейной связи, но может существовать нелинейная зависимость.
Выбранный ответ: Коэффициент корреляции не зависит от масштаба измерения переменных, но чувствителен к выбросам
Изучив этот разбор, вы будете свободно оперировать понятиями из статистики, которые встречаются почти в каждом IT-проекте — от анализа пользовательского поведения до оценки ROI. Это сделает вас сильнее на собеседованиях и полезнее для бизнеса, где ценят тех, кто умеет извлекать смысл из чисел.