ILDM

Go (Golang). Средний уровень.

2025-10-11T21:55:48.914Z

Дальше — про практику сервиса. Тест проверяет, как вы работаете с памятью и конкурентностью в реальных задачах. Типичные темы: указатели и приёмники методов, влияние срезов на массив, буферизация каналов и дедлоки, роутинг net/http, пул воркеров, ограничения httptest, проверка Origin в WebSocket, рефлексия, контекст, строки, gRPC-паттерны.

Вопрос 1. Какой из следующих вариантов корректно выделяет код в функцию для увеличения значения поля структуры на заданное число?

Варианты ответов
A) func increment(n int, c Counter) {}
B) func increment(c Counter, n int) {}
C) func (c Counter) increment(n int) {}
D) func (c *Counter) increment(n int) {}
E) func increment(c *Counter, n int) {}

В main вызов — increment(&c, 5), значит функция принимает указатель на Counter и число. Так мы меняем исходную структуру, а не копию. Сигнатура должна быть функцией (не методом) и первым параметром — *Counter.

Варианты C/D — это методы, их бы вызывали c.increment(5). Варианты A/B берут Counter по значению — изменения не сохранятся. Остаётся единственный подходящий — функция с *Counter.

Выбранныйответ: E) func increment(c *Counter, n int) {}

Вопрос 2 Какой будет результат выполнения следующей программы?

Варианты ответов
A) [1 10 3]
B) [1 2 3]
C) [1 2 10]
D) [10 10 3]
E) [10 2 3]

arr — массив [1 2 3]. s := arr[1:] — срез, указывающий на тот же базовый массив, начиная с элемента с индексом 1 ([2 3]). Изменение s[0] = 10 меняет arr[1] на 10. Печатаем исходный массив — получаем [1 10 3].

Ключ — помнить, что срезы не копируют данные, а «смотрят» в исходный массив. Изменения через срез отражаются в массиве. Поэтому меняется только средний элемент.

Выбранный ответ: A) [1 10 3]

Вопрос 3. Вы разрабатываете библиотеку коллекций. Нужно спроектировать интерфейс и структуры стека и очереди, работающие с элементами любого типа. Какой подход наиболее правильный?

Варианты ответов
A) Использовать дженерики (generics) для создания типобезопасных реализаций стека и очереди
B) Создать отдельные реализации для каждого типа (IntStack, StringStack, …)
C) Создать интерфейс Collection с методами Add()/Remove(), который будут реализовывать Stack и Queue
D) Использовать пустой интерфейс interface{} как тип элементов
E) Использовать встроенные типы (слайсы/мапы) без отдельных структур и интерфейсов

Generics в Go позволяют параметризовать тип элемента: Stack[T any], Queue[T any]. Это даёт и универсальность, и типобезопасность без приведения типов и без копипаста реализаций. Вариант с interface{} теряет типобезопасность и требует приведения/проверок во время выполнения. Отдельные реализации для каждого типа — дублирование кода. Обычный интерфейс без параметров не решает типизацию элементов. Использование «просто слайсов» — не библиотека и не скрывает инварианты структуры данных.

Цель — «любой тип» плюс удобный API и безопасность типов. После Go 1.18 единственно зрелое решение — дженерики. Всё остальное — либо боль с приведениями, либо размножение однотипного кода.

Выбранный ответ: A) Использовать дженерики (generics) для создания типобезопасных реализаций стека и очереди

Вопрос 4. Вам нужно реализовать сервер, который маршрутизирует по разным путям (/users, /orders). Какой инструмент пакета net/http корректен для этой задачи?

Варианты ответов
A) Использовать http.HandleFunc для регистрации разных обработчиков по разным путям
B) Использовать http.ListenAndServe без регистрации обработчиков
C) Использовать http.ServeFile для всех путей
D) Использовать только один обработчик и вручную разбирать путь из r.URL.Path
E) Использовать http.ServeMux без регистрации обработчиков, ожидая, что маршруты создадутся автоматически

В стандартной библиотеке маршрутизация решается регистрацией обработчиков на пути. http.HandleFunc(pattern, handler) регистрирует функцию-обработчик на DefaultServeMux (или вы можете создать свой ServeMux и вызывать mux.HandleFunc). Это ровно то, что нужно для разных маршрутов. ListenAndServe только запускает сервер. ServeFile — для выдачи файлов. Один общий обработчик с ручным парсингом пути — костыль. ServeMux без регистрации ничего не сделает.

Когда нужны простые маршруты — не тянуть сторонний роутер, достаточно HandleFunc/ServeMux. Это читаемо и прозрачно: по коду сразу видно, какой путь к какому хендлеру привязан.

Выбранный ответ: A) Использовать http.HandleFunc для регистрации разных обработчиков по разным путям

Вопрос 5. У вас есть несколько горутин, которые одновременно записывают данные в общую структуру. Какой примитив синхронизации выбрать, чтобы предотвратить гонку данных?

Варианты ответов
A) sync.WaitGroup
B) sync.Pool
C) sync.Once
D) sync.Mutex
E) sync.Cond

Для защиты общего ресурса нужен примитив взаимного исключения — чтобы только одна горутина в момент времени выполняла критическую секцию записи. В Go для этого предназначен sync.Mutex (или специализированный sync.RWMutex для разделения чтения/записи).
WaitGroup лишь ждёт завершения горутин, гонки не предотвращает. Pool — кэш объектов. Once выполняет код один раз. Cond — механизм оповещения/ожидания, но сам по себе данные не защищает.

Смотрю на формулировку «одновременно записывают» — ключевое слово «взаимное исключение». Из перечисленного прямой ответственный за это только мьютекс; всё остальное — про учёт, кэширование или сигнализацию.

Выбранный ответ: D) sync.Mutex

Вопрос 6. Почему программа с ch := make(chan int); ch <- 1 «зависает» и не завершается?

Варианты ответов
A) Проблема в том, что значение не было считано из канала, поэтому оно теряется
B) Проблема в том, что отправка в небуферизованный канал блокируется, если нет получателя
C) Проблема в том, что канал был объявлен как односторонний
D) Проблема в том, что канал был закрыт до отправки значения
E) Проблема в том, что канал был объявлен как буферизованный, но буфер заполнен

Канал создан без буфера (make(chan int)). Отправка в такой канал блокируется, пока другая горутина не выполнит чтение. Получателя нет — главная горутина залипает на ch <- 1, до Println не доходит. Решения: добавить буфер make(chan int, 1) или организовать чтение/запись в разных горутинах.

Код без go и без чтения — классический deadlock на небуферизованном канале. Если бы канал был буферизован, отправка одного значения прошла бы; если бы он был закрыт — паника, а не «висение».

Выбранный ответ: B) Проблема в том, что отправка в небуферизованный канал блокируется, если нет получателя

Вопрос 7. Есть ли в фрагменте кода гонка данных и каким примитивом синхронизации её устранить?

Варианты ответов
A) Гонка данных присутствует, устранить с помощью sync.Mutex
B) Гонка данных присутствует, устранить с помощью sync.Once
C) Гонка данных присутствует, устранить с помощью sync.Pool
D) Гонка данных отсутствует, код корректен
E) Гонка данных присутствует, устранить с помощью sync.Cond

Несколько горутин одновременно выполняют counter++. Это две операции (чтение → инкремент → запись), которые без защиты могут переписать друг друга — типичная гонка. WaitGroup только ждёт завершения, но не защищает доступ. Для безопасной записи нужен мьютекс: mu.Lock(); counter++; mu.Unlock() (или атомики, но их нет в вариантах).

Смотрю на признак гонки: общий изменяемый счётчик плюс параллельные инкременты. Любые ответы про Once/Poll/Cond не решают взаимоисключение. Остаётся мьютекс как прямой и корректный способ.

Выбранный ответ: A) Гонка данных присутствует, устранить с помощью sync.Mutex

Вопрос 7. Нужно протестировать GetUser без использования реальной базы данных. Какой подход выбрать?

Варианты ответов
A) Добавить в GetUser условную логику, определяющую тестовый режим
B) Использовать глобальные переменные для тестовых данных и переключения режимов
C) Изменить GetUser, добавив параметр «тестовый режим»
D) Создать временную БД для тестов и использовать её вместо основной
E) Создать реализацию интерфейса UserRepository, возвращающую предопределённые данные для тестов (мок)

В коде репозиторий вынесен в интерфейс UserRepository и передаётся в UserService через конструктор. Это специально сделано для подмены зависимостей. В тесте создаём мок-реализацию UserRepository (или стаб), который возвращает фиксированные данные, и передаём его в NewUserService. Так мы изолируем логику сервиса от БД и получаем быстрые, детерминированные unit-тесты.

Флаги «тестовый режим» и глобальные переменные усложняют код и ломают изоляцию. Временная БД — это уже интеграционные тесты: медленно и не то, что спрашивают («без реальной БД»). Интерфейс+мок — каноничный путь для юнит-тестов в Go.

Выбранный ответ: E) Создать реализацию интерфейса UserRepository, возвращающую предопределённые данные для тестов (мок)

Вопрос 8. Что наиболее точно описывает рефлексию?

Варианты ответов
A) Рефлексия — это инструмент отладки, выводящий доп. информацию
B) Рефлексия — это параметр профилирования через goprof
C) Рефлексия — это техника для создания UI через отображение поведения объекта
D) Рефлексия — это метод оптимизации, изменяющий внутреннее устройство объекта
E) Рефлексия — это механизм, позволяющий программе анализировать и изменять свою структуру и поведение во время выполнения

Рефлексия в Go — это пакет reflect, который позволяет в рантайме смотреть на тип и значение (type/value), а также, где это допускается, изменять значения через отражение. Это не про отладку, не про профилирование и не про «ускорение кода».

Ищу формулировку про «исследовать/менять во время выполнения» — это сущность reflection. Остальные ответы путают с логированием, профайлингом или оптимизациями.

Выбранный ответ: E) Рефлексия — это механизм, позволяющий программе анализировать и изменять свою структуру и поведение во время выполнения

Вопрос 9. Какое из следующих утверждений о gRPC является неверным?

Варианты ответов
A) gRPC позволяет сгенерировать серверный и клиентский код на основе файлов .proto
B) gRPC позволяет определять сервисы и методы в файлах с расширением .proto
C) gRPC поддерживает двунаправленную потоковую передачу данных
D) gRPC использует Protocol Buffers (protobuf) для сериализации данных
E) gRPC поддерживает только синхронные вызовы

gRPC по умолчанию работает поверх HTTP/2 и поддерживает четыре вида вызовов: unary, server-streaming, client-streaming и bidirectional streaming. Это означает наличие асинхронного взаимодействия; ограничение “только синхронные вызовы” неверно. Остальные пункты описывают стандартный рабочий процесс: описываем сервисы/сообщения в .proto и генерируем код, обычно с protobuf.

Ключевой маркер — «только синхронные». gRPC славится потоками и стримингом, значит утверждение противоречит сути технологии. Остальное — привычные факты про .proto и генерацию.

Выбранный ответ: E) gRPC поддерживает только синхронные вызовы

Вопрос 10. Какой из следующих вариантов наиболее корректно описывает назначение контекста (context)?

Варианты ответов
A) Контекст применяется только для тестирования
B) Контекст необходим для сериализации данных в JSON
C) Контекст предназначен для хранения пользовательских данных между функциями
D) Контекст используется для передачи сигналов отмены, и метаданных между горутинами
E) Контекст используется только для логирования ошибок

context.Context несёт дедлайны/таймауты, сигнал отмены и request-scoped значения через границы вызовов и между горутинами. Это помогает корректно завершать операции и пробрасывать техметаданные (trace-id, locale и т. п.). Он не про JSON, не только про логи и не «контейнер для пользовательских данных».

Ищу формулировку, где есть «отмена/дедлайн + значения». Только вариант D покрывает этот смысл. Пункт C опасен: контекст не должен хранить бизнес-данные — только небольшие метаданные.

Выбранный ответ: D) Контекст используется для передачи сигналов отмены, и метаданных между горутинами

Вопрос 12. Какое из следующих утверждений о строках является верным?

Варианты ответов
A) Строка — это срез рун
B) Строка всегда состоит из символов Unicode
C) Строка представляет собой неизменяемую последовательность байт
D) Строка может быть изменена напрямую
E) Строка всегда заканчивается нулевым байтом

В Go строка — это отдельный тип, хранящий неизменяемую последовательность байт. Обычно это UTF-8, но технически в строке могут быть любые байты (в т. ч. невалидный UTF-8). Поэтому строка — не срез рун, менять её «на месте» нельзя, нулевым байтом она не завершается.

Проверяю признаки: «неизменяемость» и «байты» — ключ к строкам в Go. Любые формулировки про «срез рун», «всегда Unicode» или «нулевой байт» — это про другие языки/модели.

Выбранный ответ: C) Строка представляет собой неизменяемую последовательность байт

Заключение
Средний уровень — умение видеть последствия. Где нужен мьютекс, где — канал; как правильно прокинуть context; почему «зелёный» тест не означает стабильный прод. Вы принимаете решения, исходя из модели рантайма и поведения библиотек, а не из привычки. Проектируете безопасный и предсказуемый код, учитываете среду выполнения.

Go (Golang): Базовый уровень.

2025-10-11T21:53:11.379Z

Начинаем с фундамента. Задачи простые по форме, но требуют понимания моделей Go. Зачем проходить тест? Чтобы проверить, как вы читаете код и предсказываете поведение без запуска. Часто встречаются вопросы про константы и типы, срезы и карты, цикл for … range, интерфейсы, указатели, минимальный HTTP-сервер, горутины и базовые тесты.

Вопрос 1. Какой из следующих вариантов не является корректным объявлением константы?

Варианты ответов
A) const y = 5
B) const y int = 5
C) const header = []byte{1,2,3}
D) const y float64 = 3.14
E) const y = "hello"

В Go константами могут быть только значения, известные на этапе компиляции: числа, строки, руны, булевы. Срезы, мапы, функции и т. п. — это НЕ константы. Литерал []byte{1,2,3} создаёт срез (runtime-значение), поэтому с const он недопустим. Остальные варианты — корректные числовые/строковые константы (типизированные и нет).

Критерий простой: «компиляторное значение или нет». Срез — всегда динамическая структура, значит отпадает. Числа/строки — ок, даже с явным типом.

Выбранный ответ: C) constheader = []byte{1,2,3}

Вопрос 2. Какое из следующих утверждений верно описывает назначение и использование указателей в языке Go?

Варианты ответов
A) Указатели используются для работы с сетевыми соединениями и предоставляют удобный интерфейс для обработки HTTP-запросов
B) Указатели автоматически создаются для каждой переменной, и разработчик не управляет ими вручную
C) Указатели — это ключевое слово, определяющее область видимости переменной в программе
D) Указатели позволяют напрямую изменять значение переменной, переданной в функцию, без её копирования
E) Указатели в Go используются только для взаимодействия с внешними библиотеками на C через cgo

Указатель — это значение, хранящее адрес другой переменной. Передавая в функцию указатель (а не копию значения), можно менять исходные данные и избегать лишнего копирования. Остальные формулировки неверны: указатели не «для HTTP», не создаются автоматически для каждой переменной, не связаны с областью видимости и, разумеется, используются далеко не только в cgo.

Ключевой сигнал — слова «изменять значение… без копирования». Это базовый мотив использования указателей в Go. Остальные варианты либо путают области (сеть, cgo), либо описывают механики, которых в языке нет (автосоздание, «ключевое слово» про видимость).

Выбранный ответ: D) Указатели позволяют напрямую изменять значение переменной, переданной в функцию, без её копирования

Вопрос 3. Какой из следующих вариантов корректно реализует функцию для перебора элементов среза?

Варианты ответов
A) index, fruit in range
B) for index, fruit in range fruits
C) index, fruit := range fruits
D) fruits.Each(index, fruit)
E) for index, fruit := range fruits

В Go перебор среза делается через for ... range. Нужны три вещи: ключевое слово for, операция := для объявления переменных индекса и значения, и объект после range. Итоговый шаблон:
for index, fruit := range fruits { ... }
Варианты с in — это синтаксис не из Go; без for — тоже ошибка; вызов Each — не часть стандартного языка.

Смотрю на ключевые маркеры Go: for + range + :=. Только вариант с ними тремя совпадает с тем, как я пишу циклы в коде ежедневно. Остальные — явные «замены» из других языков или неполные конструкции.

Выбранный ответ: E) forindex, fruit := rangefruits

Вопрос 4. Нужно реализовать функцию, которая принимает срез строк и возвращает новый срез только с уникальными значениями. Какой способ будет наиболее эффективным по времени?

Варианты ответов
A) Использовать map для отслеживания уже встреченных значений
B) Использовать массив фиксированной длины для хранения уникальных значений
C) Создать новый срез и добавлять в него только уникальные элементы, проверяя наличие через цикл
D) Использовать рекурсивную функцию для поиска уникальных значений
E) Сортировать срез и удалять дубликаты в цикле

map[string]struct{} даёт амортизированное O(n) по времени: один проход, проверка наличия — O(1).
Сортировка — O(n log n) и ломает исходный порядок.
Линейная проверка наличия в новом срезе — O(n²).
Массив фиксированной длины неприменим (не знаем размер и поиск линейный).
Рекурсия здесь не даёт выигрыша и усложняет код.

Критерий — минимизировать асимптотику. В проде обычно делаю seen := map[string]struct{} и добавляю в результирующий срез только новые элементы — быстро и сохраняет порядок появления. Сортировку беру лишь если порядок не важен и нужно постобработать.

Выбранный ответ: A) Использовать map для отслеживания уже встреченных значений

Вопрос 5. Какое из следующих утверждений о интерфейсах является верным?

Варианты ответов
A) Интерфейсы позволяют определять набор методов, которые должны реализовать типы
B) Интерфейсы не могут быть использованы для передачи поведения между типами
C) Интерфейсы автоматически реализуются только структурами, объявленными с ключевым словом interface
D) Интерфейсы используются для хранения только примитивных типов данных
E) Интерфейсы необходимы только для работы с внешними библиотеками

В Go интерфейс — это контракт: набор методов. Любой тип, у которого есть эти методы, неявно удовлетворяет интерфейсу. Это основа полиморфизма в Go (пример: io.Reader, fmt.Stringer). Остальные варианты неверны: интерфейсы как раз и передают поведение, их реализуют не только структуры, они могут хранить значения любых типов, и их применение далеко не ограничено внешними библиотеками.

Ключевая идея Go — “согласие по методу, а не по объявлению”. Я смотрю, где описан именно «набор методов». Остальные ответы либо путают назначение (про поведение), либо приписывают интерфейсам ограничения, которых нет.

Выбранный ответ: A) Интерфейсы позволяют определять набор методов, которые должны реализовать типы

Вопрос 6. Какое из утверждений о срезах (slices) верное?

Варианты ответов
A) Функция append() никогда не изменяет емкость (capacity) исходного среза
B) Срезы в Go имеют фиксированную длину, которая не может быть изменена после создания
C) Срезы в Go могут содержать элементы разных типов данных
D) При передаче среза в функцию всегда создаётся его полная копия с копированием всех элементов
E) Срезы в Go являются ссылочным типом данных и указывают на базовый массив

Срез — это «описатель» поверх массива: он хранит указатель на базовый массив, длину и ёмкость. Поэтому изменения через срез обычно затрагивают тот же массив. append возвращает новый срез; при нехватке capacity он аллоцирует новый массив — значит утверждение «никогда не изменяет» неверно. Длина среза не фиксирована (меняется через append/реслайсинг). Срезы типизированы — элементы одного типа. Передача среза в функцию копирует только описатель, а не все элементы.

Ключ к задаче: понять природу среза — это не контейнер с копиями, а «окно» в массив. Отсюда сразу отпадают варианты про фиксированную длину, полную копию и «никогда не меняется capacity». Про разные типы — в Go контейнеры гомогенные.

Выбранный ответ: E) Срезы в Go являются ссылочным типом данных и указывают на базовый массив

Вопрос 7. Какой из следующих шагов НЕ является обязательным при создании и запуске HTTP-сервера?

Варианты ответов
A) Создать функцию-обработчик, которая принимает параметры http.ResponseWriter и *http.Request
B) Зарегистрировать функцию-обработчик с помощью http.HandleFunc
C) Запустить сервер с помощью http.ListenAndServe
D) Создать структуру для хранения состояния сервера и передать её в функцию-обработчик
E) Импортировать пакет net/http

Базовый сервер в Go требует: импорт net/http, наличие обработчика (функции или типа с ServeHTTP), регистрацию маршрута (через HandleFunc/Handle или передачу собственного mux) и запуск (ListenAndServe или эквивалент). Отдельная структура состояния — это удобный паттерн, но не обязательный шаг.

Смотрю, что является «ритуальными» минимальными действиями для hello-world сервера. Структура для состояния — это про дизайн и тестируемость; сервер запустится и без неё.

Выбранный ответ: D) Создать структуру для хранения состояния сервера и передать её в функцию-обработчик

Вопрос 8. Какое из следующих утверждений о горутинах является неверным?

Варианты ответов
A) Горутины могут взаимодействовать друг с другом с помощью каналов
B) Горутины — это легковесные потоки, которые управляются рантаймом Go
C) Горутины могут выполняться параллельно на нескольких ядрах, если программа запущена на многоядерной системе
D) Горутины всегда завершаются в том порядке, в котором они были запущены
E) Горутины создаются с помощью ключевого слова go, за которым следует вызов функции

Рантайм Go планирует горутины независимо; порядок их завершения не гарантируется. Каналы — штатный механизм взаимодействия. Параллелизм возможен на многоядерной системе (см. GOMAXPROCS). Создание горутины — оператор go f().

Вопрос про свойства планировщика: если бы завершение шло строго по порядку запуска, конкуренции как таковой не было бы. На практике горутины стартуют и заканчиваются в произвольном порядке — это базовый принцип.

Выбранный ответ: D) Горутины всегда завершаются в том порядке, в котором они были запущены

Вопрос 9. Какое из следующих утверждений о sync.Mutex верное?

Варианты ответов
A) sync.Mutex используется только для синхронизации каналов
B) sync.Mutex не требует явного вызова методов для блокировки и разблокировки
C) sync.Mutex может быть использован только внутри функции main
D) sync.Mutex автоматически завершает работу всех горутин
E) sync.Mutex обеспечивает взаимное исключение при доступе к разделяемым данным

sync.Mutex — примитив взаимного исключения: Lock() блокирует, Unlock() разблокирует. Он нужен, чтобы защищать общий ресурс от одновременной записи/чтения несколькими горутинами. Он не имеет отношения к каналам, не завершает горутины и не «срабатывает сам по себе» без явных вызовов.

Ключ — что делает мьютекс: лишь «один заходит — остальные ждут». Варианты про каналы и автозавершение — мимо. Про main — искусственное ограничение; мьютекс — обычный тип, где угодно.

Выбранный ответ: E) sync.Mutex обеспечивает взаимное исключение при доступе к разделяемым данным

Вопрос 10. Какое из следующих утверждений о написании тестов верное?

Варианты ответов
A) Тестовые функции могут иметь произвольное имя
B) Тестовые функции должны начинаться с префикса Test
C) Тестовые функции должны возвращать значение типа bool
D) Тестовые функции не могут использовать методы t.Error и t.Fail
E) Тестовые функции должны быть объявлены в пакете main

В Go тесты — это функции вида func TestXxx(t *testing.T) в файлах *_test.go. Имя обязательно начинается с Test, возвращаемых значений нет, а для фиксации ошибок как раз используются методы t.Error, t.Fail, t.Fatalf и т. п. Тесты обычно пишут в том же пакете, что и код (или в package name_test), но не обязаны быть в main.

Ищу «ритуальное» правило распознавания тестов раннером go test. Это именно префикс Test и сигнатура с *testing.T. Остальные варианты либо добавляют несуществующие требования (возвращать bool, пакет main), либо прямо противоречат практике (про произвольное имя и запрет t.Error/t.Fail).

Выбранный ответ: B) Тестовые функции должны начинаться с префикса Test

Заключение
Базовый уровень — это не про синтаксис, а про ментальные опоры: «срез — окно в массив», «интерфейс — контракт по методам», «канал — обмен и синхронизация», «константа — значение компилятора». Если это щёлкает в голове, вы пишете предсказуемый код и меньше дебажите. Понимаете основные абстракции Go и не наступаете на простые грабли.

C++. Средний уровень

2025-10-11T21:51:06.990Z

Дальше — не о синтаксисе, а об аккуратном пользовании стандартной библиотекой. Здесь спрашивают про итераторы и их валидность, компараторы в sort, умные указатели, исключения и RAII, шаблоны и перегрузки, базовые отношения между классами.

Вопрос 1. Выберите правильный формат для объявления динамического массива A из float, размерностью n.

Варианты ответов:

1. float **A = new float[n]

2. float A* = new(n)

3. float A = new float[n]

4. float A[n]

5. float *A = new float[n]

Нужен динамический массив — значит, указатель на первый элемент и new [].
— (1) указатель на указатель — лишний уровень.
— (2) синтаксис неверный, похоже на placement new, но записано неправильно.
— (3) слева float, а справа — адрес из new → несовместимо.
— (4) это автоматический массив (и VLA в стандарте C++ нет) — не динамическая аллокация.
— (5) корректный указатель на float с выделением n элементов. Не забыть delete[] A; после использования.

Выбранный ответ: №5 — float *A = new float[n]

Вопрос 2. Как правильно прочитать строку с пробелами?

std::string line;

____;

Варианты ответов:

1. std::cin.read(line)

2. std::cin >> line

3. std::cout >> line

4. std::cout << line

5. std::getline(std::cin, line)

Нужно считать всю строку, включая пробелы.
— Оператор >> (вариант 2) читает только до первого пробела — потеряем остаток.
— std::cin.read (1) работает с сырым буфером (char* и количеством байт), не со std::string.
— Варианты с std::cout (3, 4) — это вывод, а не ввод.
— std::getline (5) читает всю строку до '\n', как раз то, что нужно. На практике помню про нюанс: если до этого читали числа через >>, нужно сначала съесть оставшийся '\n'.

Выбранныйответ: std::getline(std::cin, line)

Вопрос 3. Для хранения номеров заказов клиентов нужна структура данных, которая позволяет хранить уникальные элементы и быстро проверять их наличие. Какой контейнер выбрать?

Варианты ответов:

1. std::stack

2. std::unordered_set

3. std::vector

4. std::list

5. std::deque

Нужны уникальные значения и быстрый поиск/вставка.
На что обращаю внимание:
— std::unordered_set — хеш-таблица: автоматом обеспечивает уникальность, среднее O(1) на insert/find.
— vector, list, deque требуют линейного поиска O(n) для проверки наличия.
— stack — это обёртка LIFO без произвольного поиска.

Вывод: оптимально хеш-множество.

Выбранный ответ: №2 — std::unordered_set

Вопрос 4. Какой тип связи используется между Teacher и Student?

class Teacher;

class Student {

public:

void attendClass(Teacher* teacher) {

std::cout << "Attending class by teacher " << teacher;

}

};

class Teacher {

public:

void teach(Student* student) {

std::cout << "Teaching student " << student;

}

};

Варианты ответов:

1. Композиция

2. Ассоциация

3. Наследование

4. Инкапсуляция

5. Агрегация

Классы не хранят друг друга как поля, а лишь принимают указатель в параметрах методов.
На что обращаю внимание? Передача указателя на время вызова — это «знает/взаимодействует», без владения и без жизненного цикла. Для композиции/агрегации нужен член-объект; наследования здесь нет; «инкапсуляция» — не тип связи между классами.
Какой вывод? Это обычная ассоциация: объекты могут ссылаться друг на друга при взаимодействии, но не владеют.

Выбранный ответ: №2 — Ассоциация

Вопрос 5. Программист, разрабатывая класс UserManager, добавил функции, которые работают на разном уровне абстракции. Какаяфункциялишняяв UserManager?

class User {

public:

string name;

string email;

};

class UserManager {

public:

void addUser(User user) { /* добавление */ }

void deleteUser(int id) { /* удаление */ }

void sendEmail(User user) { /* рассылка */ }

};

Варианты ответов:

1. Хранение данных пользователя

2. Обработка данных пользователя

3. Рассылка сообщений

4. Удаление пользователей

5. Добавление пользователей

UserManager выполняет операции управления — добавить/удалить. Отправка писем — это другая ответственность (сервис уведомлений). По хорошему дизайну и принципу единственной ответственности, рассылка не должна жить в менеджере пользователей. Её стоит вынести в EmailService/Notifier, а UserManager максимум вызывает тот сервис, но сам письма не шлёт.

«рассылка сообщений» — лишняя функция для UserManager.

Выбранный ответ: №3 — Рассылка сообщений

Вопрос 6. Вам нужно передать объект по указателю в функцию, при этом важно обеспечить отсутствие других указателей на этот же объект. Какой тип указателей подходит для этих целей?

Варианты ответов:

1. std::single_ptr

2. std::shared_ptr

3. std::unit_ptr

4. std::unique_ptr

5. std::weak_ptr

Требуется гарантия единственного владельца.
На что обращаю внимание:
— std::unique_ptr именно это и даёт — эксклюзивное владение, копировать нельзя, только move. Значит, других «живых» владельцев быть не может.
— std::shared_ptr допускает много владельцев — не подходит.
— std::weak_ptr не владеет объектом вообще.
— std::single_ptr и std::unit_ptr в стандартной библиотеке отсутствуют.

Нужен умный указатель с эксклюзивным владением.

Выбранный ответ: №4 — std::unique_ptr

Вопрос 7. Проанализируйте код и выберите утверждение, верное относительно возможной утечки памяти.

struct Player {

std::shared_ptr<Player> companion;

~Player() { std::cout << "~Player\n"; }

};

int main() {

std::shared_ptr<Player> A = std::make_shared<Player>();

std::shared_ptr<Player> B = std::make_shared<Player>();

A->companion = B;

B->companion = A;

}

Варианты ответов:

1. В коде есть проблема утечки памяти, и ее можно решить с помощью std::weak_ptr

2. В коде утечек памяти нет, но при использовании std::weak_ptr они появятся

3. В коде есть проблема утечки памяти, но решить ее заменой на другой умный указатель невозможно

4. В коде есть проблема утечки памяти, и ее можно решить с помощью std::unique_ptr

5. В коде утечек памяти нет и не будет при использовании любого умного указателя

Два объекта Player владеют друг другом через std::shared_ptr. Получается цикл владения: A держит B, B держит A. Счётчики ссылок никогда не станут нулём — деструкторы не вызовутся (строка ~Player\n не напечатается). Это типичный пример утечки из-за цикла shared_ptr.
На что обращаю внимание: разорвать цикл можно, если одна из ссылок не будет владеть объектом — для этого и существует std::weak_ptr. Он не увеличивает счётчик владения.
Почему не unique_ptr: взаимная ссылка unique_ptr невозможна (эксклюзивное владение); переработка модели возможна, но прямой заменой здесь проблему не решишь.

Выбранный ответ: №1 — В коде есть проблема утечки памяти, и ее можно решить с помощью std::weak_ptr

Вопрос 8. Какое выражение нужно вставить на место пропусков в коде ниже, чтобы обеспечить безопасность при исключении?

#include <memory>

void process() {

auto ptr = std::make_unique<int>(42);

_____

throw std::runtime_error("Error");

_____

}

int main() {

try { process(); } catch(...) {}

}

Варианты ответов:

1. ptr.erase(nullptr)

2. std::lock_guard<std::mutex> и lock(mutex)

3. ptr.reset(nullptr)

4. unique_ptr уже обеспечивает безопасность

5. try { } catch(...) { delete ptr; }

Ресурс обёрнут в std::unique_ptr. По правилу RAII его деструктор вызовется при выходе из функции, даже если происходит throw. Значит, память освободится автоматически.
На что обращаю внимание:
— erase у unique_ptr не существует.
— reset(nullptr) лишний: освобождение и так произойдёт при выходе из области видимости.
— lock_guard не к месту.
— Вариант с delete в catch неверен и не компилируется: ptr вне области видимости catch.

Вывод: ничего добавлять не нужно — уже безопасно.

Выбранный ответ: №4 — unique_ptr уже обеспечивает безопасность

Вопрос 9. Что выведет программа ниже?

#include <iostream>

using namespace std;

int test(int x) {

static int y = 2;

y += x;

return y;

}

int main() {

cout << test(3) << test(4);

return 0;

}

Вариантыответов:

1. 59

2. 34

3. 54

4. 39

5. 95

В test есть статическая переменная y, она инициализируется один раз (2) и сохраняет значение между вызовами.
На что обращаю внимание: выражение cout << test(3) << test(4) вычисляется слева направо — сначала печатаем результат test(3), затем test(4), без пробелов между ними.
Считаю:
— первый вызов: y = 2 + 3 = 5, печатаем 5;
— второй вызов: y = 5 + 4 = 9, печатаем 9.
Выбранный ответ: 59

Вопрос 10. Проанализируйте код ниже. Каков будет результат выполнения кода?

template<typename T>

T f(T a, T b)

{

return a > b ? a : b;

}

int main() {

cout << f(5, 3.5);

}

Варианты ответов:

1. Ошибка компиляции: неоднозначность вывода типа T

2. Выведет 5.0

3. Ошибка компиляции: нельзя сравнивать разные типы

4. Выведет 5

5. Выведет 5.4

Шаблон требует, чтобы оба параметра имели один и тот же тип T.
На что обращаю внимание: вызываем f(5, 3.5) — первый аргумент int, второй double. При выводе шаблонного параметра компилятор пытается вывести T из каждого аргумента: получается T=int и T=double одновременно — это конфликт. Шаблон так вызвать нельзя без явного указания типа (например, f<double>(5, 3.5) тогда бы вывело 5.0).
Вывод: тип T по аргументам вывести нельзя, получаем ошибку компиляции.

Выбранный ответ: №1 — Ошибка компиляции: неоднозначность вывода типа T

Вопрос 11. Какой из вариантов вызовет перемещение (move semantics), а не копирование?

Варианты ответов:

1. std::string s1 = s2

2. std::string s1 = std::move(s2)

3. std::string s1 = new String(s2)

4. std::string s1 = const_cast<const std::string&>(s2)

5. std::string s1 = &s2

Чтобы сработал move-конструктор, источником должен быть rvalue (временный/«перемещаемый» объект).
— Вариант 1: s2 — lvalue → копирование.
— Вариант 2: std::move(s2) превращает s2 в rvalue → сработает перемещение.
— Вариант 3: new String(s2) возвращает указатель и ещё и тип String — не подходит.
— Вариант 4: получаем const std::string& — константная lvalue-ссылка, значит копирование.
— Вариант 5: &s2 — это указатель, типы несовместимы.

Выбранныйответ: №2 — std::string s1 = std::move(s2)

Вопрос 12. После добавления элемента в std::vector какие итераторы останутся валидными?

Варианты ответов:

1. Только end()

2. Только итераторы на добавленные элементы

3. Только cbegin()

4. Все итераторы станут невалидными

5. Все итераторы

При добавлении элемента vector может перераспределить память (reallocation). Если это происходит, инвалидируются все итераторы и ссылки, в том числе end(). Бывают случаи без перераспределения (часть итераторов остаётся валидной), но задача спрашивает про гарантии — в общем случае нужно считать, что всё сломается.

Выбранный ответ: Все итераторы станут невалидными

Заключение

Думайте о владении ресурсом и жизненном цикле объектов. Избегайте слайсинга и циклов владения, всегда пишите предикат в cv.wait, помните: модификация vector может инвалидировать все итераторы. Шаблоны требуют видимости деклараций — объявляйте до использования.

Средний уровень — это дисциплина владения ресурсами и знание «острых углов» STL и многопоточности.

C++. Базовый уровень

2025-10-11T21:49:18.557Z

Эта проверка — быстрый способ убедиться, что база в порядке. Синтаксис, типы, массивы и файлы. Частые вопросы: индексация с нуля, корректный for, чтение строки с пробелами, разница между ifstream и ofstream, динамическая память и выход за границы.

Вопрос 1. Какой формат цикла for правильно перебирает массив A из n элементов?

Варианты ответов:

1. for (int i = 1; i <= n; i++)

2. for (int i = 0; i < n; i++)

3. for (int i = 1; i <= n; i--)

4. foreach (auto x : A)

5. for (int i = 0; i <= n; i++)

Нужно перебрать массив из n элементов. Обычно в C++ массивы индексируются с нуля: первый элемент — A[0], последний — A[n-1]. Значит, цикл должен идти от 0 до n-1.

Вариант 1 (i = 1; i <= n) — тут начало с 1, значит первый элемент A[0] вообще пропускается. Ошибка.
Вариант 2 (i = 0; i < n) — это как раз то, что нужно: с нуля до n-1. Всё правильно.
Вариант 3 (i = 1; i <= n; i--) — бесконечный цикл, потому что i-- идёт вниз, а условие <= n всегда будет верным. Абсурд.
Вариант 4 (foreach (auto x : A)) — в C++ действительно можно использовать range-based for. Это тоже корректный способ, он работает для массивов. Но вопрос звучит так, как будто хотят классический формат for.
Вариант 5 (i = 0; i <= n) — тут цикл пойдёт от 0 до n, включая n. Но индекс A[n] не существует (последний A[n-1]), будет выход за границу. Ошибка.

Вывод: два способа технически правильные — это 2 и 4. Но если ориентироваться на «правильный классический формат перебора массива» (судя по формулировке), то ожидается именно вариант 2.

Выбранныйответ: for (int i = 0; i < n; i++)

Вопрос 2. Как правильно открыть файл для чтения в C++?

Варианты ответов:

1. ifstream file("input.txt")

2. ofstream file("input.txt")

3. instream(file, "input.txt")

4. fstream file("input.txt", ios::out)

5. FILE* file = fopen("input.txt", "r")

Спрашивают про открытие для чтения именно в C++. Базовый современный способ — поток ввода std::ifstream, который по умолчанию открывает файл в режиме чтения (ios::in).
— (1) корректно: ifstream и путь к файлу — стандартный вариант для чтения.
— (2) ofstream — это для записи, не подходит.
— (3) instream в стандартной библиотеке нет — неверно.
— (4) fstream можно использовать, но здесь указан режим ios::out (запись), а не чтение — неверно; для чтения нужно было бы ios::in.
— (5) fopen(...,"r") — рабочий C-подход, в C++ тоже возможен, но вопрос, как правило, ожидает ответ со стандартными C++ потоками.

Вывод: выбираю классический C++-вариант с ifstream.

Выбранный ответ: ifstream file("input.txt")

Вопрос 3. Какое утверждение верно для данной функции?

int f(int p) {

int i = 25;

if (i == p) {

std::cout << "cpp\n";

int k = f(p);

return -1;

} else

return 0;

}

Варианты ответов:

1. Функция возвращает ноль для всех значений p, больших 25

2. Функция выводит «cpp» бесконечно, когда p = 25, пока стек не заполнится

3. Функция выводит «cpp» бесконечно для всех значений p, кроме 25, пока стек не заполнится

4. Функция возвращает -1, когда p = 25

5. Функция возвращает ноль для всех значений p, меньших 25

Локальная i всегда равна 25. Если p == 25, печатаем "cpp", сразу же вызываем f(p) снова и базового случая нет — рекурсия не заканчивается. Возврат -1 теоретически стоит после рекурсивного вызова, но до него никогда не дойдём: стек будет расти, пока не переполнится. Если p != 25, ветка else мгновенно возвращает 0.

Ключевой эффект функции — бесконечная рекурсия при p == 25. Возвраты нуля при других значениях — верно, но это вторично по сравнению с «сломом» при 25.

Выбранный ответ: «Функция выводит “cpp” бесконечно, когда p = 25, пока стек не заполнится»

Вопрос 4. Что произойдёт после выполнения инкрементации итератора?

std::vector<int> vec = {1,2,3};

auto i = vec.begin();

++i;

Варианты ответов:

1. Итератор увеличится на 2

2. Произойдёт ошибка

3. Итератор будет указывать на следующий элемент

4. Итератор уменьшится на 1

5. Итератор станет не валидным

У нас std::vector<int> из трёх элементов. begin() даёт итератор на первый элемент (1). Оператор ++i — это префиксный инкремент итератора, который продвигает его на один шаг вперёд.
На что обращаю внимание: вектор не менялся, границы не нарушены — следующий элемент есть (это 2). Ошибки и инвалидности итератора не будет; «на 2» итератор не прыгает — для этого нужно было бы i += 2.

После ++i итератор укажет на элемент со значением 2, то есть на следующий.

Выбранный ответ: Итератор будет указывать на следующий элемент

Вопрос 5. Программа 3D-моделирования должна хранить объекты в векторно-полигональной модели (набор координат вершин) большого размера: миллион вершин или больше. С объектами требуется выполнять различные операции, например масштабирование или перемещение. Какой STL-контейнер будет эффективен для хранения и обработки таких данных?

Варианты ответов:

1. std::vector

2. std::list

3. std::queue

4. std::unordered_map

5. std::unordered_set

Нужно хранить очень много однотипных числовых данных (вершины) и быстро проходиться по ним для операций наподобие масштабирования/перемещения. Тут важны компактность, кэш-локальность и быстрый последовательный обход.
На что обращаю внимание:
— std::vector держит элементы подряд в памяти → быстрый линейный проход, случайный доступ O(1), хорошо для SIMD.
— std::list хранит узлы по указателям → лишняя память на указатели и плохая кэш-локальность.
— std::queue ограничивает доступ концами и построен поверх другого контейнера — не подходит.
— unordered_map/unordered_set — ассоциативные контейнеры с хеш-структурами и накладными расходами; нам не нужно хранить пары ключ-значение или уникальность по ключу.

Для массивов вершин большого размера наилучший базовый выбор — динамический массив.

Выбранный ответ: std::vector

Вопрос 6. Выберите верное утверждение для абстрактного класса.

Варианты ответов:

1. Должен содержать чисто виртуальную функцию, определенную вне класса

2. Должен содержать дружественный метод

3. Не может содержать чисто виртуальных функций

4. Должен содержать только чисто виртуальные функции

5. Должен содержать хотя бы одну чисто виртуальную функцию

Спрашивают базовое определение абстрактного класса в C++. Абстрактный — это класс, у которого есть хотя бы одна чисто виртуальная функция (= 0) либо унаследованная, не реализованная.
На что обращаю внимание:
— Никаких требований к «дружественным методам» нет — пункт 2 лишний.
— Пункт 3 противоречит определению.
— Пункт 4 чрезмерно строг: в абстрактном классе могут быть обычные методы и поля.
— Пункт 1 некорректно сужает: чисто виртуальная может иметь реализацию вне класса, но абстрактность не требует именно такого определения.
Логичный вариант — «хотя бы одна чисто виртуальная».

Выбранный ответ: Должен содержать хотя бы одну чисто виртуальную функцию

Вопрос 7. Как нужно объявить переменную count на месте пропуска в классе Player, чтобы на экран было выведено 2?

Варианты ответов:

1. int static count

2. friend int count

3. int count

4. int const count

5. static int count

Нужно общее для всех объектов поле-счётчик, чтобы оба созданных Player инкрементировали одну и ту же переменную. Такое поле объявляется как static. В коде уже есть внешнее определение int Player::count = 0; и статический метод getCount(), который может обращаться только к статическим полям.
friend — не про хранение данных, int count (нестатическое) не скомпилируется со статическим методом, const изменять нельзя. int static count синтаксически допустимо, но обычно ожидают форму static int count.

Выбранный ответ: static int count

Вопрос 8. Проанализируйте код ниже. Какие поля есть у класса C?

class A{

public:

int a;

};

class B{

private:

int b;

};

class C: public A, public B{

private:

int c;

};

Варианты ответов:

1. a, b

2. c

3. a, c

4. a, b, c

5. a

C публично наследуется от A и B. У A есть поле a (public), у B — поле b (private), у самого C — поле c (private).
На что обращаю внимание: модификатор private в базовом классе влияет на доступ, а не на наличие поля в объекте-наследнике. То есть объект C содержит под-объект A с полем a, под-объект B с полем b и своё поле c. Доступ к b из кода C запрещён, но само поле в памяти есть. У класса C присутствуют все три поля — a, b, c.

Выбранный ответ: 4) a, b, c

**Вопрос 9. Выражение const int* wsk означает:**

Варианты ответов:

1. Указатель на константный объект

2. Указатель на объект

3. Константный указатель

4. Константный указатель на константный объект

5. Обычный указатель

const стоит слева от типа, а звёздочка рядом с int. Это читается как «указатель на const int». Значит, менять значение по адресу нельзя (*wsk = 5; — ошибка), но сам указатель можно переназначать (wsk = другой_адрес; — можно).
На что обращаю внимание: «константный указатель» был бы int* const wsk — здесь const после *. Комбинация «константный указатель на константный объект» выглядела бы как const int* const wsk. Вывод: это именно указатель на константный объект.

Выбранный ответ: Указатель на константный объект

Вопрос 10.
Что произойдёт после выполнения этого кода?

int* func() {

int* x = new int(42);

return x;

}

int* ptr = func();

Варианты ответов:

1. Возникнет утечка памяти, так как new не сбалансирован с delete

2. Указатель ptr будет валидным

3. Указатель ptr будет невалидным

4. Память автоматически освободится после выхода из func

5. Программа завершится с ошибкой из-за двойного освобождения

Внутри func памяти выделяется через new — это куча, она не освобождается сама по себе при выходе из функции. Мы возвращаем адрес в ptr. Сам ptr указывает на корректно выделенную память, но в коде нет соответствующего delete.
На что обращаю внимание: без delete ptr; эта память останется висеть до конца жизни ptr/программы — это классическая утечка. Варианты про автоматическое освобождение и двойное освобождение не подходят. Фраза «ptr валиден» технически верна, но тест обычно проверяет именно проблему управления памятью.

Код создаёт утечку, потому что new не сопровождается delete (нужно либо явно удалить, либо использовать std::unique_ptr).

Выбранный ответ: Возникнет утечка памяти, так как new не сбалансирован с delete

Заключение

Если спотыкаетесь на границах массива, вводе-выводе и указателях — вернитесь к простым задачам и пишите код руками. Пользуйтесь стандартными контейнерами, проверяйте условия цикла, закрывайте new парой delete, не путайте const T* и T* const.

HR-аналитика: базовый уровень. От отклика до оффера анализ воронки найма и эффективности рекрутинга

2025-09-14T20:25:54.049Z

HR-аналитика — это не набор скучных таблиц. Это способ понять, что происходит с людьми в компании и как это влияет на бизнес. Даже если вы никогда не работали в HR, но хотите войти в эту сферу, важно знать, что аналитика здесь — это инструмент для управленцев, рекрутеров и самих специалистов по персоналу. Она показывает, где компании теряют людей и деньги, а где — приобретают.

В этой статье разберём базовый тест по HR-аналитике. Пройдём шаг за шагом все вопросы и объясним, почему выбран именно этот вариант ответа. Это полезно тем, кто хочет работать рекрутером, HR-аналитиком или руководителем подразделения, где важны показатели по персоналу.

Вопрос 1. Выберите НЕВЕРНЫЙ вариант определения HR-метрики.

Варианты ответа:

1. Индикатор сравнения HR-результатов компании с рынком труда

2. Показатель, который помогает оценить работу того или иного HR-процесса

3. Коэффициент влияния HR-процессов на бизнес-результаты

4. Параметр, позволяющий спрогнозировать наступление HR-события

5. Показатель для премирования сотрудника за заслуги в HR-направлении

HR-метрики — это цифры, показатели или индексы, которые помогают оценить и анализировать HR-деятельность: например, сколько сотрудников уходит, сколько времени занимает закрытие вакансии, сколько стоит привлечение одного нового сотрудника.
Все перечисленные определения (кроме одного) говорят о сравнении, прогнозировании, анализе HR-процессов и их влияния на бизнес, что и является задачей HR-метрик.

А вот «показатель для премирования сотрудника за заслуги в HR-направлении» — это уже скорее не HR-метрика, а инструмент мотивации (премия, KPI для начисления бонусов). Такой показатель может использовать HR-метрики в расчетах, но само определение HR-метрики через «для премирования» — это ошибка.

HR-метрики — это просто такие цифры, по которым видно, как работает отдел кадров: быстро ли закрывают вакансии, много ли увольняются. А вот начисление премий — это уже не сама метрика, это решение, что делать с этими цифрами. Так что этот вариант тут не подходит.

Выбранный ответ:
Показатель для премирования сотрудника за заслуги в HR-направлении.

Вопрос 2. Выберите пункт, содержащий ТОЛЬКО те метрики, которые помогают оценить процесс подбора персонала.

Варианты ответа:

1. Стоимость найма, конверсия воронки подбора, текучесть, коэффициент абсентеизма, среднесписочная численность

2. Укомплектованность, конверсия воронки подбора, производительность рекрутера, текучесть на испытательном сроке, эффективность источников найма

3. Штатная численность, доля закрытых вакансий в срок, доля принявших оффер, доля новых сотрудников, коэффициент стабильности персонала

4. Качество найма, средний срок закрытия, доля расходов на персонал, укомплектованность, средний стаж

5. Скорость найма, отсев на адаптационном периоде, доля обученных, индекс лояльности, добровольная текучесть

Чтобы проверить, какие показатели действительно относятся только к процессу подбора, надо вспомнить — подбор персонала это:

поиск кандидатов,
оценка и отбор,
доведение их до выхода на работу.

А значит, сюда точно относятся такие вещи как:

конверсия воронки подбора (сколько из приглашённых пришли на интервью и сколько из них приняли оффер),
стоимость найма (сколько денег уходит на закрытие вакансии),
производительность рекрутера (сколько вакансий закрыл за месяц),
текучесть на испытательном сроке (люди, которых только что наняли, быстро увольняются — значит проблема в подборе),
эффективность источников найма (какие сайты или агентства приводят лучших кандидатов).

Если же в вариантах появляются коэффициент абсентеизма (прогулы), среднесписочная численность, индекс лояльности, средний стаж — это уже про общую HR-аналитику или удержание, а не чисто про подбор.

С этой точки зрения, единственный вариант, который содержит только метрики подбора — это:

Тут выбрали только те цифры, которые помогают понять, как хорошо ищут и нанимают сотрудников. Всё остальное — про то, сколько людей работает, как долго и насколько они довольны, но это уже не про сам подбор.

Выбранный ответ:
2. Укомплектованность, конверсия воронки подбора, производительность рекрутера, текучесть на испытательном сроке, эффективность источников найма.

Вопрос 3. Выберите формулу, по которой можно рассчитать текучесть персонала.
(Где: Тп — текучесть, Ку — количество уволенных, ССЧ — среднесписочная численность.)

Варианты ответа:

1. Тп = (ССЧ – Ку) / 100%

2. Тп = Ку / ССЧ * 100%

3. Тп = (Ку + ССЧ) / 100%

4. Тп = Ку * 100% / (ССЧ – Ку)

5. Тп = (ССЧ + Ку) * 100%

Текучесть показывает, сколько людей уволилось за период относительно общего количества работников в среднем за этот же период. Это важный показатель: если текучесть высокая, значит сотрудники часто увольняются, а компания теряет деньги на их замене.

Формула простая и её часто показывают так:

Текучесть = (Количество уволенных / Среднесписочная численность) × 100%

То есть делим, сколько человек уволились, на то, сколько всего людей в среднем работало, и умножаем на 100%, чтобы получить процент.

Остальные формулы здесь — либо складывают/вычитают показатели так, что получается нелепость, либо не имеют смысла (например, (ССЧ – Ку) вообще покажет, сколько осталось после увольнений, а не отношение).

Чтобы узнать, насколько часто люди увольняются, берём число уволенных и делим на общее среднее количество сотрудников. Потом умножаем на 100 — получаем процент текучести.»

Выбранный ответ: Тп = Ку / ССЧ * 100%.

Вопрос 4. Выберите набор метрик, относящихся к воронке подбора.

Варианты ответа:

1. Количество открытых вакансий, количество откликов, количество рабочих часов рекрутера, количество собеседований, количество тестовых заданий

2. Количество собеседований, доля офферов, доля нерелевантных кандидатов, индекс вежливости, укомплектованность

3. Количество откликов, доля офферов, доля нерелевантных кандидатов, индекс вежливости рекрутера, стоимость одного нанятого

4. Количество открытых вакансий, количество рабочих часов рекрутера, количество собеседований, стоимость одного нанятого, время до выдачи оффера

5. Количество откликов, количество собеседований, количество выполненных тестовых заданий, доля офферов, текучесть на испытательном сроке

Воронка подбора — это путь кандидата от отклика до выхода на работу. На каждом шаге часть людей отсеивается, и мы измеряем, сколько осталось на следующем этапе. Типичные метрики воронки:

Количество откликов — сколько человек прислали резюме.
Количество собеседований — сколько из них пригласили и пришли на интервью.
Количество выполненных тестовых заданий — кто прошёл следующий этап.
Доля офферов — сколько в итоге получили предложение о работе.
А также немного реже, но полезно — текучесть на испытательном сроке: показывает, хорошо ли подобрали (не ушёл ли человек сразу).

А вот рабочие часы рекрутера, индекс вежливости и стоимость нанятого — это про эффективность рекрутера или HR-бренд, а не про саму воронку кандидатов.

Поэтому правильный вариант — там, где собраны все этапы движения кандидата по воронке: от отклика до оффера и первых месяцев работы.

Выбранный ответ:
5. Количество откликов, количество собеседований, количество выполненных тестовых заданий, доля офферов, текучесть на испытательном сроке.

Вопрос 5. Вам необходимо проанализировать ситуацию по длительно не закрывающимся вакансиям, хотя кандидаты на эти позиции были представлены заказчикам. Какие данные для этого вам понадобятся? Выберите вариант, в котором указаны ТОЛЬКО необходимые данные.

Варианты ответа:

1. Список вакансий, количество нерелевантных кандидатов, количество проведенных собеседований, стоимость размещения одной вакансии, дата публикации вакансии

2. Количество входящих откликов, количество проведенных собеседований с заказчиком, обратная связь от заказчиков, текучесть на испытательном сроке, список заказчиков

3. Список вакансий, количество проведенных собеседований, даты открытия вакансий, этапы и причины отказа кандидатов, обратная связь от заказчиков

4. Список вакансий, нормативный срок закрытия вакансий, количество отклоненных офферов, количество используемых источников, численность рекрутеров

5. Список рекрутеров, список вакансий, количество откликов, количество отработанных рекрутерами часов, численность сотрудников

Тебе нужно понять почему вакансии долго не закрываются, хотя кандидатов уже показывали заказчикам.
Значит понадобятся именно данные, которые показывают:

что за вакансии (список вакансий),
как давно они открыты (даты открытия),
что происходило на каждом этапе (количество собеседований, этапы и причины отказа),
что думает заказчик (его обратная связь).

Все остальные данные вроде стоимости размещения, текучести на испытательном сроке, количества откликов и численности рекрутеров — не про саму причину долгого закрытия после представления кандидатов.

Поэтому правильный вариант — там, где указаны только такие данные, которые помогут отследить путь кандидата и выявить, на каком этапе или почему процесс стопорится.

Выбранный ответ:
3. Список вакансий, количество проведенных собеседований, даты открытия вакансий, этапы и причины отказа кандидатов, обратная связь от заказчиков.

Вопрос 6. Для расчета какой метрики может быть использована приведённая таблица с сырыми данными?

Варианты ответа:

1. Укомплектованность

2. Конверсия этапов подбора

3. Эффективность источников подбора

4. Эффективность рекрутера

5. Индекс удовлетворенности заказчика

Смотрим на таблицу:

есть имена рекрутеров,
вакансии,
даты открытия и закрытия,
количество кандидатов,
закрыта ли вакансия в срок,
а также статус — закрыта или в работе.

Это даёт возможность посчитать:

1. Сколько вакансий каждый рекрутер вел

2. Сколько закрыл вовремя

3. Сколько вообще закрыл

4. Среднюю скорость закрытия
— то есть всё, что связано с эффективностью работы самого рекрутера.

А для укомплектованности нужны данные о штатах и фактическом числе сотрудников.
Для конверсии этапов подбора нужна статистика о прохождении этапов (отклики → собесы → офферы).
Для источников подбора нужны данные откуда пришли кандидаты (hh, рекомендации и т.д.).
Для индекса удовлетворенности заказчика — опросы или оценки самих заказчиков.

По этой таблице видно кто из рекрутеров сколько вакансий закрыл и успел ли вовремя. Это значит, можно понять, кто работает быстрее и качественнее.

Выбранный ответ:
Эффективность рекрутера.

Вопрос 7. Выберите вариант, в котором корректно соотнесены метрики и их тип.

Метрики:

1. Срок закрытия вакансии

2. Удовлетворенность заказчика

3. Выполнение плана подбора

4. Средняя стоимость закрытия вакансии

Типы метрик:
А — Финансовая
Б — Время
В — Качественная
Г — Количественная

Варианты ответа:

· 1 - Г, 2 - B, 3 - А, 4 – Б

· 1 - В, 2 - А, 3 - Б, 4 - Г

· 1 - А, 2 - Г, 3 - В, 4 – Б

· 1 - Б, 2 - В, 3 - Г, 4 - А

· 1 - Б, 2 - B, 3 - А, 4 - Г

1. Срок закрытия вакансии — это явно про время, сколько дней закрывали.

2. Удовлетворенность заказчика — это субъективная оценка, значит качественная.

3. Выполнение плана подбора — сколько сделано от плана, значит количественная.

4. Средняя стоимость закрытия вакансии — явно финансовая, сколько в деньгах.

Значит сопоставление такое:

1 → Б (время)

2 → В (качественная)

3 → Г (количественная)

4 → А (финансовая)

Смотрим варианты и находим:
1 — Б, 2 — В, 3 — Г, 4 — А

Выбранный ответ: 1 — Б, 2 — В, 3 — Г, 4 — А.

Вопрос 8. Вам необходимо рассчитать и проанализировать NPS кандидата. Посмотрите набор данных и выберите ВСЕ необходимые операции, которые нужно выполнить ПЕРЕД началом анализа.

Варианты ответа:

1. Перевести столбцы в строки, посчитать сумму по столбцу «Оценка», поменять формат записи даты, убрать дубли

2. Убрать дубли, исправить орфографию в ответах, выставить ответы в хронологическом порядке, убрать аномальные значения

3. Убрать пустые строки, перевести столбцы в строки, убрать аномальные значения, удалить столбец с номером

4. Исправить формат данных, исправить орфографию в ответах, посчитать сумму по столбцу «Оценка», убрать пустые строки

5. Убрать дубли, убрать пустые строки, убрать аномальные значения, исправить формат данных

Сначала посмотрим на таблицу, сразу отметим проблемы:

Ø Дубли: дважды кандидат №2 дал одинаковые оценки.

Ø Аномалии: оценка 100 — слишком большая для шкалы 0–10.

Ø Пустые строки: есть строка 6, где вообще нет данных.

Ø Формат даты: «2023 ноябрь» у 7-го кандидата, это нужно привести к виду 11/7/2023.

Ø Формат текста: в отзывах орфография не принципиальна для расчета NPS, но может быть важна для качественного анализа.

Для расчёта NPS нам важно только:

1. убрать мусор (пустые строки),

2. убрать дубли,

3. привести числа к норме и убрать аномальные значения,

4. исправить даты (если будем смотреть динамику по времени).

Здесь сразу четыре важных шага, которые действительно нужны для чистого расчета NPS, и ничего лишнего вроде перевода столбцов в строки или подсчета суммы (для NPS сумма не нужна, нужен процент промоутеров и критиков).

Выбранный ответ:
«Убрать дубли, убрать пустые строки, убрать аномальные значения, исправить формат данных».

Вопрос 9. Перед вами график распределения подразделений компании по численности персонала. Как называется такой тип графика?

Варианты ответа:

1. Линейчатая гистограмма

2. Рейтинговая шкала

3. Гистограмма с накоплением

4. Лучевая диаграмма

5. Воронка

На графике показаны горизонтальные полосы (бары), которые отображают количество сотрудников в каждом подразделении. Чем длиннее полоса — тем больше сотрудников.
Это классический пример горизонтальной столбчатой диаграммы, которую часто называют «линейчатая гистограмма» (bar chart с горизонтальными столбцами).

Остальные варианты:

«Рейтинговая шкала» — это обычно для опросов.
«Гистограмма с накоплением» — когда столбцы показывают несколько показателей в одном, складывающихся друг на друга.
«Лучевая диаграмма» — это паук / радар (круг).
«Воронка» — для последовательного отсева на этапах (например, воронка продаж).

Выбранный ответ: Линейчатая гистограмма.

Вопрос 10. Соотнесите метрики и способы визуализации.

Варианты ответа:

· 1 - А, 2 - В, 3 - B

· 1 - Б, 2 - В, 3 - А

· 1 - А, 2 - В, 3 - Б

· 1 - Б, 2 - А, 3 - В

· 1 - В, 2 - Б, 3 - А

Метрики и визуализация:

1. Укомплектованность персоналом — лучше всего показывать с помощью гистограммы, чтобы увидеть сколько сотрудников по отделам или насколько укомплектованы штаты.

2. Связь между эффективностью и удовлетворённостью персонала — здесь важно показать взаимозависимость двух переменных, значит подходит диаграмма рассеяния (scatter plot).

3. Доля источников подбора — это распределение долей, классический случай для круговой диаграммы.

Соответствие:

1 → Б (гистограмма)

2 → А (диаграмма рассеяния)

3 → В (круговая диаграмма)

Выбранный ответ:
«1 — Б, 2 — А, 3 — В».

Вопрос 11. Необходимо проанализировать эффективность источников подбора по периодам. Какие параметры и куда в сводной таблице вы внесёте?

Таблица со столбцами: Вакансия, ФИО кандидата, Дата, Источник

Варианты ответа:

1. СТОЛБЦЫ - Вакансии, СТРОКИ - фамилии ЗНАЧЕНИЕ - сумма по полю Источники, ФИЛЬТРЫ - дата

2. СТОЛБЦЫ - пусто, СТРОКИ - источники, ЗНАЧЕНИЕ - количество по полю источники, ФИЛЬТРЫ - вакансии

3. СТОЛБЦЫ - Даты, СТРОКИ - источники, ЗНАЧЕНИЕ - Количество по полю ФИО, ФИЛЬТРЫ – пусто

4. СТОЛБЦЫ - Источники, СТРОКИ - Вакансии, ЗНАЧЕНИЕ - Сумма по ФИО, ФИЛЬТРЫ - дата

5. СТОЛБЦЫ - ФИО, СТРОКИ - Источники, ЗНАЧЕНИЕ - Вакансии, ФИЛЬТРЫ – Дата

Чтобы понять, какой источник дал сколько кандидатов в разные периоды, надо:

1. в СТРОКИ добавить источники, чтобы видеть по ним разбивку;

2. в ЗНАЧЕНИЕ — поставить количество по полю источники (то есть посчитать сколько раз встречается каждый источник);

3. в ФИЛЬТРЫ — период, чтобы можно было посмотреть за нужные даты.

Это позволит быстро видеть: например, в 2023 году HeadHunter дал 5 кандидатов, а Телереклама — 2.

Фильтр по вакансиям здесь дан в формулировке задачи как пример разбивки, иногда можно использовать вместо даты; если бы был вариант с фильтром по дате, он был бы ещё лучше.

Выбранный ответ:
«СТОЛБЦЫ — пусто, СТРОКИ — источники, ЗНАЧЕНИЕ — количество по полю источники, ФИЛЬТРЫ — вакансии».

Вероятные вопросы, где я допустил ошибку — но это не точно.

1. Вопрос про визуализацию метрик (№10)

Очень частая ловушка в тестах:

связь между эффективностью и удовлетворенностью нужно показывать точечной диаграммой (scatter plot), но часто путают с гистограммой.
доля источников подбора — круговая.

Я выбрал:

укомплектованность — гистограмма
связь — scatter (А)
доля источников — круговая.

Возможно, тут и допущена одна из ошибок.

2. Вопрос про сводную таблицу (№11)

Я часто путаюсь, куда поставить «Даты» — в фильтры, строки или столбцы. Выбрал самый классический вариант (источники в строках, значение — количество, фильтр по вакансиям).

Возможно, правильнее было бы фильтр именно по датам, а не вакансиям (так чаще всего делают для анализа по периодам).

Заключение

После прохождения теста и разбора базовых вопросов становится понятно, как HR-аналитика помогает бизнесу экономить ресурсы и лучше управлять людьми. Даже простые цифры по текучести и срокам закрытия вакансий дают руководителю ясную картину.

Сегодня тренд очевиден: HR всё больше опирается на данные. Компании хотят видеть обоснованные решения, а не «кажется, нам нужен ещё один менеджер». Знание таких базовых подходов открывает двери для роста: от рекрутера до HR-бизнес-партнера, от помощника аналитика до полноценного HR-директора, который строит политику компании на основе фактов.

Если вы ответили правильно на все вопросы — напишите в комментариях, где я допустил ошибки и какие ответы должны были быть. Это поможет улучшить разбор для следующих читателей

HR-аналитика: средний уровень. От отклика до оффера анализ воронки найма и эффективности рекрутинга

2025-09-14T20:22:57.270Z

HR-аналитика на среднем уровне — это уже не только про то, сколько людей пришло или ушло. Здесь появляются вопросы о воронках подбора, источниках трат, глубокой сегментации персонала и визуализациях, которые позволяют быстро видеть «узкие места».

В статье я пошагово разберу тест среднего уровня. Объясню, почему выбрала именно такие ответы, и как подобные кейсы встречаются в реальной работе. Это пригодится тем, кто хочет углубиться в HR-аналитику или занять руководящую позицию в HR-отделе, где решения уже принимаются на основе сложных данных.

Вопрос 1. Выберите НЕВЕРНОЕ продолжение фразы из списка ниже. Польза от HR-аналитики для бизнеса может заключаться…

Варианты ответа:

1. В повышении удовлетворенности руководителей работой HR подразделения

2. В оптимизации затрат на подбор

3. В подготовке сводных таблиц с данными по кандидатам и сотрудникам

4. В подготовке прогноза по объему найма на период

5. В поддержке управленческих решений по подбору для HRD

HR-аналитика помогает принимать решения на основе данных, а не на глазок.

Она нужна для:

1. оптимизации затрат (понимать, где дорого, где дешевле),

2. прогнозов по найму (сколько нужно людей в следующем квартале),

3. поддержки управленческих решений (например, закрыть проект или нанять больше),

4. а также для формирования сводных таблиц и отчетов, которые показывают всю картину по персоналу.

А вот «повышение удовлетворенности руководителей работой HR подразделения» — это уже косвенный эффект, он не относится напрямую к пользе от самой HR-аналитики для бизнеса. Это скорее эмоциональная реакция руководителей на работу HR, а не функциональный результат аналитики. HR-аналитика не ставит перед собой задачу специально повышать настроение руководителей — она дает данные для решений.

HR-аналитика нужна, чтобы понимать сколько и когда нанимать людей, сколько это будет стоить, и какие процессы в подборе работают лучше. А вот поднять настроение руководителям — это не её задача.

Выбранный ответ:

«В повышении удовлетворенности руководителей работой HR подразделения».

Вопрос 2. Ниже — таблица с данными по опросу лояльности сотрудников. Рассчитайте eNPS.

eNPS (Employee Net Promoter Score) считают так же, как обычный NPS:

кто дал 9-10 баллов — это промоутеры, они готовы рекомендовать компанию;
кто дал 7-8 баллов — нейтралы, их не учитываем;
кто дал 0-6 баллов — критики, они могут отговаривать.

Формула:

eNPS = % промоутеров − % критиков

Посчитаем по данным:

Всего сотрудников: 11

Промоутеры (9-10):

Арбузов 9
Лимонова 9
Мандаринкин 9
Голубкин 10
Инжир 10
→ всего 5 промоутеров

Нейтралы (7-8):

Бананова 7
Виноградов 7
Земляникина 8
→ всего 3 нейтрала

Критики (0-6):

Глубникин 6
Ежевикина 5
→ всего 2 критика

Считаем проценты:

% промоутеров = (5 / 11) × 100 ≈ 45%

% критиков = (2 / 11) × 100 ≈ 18%

Считаем eNPS: eNPS = 45% − 18% = 27%

В тесте таких вариантов нет, но самый близкий из предложенных — 30%

Это как опрос, готовы ли работники порекомендовать компанию.
Те, кто сказал 9 или 10, прям фанаты, кто 7-8 — просто довольны, а кто меньше — могут отговаривать. Мы смотрим, сколько фанатов минус сколько недовольных — и получаем показатель. Здесь он около 27%, а значит правильнее всего выбрать 30%.»

Выбранный ответ: 30%.

Вопрос 3. HRD решил пересмотреть систему премирования рекрутеров. KPI должны быть объективны, понятны в расчёте и направлены на повышение результативности подбора. Выберите показатель, который НЕ рекомендуется использовать в качестве нового KPI рекрутера.

Чтобы дать премию рекрутеру за работу, важно:

чтобы показатель был объективным (по честным данным, а не «по мнению кого-то»),
легко считался по выгрузке из систем,
и напрямую отражал эффективность его труда.

Разберём варианты:

Стоимость подбора (из Excel-файла финансового аналитика) — вполне измеримо, но может зависеть и от внешних условий, но сам расчет объективен.
Средний срок закрытия вакансий (из CRM) — прямо отражает скорость работы рекрутера.
Текучесть на адаптационном сроке (из 1С ЗУП) — показывает качество подбора: быстро ли уходят новые сотрудники.
Удовлетворенность заказчиков (по письмам в почте HRD) — очень субъективно, зависит от эмоций заказчика, из писем нельзя достоверно рассчитать %, да и сами письма могут быть не структурированы.
Количество закрытых вакансий (из ATS) — прозрачный количественный показатель.

Тут нельзя ставить в KPI рекрутера то, что измеряется по письмам из почты — это слишком субъективно, зависит от настроения заказчиков, а не от чётких цифр. А премии должны начисляться по понятным и проверяемым данным.

Выбранный ответ:
«Удовлетворенность заказчиков подбором, источник — подборка писем в почте HRD».

Вопрос 4. В компании принято решение оптимизировать бюджет на подбор персонала. Необходимо проанализировать, какие источники подбора стоит оставить, а какие можно сократить.
Выберите вариант, в котором указаны ТОЛЬКО необходимые источники данных для этой задачи.

Чтобы понять, какие источники оставить, а какие сократить, нужно всего три вещи:

1. Сколько денег тратим на каждый источник — чтобы знать, во сколько обходится реклама вакансий там.

2. Сколько человек привёл этот источник (отклики и нанятые) — чтобы оценить отдачу.

3. И сравнить: цена / результат, чтобы видеть дорогих и малоэффективных.

Остальное, типа скидок, исполнения бюджета прошлого года, общего бюджета или просто количество публикаций — не показывает эффективности конкретных источников.

Разбираем варианты:

Исполнение бюджета прошлого года, количество публикаций, список источников — нет данных о нанятых и о стоимости каждого источника.
Список источников, количество откликов, общее количество нанятых за прошлый период — нет привязки к стоимости конкретного источника.
Список источников, размер скидки, количество нанятых по реферальной программе — скидка — не финальный бюджет, а рефералка — отдельный канал.
Список статей бюджета на подбор, стоимость каждого источника, количество привлеченных и нанятых с каждого источника — именно то, что нужно для анализа эффективности и оптимизации.
Список источников, общий бюджет на подбор в текущем году, количество откликов — не разделено по источникам.

Если мы хотим сократить расходы на рекламу вакансий, надо посмотреть, где сколько потратили и сколько сотрудников оттуда пришло. Тогда сразу будет видно: например, HeadHunter дорого, но даёт 10 человек, а Газета дешево, но даёт только одного. Вот для этого и нужен именно такой набор данных.»

Выбранный ответ:
«Список статей бюджета на подбор, стоимость каждого источника, количество привлеченных и количество нанятых с каждого источника».

Вопрос 5. Как можно получить аналитику о качестве собеседований в разрезе рекрутеров, если доступны данные из таблиц 1 и 2?

Смотрим, что у нас есть:

Таблица 1 — результаты опроса кандидатов после собеседования (их впечатления, но без рекрутера).
Таблица 2 — кто собеседовал кандидата (ФИО рекрутера), но тут нет их оценки впечатлений.

Чтобы узнать, кто из рекрутеров как провёл собеседование, надо связать эти две таблицы.

Как это сделать?

По «Дате» связывать нельзя — один кандидат мог проходить несколько этапов в разное время (например, Виноградов).
Правильнее всего объединять по ФИО кандидата, потому что тогда мы точно знаем, кто что сказал, и кто проводил его собеседование.

Тут надо просто взять две таблицы и соединить их по фамилии кандидата. Тогда в одной строчке будет сразу и мнение кандидата, и кто из рекрутеров его собеседовал. А значит можно посчитать, у какого рекрутера чаще хорошие или плохие отзывы.»

Выбранный ответ:
«Объединить таблицы по «ФИО кандидата»».

Вопрос 6. Проведена оценка сотрудников по 12 компетенциям (4 профессиональных, 4 личностных, 4 управленческих). HRD хочет визуализировать результаты в сравнении с нормативом по подразделениям и компетенциям.
Какой вариант визуализации будет наиболее подходящим?

Когда у нас много категорий (здесь — 12 компетенций) и надо показать для каждой, как подразделение или человек соответствует стандарту (нормативу), удобнее всего применять:

Лепестковую диаграмму (она же «радиальная» или «паучья»)

Ø На такой диаграмме каждая компетенция — это луч (ось), и на нём откладывается оценка.

Ø Получается «паук», сразу видно, где «проседают» какие компетенции относительно нормы.

Ø Можно наложить несколько «пауков» (для подразделений или сотрудников) на один график.

Остальные:

Гистограмма с накоплением — хорошо для показателей по времени или структурам, но хуже для профилей компетенций.
Пузырьковая — для 3 показателей сразу (X, Y и размер пузыря).
Древовидная — для иерархий (например, оргструктура).
Спиральная — для временных трендов (типа календаря).

Когда хотят показать, насколько человек или отдел подходит по разным навыкам сразу, используют диаграмму-паук. Там видно, где выступает хорошо, а где надо подтянуть.»

Выбранный ответ:

Лепестковая.

Вопрос 7. Было собрано 100 анкет кандидатов.

Ø 40% их них были отклонены на собеседовании с HR.

Ø Половина из оставшихся дошла до встречи с руководителем.

Ø Руководитель отклонил каждого третьего.

Ø 50% от приглашённых на работу приняли это приглашение.
Какова итоговая конверсия по найму?

Считаем пошагово:

1. После собеседования с HR:

Было 100 кандидатов.
HR отклонил 40%, осталось 60 человек.

2. Дошли до руководителя:

Половина из оставшихся — это 30 человек.

3. После встречи с руководителем:

Руководитель отклонил каждого третьего, значит пропустил 2/3.
То есть прошло 30 × (2/3) = 20 человек.

4. Приняли оффер:

50% из них приняли предложение → 10 человек.

Итоговая конверсия по найму:

10 из 100 = 10%

Из 100 человек только 10 в итоге приняли приглашение на работу. Это значит, что конверсия найма — 10%.»

Выбранный ответ: 10%.

Вопрос 8. Конверсия найма по компании снизилась на 12%. Задача аналитика — разобраться в причинах. Расположите действия аналитика в верном порядке.

Чтобы найти причину падения показателя, аналитик обычно действует так:

1. Сначала собирает общую информацию:

Смотрит, может это на рынке у всех так (п.1).

Расспрашивает рекрутеров, возможно, что-то изменилось внутри компании (п.2).

2. После этого смотрит в данные:

Делает описательный анализ, ищет, где конкретно просело (п.3).

3. Дальше выдвигает гипотезы:

Почему это могло случиться (п.4).

4. Рассчитывает, что проще или важнее проверить:

Оценивает трудоёмкость проверки каждой гипотезы (п.6).

5. И наконец проверяет:

Берёт приоритетные гипотезы и тестирует, например через A/B (п.7 или п.5, но здесь п.7 явно про проверку гипотез, а п.5 конкретно про A/B-тест — обычно это один из способов проверки, но не всегда он нужен).

Где A/B-тест — это частный инструмент, он не всегда универсальный шаг после определения гипотез и оценки их трудоёмкости).

Сначала нужно узнать, не у всех ли так плохо, потом спросить сотрудников, потом в данные залезть. После этого придумать, почему так случилось, оценить, что проще проверить, и уже потом проверять.

Выбранный ответ: 2, 3, 4, 6, 7

Вопрос 9. Какой инструмент оптимально выбрать для подготовки данных в виде разового отчета (для усредненного портрета сотрудника с демографией и ценностями)?

Варианты ответа:

1. Провести обработку данных с помощью библиотеки Pandas

2. Применить статистический пакет PSS Statistics

3. Написать SQL-запрос в кадровую систему для получения усредненных данных и оббъединения с данными сводной таблицы

4. Подготовить сводную таблицу в Excel с запрашиваемыми данными

5. Построить интерактивный дашборд в Bl

Тут задача — сделать один отчет, не на постоянной основе, а для встречи по итогам года. Нужно просто объединить данные из кадровой системы и из готовой сводной таблицы.

Не нужны интерактивные дашборды (BI), сложная статистика (SPSS) или скрипты на Python (Pandas) — это избыточно для задачи, когда можно всё собрать вручную или полуавтоматически.

Для таких случаев оптимально:
Подготовить сводную таблицу в Excel с запрашиваемыми данными — можно быстро объединить выгрузку из кадровой системы и готовую таблицу с ценностями, сделать группировки и средние.

Если нужен просто один отчет для совещания, проще всего открыть Excel, подтянуть данные из кадровой системы и добавить туда табличку с результатами опросов. Так быстро получим средний портрет сотрудника.»

Выбранный ответ: «Подготовить сводную таблицу в Excel с запрашиваемыми данными».

Вопрос 10. Проведен замер NPS. Результат — 60%. До 30% — удовлетворительно, 30-70% — хорошо, выше 70% — отлично.
Какая визуализация из Excel лучше всего подходит для отражения этих данных и каковы шаги ее построения?

Варианты ответа:

1. Воронка: построить линейчатую диаграмму, настроить обратный порядок отражения шкалы, скрыть отображение дополнительных данных

2. Биржевая: построить диаграмму по данным мин. и макс. шкалы, установить в качестве прогнозного значения показатель результата

3. Спидометр: построить комбинированную диаграмму (кольцевую по шкале, круговую для стрелки-результата), сместить угол отражения рядов данных, скрыть ненужные области

4. Термометр: построить стандартную гистограмму по данным шкалы и дополнить ее линейным графиком с показателем результата

5. Диаграмма с областями: построить диаграмму с областями для шкалы, дополнить ее точечной диаграммой с результатом, скрыть ненужные области

Задача здесь — показать уровень NPS относительно шкалы и зон, где видно, что до 30% плохо, от 30 до 70 хорошо, а свыше 70 отлично.

Самый наглядный инструмент для такой цели — это «спидометр», который показывает уровень как стрелку на полукруге, где зона до 30 — красная, до 70 — жёлтая, выше — зелёная. Это интуитивно: все привыкли по спидометрам в машине видеть, где норма, где «красная зона».

Для Excel это обычно делают через комбинированную диаграмму:

кольцевая диаграмма строится как шкала,
а поверх ставится круговая с одной стрелкой для текущего значения.
также нужно сместить угол отображения данных и скрыть ненужные сегменты, чтобы осталась только нужная половина круга.

Выбранный ответ:
«Спидометр: построить комбинированную диаграмму (кольцевую по шкале, круговую для стрелки-результата), сместить угол отображения рядов данных, скрыть ненужные области».

Вопрос 11. Какой вывод по итогу анализа эффективности плана мероприятий можно сделать?

Варианты ответа:

1. Мероприятия адаптации не связаны с производительностью и не влияют на неё

2. Оценка эффективности по итогам опроса сотрудников - субъективный инструмент, на который нельзя полагаться

3. Система мероприятий комплексная и работает как на удержание сотрудников, так и на рост производительности

4. Вводное обучение и welcome-тренинг дублируют друг друга и можно отказаться от одного из них

5. Премирование - самый эффективный инструмент роста производительности

Посмотрим, какие были результаты всех этих мероприятий:

Снизилась текучесть новичков на 5% (значит лучше удерживаем сотрудников).
Производительность новичков выросла на 11%, а брак снизился на 6% — значит, новички быстрее выходят на норму работы и делают меньше ошибок.
Все эти результаты достигнуты не одним действием, а сразу целым набором: welcome-тренинг, чат-бот, наставничество, премирование, рейтинги.

То есть система мероприятий работает как на удержание, так и на рост производительности.

Тут видно, что благодаря всей этой системе у новичков и текучесть снизилась, и производительность выросла. Значит, эта программа работает сразу в двух направлениях — помогает людям остаться и работать лучше.»

Выбранный ответ:

«Система мероприятий комплексная и работает как на удержание сотрудников, так и на рост производительности».

Вопрос 12. Какая рекомендация будет самой эффективной для решения задачи по найму?

Варианты ответа:

1. Нанять 800 человек в месяц невозможно ни при каких условиях. Нужно распланировать найм равномерно на 3-4 месяца

2. Узкое место воронки - обработка собранных откликов, так как двух рекрутеров недостаточно. Необходимо нанять еще двух на обработку откликов

3. Откликов недостаточно для закрытия требуемого количества вакансий. Необходимо расширить количество источников подбора

4. Узкое место воронки - обработка собранных откликов, так как рекрутерам не хватает времени. Нужно ускорить обработку, например, через рекрутинговый чат-бот

5. Узкое место воронки - собеседование и дальнейшее сопровождение кандидата. Необходимо обучить рекрутеров навыкам экспресс-оценки, чтобы уменьшить время на каждого соискателя

Давай разберем пошагово:

Сколько есть времени:

2 рекрутера × 165 часов = 330 часов в месяц всего.

Сколько уже тратят:

На обработку откликов — 69 ч
На собеседования и дальнейшее сопровождение — 237 ч
На трудоустройство — 24 ч
Всего: 330 ч, то есть рекрутеры уже загружены на 100% при найме 285 человек в месяц.

Чтобы нанять 800 человек:

Нужно примерно в 2,8 раза больше времени (800 / 285 ≈ 2,8).

То есть рекрутерам потребуется 330 × 2,8 = 924 часа, что физически невозможно вдвоем.

Что тогда делать:

Можно увеличить срок набора до 3-4 месяцев, тогда задача станет реальной:

800 / 3 ≈ 267 человек в месяц, что близко к их текущей производительности.

Два рекрутера сейчас и так заняты полностью, а чтобы нанять 800 в месяц, им нужно работать в три раза больше. Значит, правильнее всего просто растянуть процесс на несколько месяцев.

Выбранный ответ:
«Нанять 800 человек в месяц невозможно ни при каких условиях. Нужно распланировать найм равномерно на 3-4 месяца.»

Вероятные места ошибок

1. Вопрос про NPS (спидометр)

Часто возникает путаница между «спидометром» и «термометром», здесь важно, показываете ли зоны или просто уровень.

Некоторые тесты трактуют NPS через термометр (столбиковый индикатор с заливкой), особенно если в задании было сказано «пороговые значения».

Я выбрала спидометр, так как в большинстве кейсов он нагляднее для зон (до 30, 70, 100).

Возможная ошибка: тест засчитал правильным «термометр» (гистограмма + линия).

2. Вопрос про инструменты для подготовки разового отчета

Я выбрала Excel сводную таблицу — классика для разового отчета. Модные инструменты вроде Python и BI могут отвлечь, хотя Excel для разового запроса более оправдан.

Но если тест был ориентирован на технический бэкграунд, могли считать более правильным вариант «SQL-запрос + объединение», ведь данные в разных источниках. Однако для HR и классических «портретов сотрудника» обычно выбирают Excel.

3. Вопрос про пошаговый анализ снижения конверсии

Возможная ошибка здесь, там было несколько вариантов с близким порядком действий (например с A/B-тестированием в середине).

Выбрала понятную логику:

1. изучить рынок и опросить рекрутеров,

2. сделать описательный анализ,

3. сформулировать гипотезы,

4. оценить трудозатраты и проверить.

Иногда тесты требуют сразу выдвигать гипотезы после сбора мнений, а только потом строить описательную статистику. Это тонкий методический спор.

Вероятные ошибки:

1. Спидометр / термометр (визуализация NPS).

2. SQL-запрос против Excel для разового отчета.

3. Порядок действий аналитика при снижении конверсии.

Заключение

После этого разбора вы начнёте видеть за сухими цифрами реальные процессы HR-аналитики: почему уходят новички, где теряются кандидаты, что мешает закрыть вакансию быстрее.

Компании всё чаще инвестируют в системы HR-аналитики, BI-панели и автоматизацию отчётов. Но главный драйвер изменений — специалисты, которые умеют ставить правильные вопросы и грамотно интерпретировать данные. Пройдя такие тесты и освоив логику работы с HR-метриками, вы делаете первый шаг к тому, чтобы стать именно таким специалистом.

👉 Если вы ответили на все вопросы верно, оставьте комментарий: где я, возможно, допустила ошибку в разборе, и какие ответы на ваш взгляд точнее. Так мы вместе сделаем этот материал ещё полезнее.

От линейных моделей до ансамблей как оценивать качество ML-моделей и избегать переобучения

2025-08-16T19:18:01.801Z

Машинное обучение умеет больше, чем просто угадывать категории. На продвинутом уровне мы говорим о байесовских подходах, градиентном бустинге, оптимизации гиперпараметров и оценке неопределённости прогнозов. Всё это — инструменты, которые позволяют строить надёжные и интерпретируемые модели для сложных бизнес-задач.

В этой статье мы подробно разберём тест продвинутого уровня и подчеркнём, на чём чаще всего ошибаются даже опытные специалисты.

Эти знания нужны уже не просто для того, чтобы устроиться в IT, а чтобы претендовать на позиции инженеров машинного обучения, продакт-аналитиков в больших компаниях и специалистов по предиктивной аналитике.

Вся навигация по материалам в Telegram 👇🏻

Вопрос 1. В задаче регрессии функцию потерь, измеряющую отклонение предсказанных значений A(x) от правильных значений y, изменили: вместо квадрата разности (A(x) – y)² стали использовать абсолютное значение разности |A(x) – y|. Как изменится поведение модели при обучении с такой функцией потерь?

Варианты:

1. Малые отклонения будут игнорироваться

2. Ухудшится интерпретируемость результата

3. Результат ухудшится для целевой переменной с ассиметричным распределением

4. Снизится чувствительность к выбросам

5. Выбросы будут влиять сильнее

Когда мы используем (A(x) – y)² (MSE, среднеквадратичную ошибку), большие ошибки становятся ещё больше (они возводятся в квадрат). Поэтому модель сильно реагирует на выбросы — пытается подогнать предсказания так, чтобы минимизировать эти большие квадраты.

Когда же используем |A(x) – y| (MAE, среднюю абсолютную ошибку), то большие ошибки не «раздуваются» так сильно — абсолютное отклонение растёт линейно.
В результате:

Модель меньше «боится» выбросов, она не пытается всеми силами подогнать результат под экстремальные значения.
То есть чувствительность к выбросам снижается.

Теперь проверим варианты:

Малые отклонения не будут игнорироваться — наоборот, они будут влиять так же.
Интерпретируемость MAE даже проще: это «средняя ошибка в исходных единицах», например рублях.
Ассиметричность распределения целевой переменной влияет меньше.
Снижается чувствительность к выбросам.
Не будет так, что выбросы будут влиять сильнее — наоборот, меньше.

Выбранный ответ: Снизится чувствительность к выбросам

Вопрос 2. Как можно обнаружить проблему недообучения в модели линейной регрессии?

Варианты:

1. Модель показывает низкую точность как на обучающих, так и на тестовых данных

2. У модели высокий коэффициент детерминации R²

3. Ошибки на тестовых данных полностью отсутствуют

4. Модель демонстрирует высокую точность на обучающей выборке

5. Ошибка на тестовых данных значительно выше, чем на обучающих

Недообучение (underfitting) — это когда модель слишком простая, чтобы уловить закономерности данных.

Она плохо работает и на обучающих, и на тестовых данных — то есть вообще не справляется с задачей.

Теперь по вариантам:

Низкая точность и на обучающих, и на тестовых данных — это как раз классическая картина недообучения.
Высокий R² говорит наоборот о хорошем объяснении вариации.
Ошибки, полностью отсутствующие на тесте, невозможны (это фантастика).
Высокая точность на обучающей выборке при низкой на тестовой — это переобучение, а не недообучение.
Ошибка на тестовых данных значительно выше, чем на обучающих — снова симптом переобучения.

Выбранный ответ: Модель показывает низкую точность как на обучающих, так и на тестовых данных

Вопрос 3. Модель логистической регрессии обучена на выборке с сильным дисбалансом классов (например, 95% одного класса). При этом значение Accuracy оказалось высоким. Какое поведение модели мы можем ожидать в такой ситуации?

Варианты:

1. Вероятности предсказания будут точно отражать реальные распределения

2. Модель автоматически применяет взвешивание классов

3. Модель склонна предсказывать преобладающий класс, игнорируя миноритарный

4. Логистическая регрессия устойчива к дисбалансу

5. Высокая Accuracy подтверждает хорошее качество модели

Представь, что у тебя 95% пациентов здоровы, а 5% больны. Модель может просто всегда говорить: «пациент здоров», и угадает 95% случаев — Accuracy будет высокой.
Но при этом она полностью проигнорирует больных, то есть меньшинство.

Это стандартная проблема при дисбалансе классов — Accuracy в таких случаях обманчиво высока, а модель просто «ленится» искать редкие случаи.

По вариантам:

Вероятности вряд ли будут хорошо отражать реальные распределения — модель может «сместиться» в сторону преобладающего класса.
Логистическая регрессия сама по себе не применяет взвешивание классов, это нужно задавать явно.
Скорее всего модель будет предсказывать преобладающий класс, почти игнорируя миноритарный.
Логистическая регрессия не устойчива к дисбалансу.
Высокая Accuracy не всегда означает качество при дисбалансе.

Выбранный ответ: Модель склонна предсказывать преобладающий класс, игнорируя миноритарный

Вопрос 4. Линейный дискриминантный анализ предполагает, что классы имеют одинаковые ковариационные матрицы. Какие последствия могут возникнуть, если это предположение нарушено?

Варианты:

1. Модель начнет объединять схожие классы в один

2. Модель автоматически скорректирует ковариации под каждый класс

3. Ошибки классификации будут равномерно распределены между классами

4. Модель может построить неэффективную границу, ухудшая классификацию

5. LDA начнет вести себя как метод ближайших соседей

ЛДА строит линейные границы между классами, исходя из предположения, что классы имеют одинаковую «форму» распределения (одинаковые ковариационные матрицы), но разные центры.

Если на практике это не так (например, один класс вытянут, а другой круглый), то ЛДА не сможет правильно «подогнать» границу, потому что она будет линейной, а данных — нет.
Это значит, что:

модель может построить неэффективную (неудачную) границу, которая плохо отделит классы,
и качество классификации снизится.

Теперь по вариантам:

Модель не начнет объединять классы в один.
ЛДА не скорректирует ковариации автоматически — это сделает QDA (Quadratic Discriminant Analysis), но не LDA.
Ошибки не будут равномерны, наоборот — в более «неудобных» классах ошибок будет больше.
Будет построена неэффективная граница, ухудшающая классификацию.
LDA не превратится в k-NN.

Выбранный ответ:

Модель может построить неэффективную границу, ухудшая классификацию

Вопрос 5. Почему деревья решений склонны к переобучению на обучающей выборке, особенно при большой глубине дерева?

Варианты:

1. Ошибки в обучении происходят из-за недостаточной глубины

2. Полные деревья могут идеально подстроиться под обучающую выборку, запоминая шум

3. Переобучение связано с тем, что деревья плохо обрабатывают числовые признаки

4. При большой глубине деревья теряют способность учитывать редкие события

5. Глубокие деревья уменьшают переобучение за счёт учёта всех признаков

Дерево решений строит последовательные правила, чтобы «разбить» данные на чистые группы.
Если разрешить дереву расти очень глубоко, оно может:

идеально запомнить обучающую выборку, включая случайные шумы и выбросы,
о есть просто «зубрить», а не учиться выявлять общие закономерности.

Такое поведение называется переобучением (overfitting).

Теперь по вариантам:

Недостаточная глубина ведёт наоборот к недообучению.
Полные (глубокие) деревья действительно могут идеально подстроиться, запоминая шум.
Плохая обработка числовых признаков не причина переобучения.
При большой глубине деревья наоборот слишком точно учитывают даже редкие события.
Глубокие деревья увеличивают, а не уменьшают переобучение.

Выбранный ответ:

Полные деревья могут идеально подстроиться под обучающую выборку, запоминая шум

Вопрос 6. Какие последствия могут возникнуть при использовании наивного байесовского классификатора на разреженных данных, содержащих редкие, но значимые признаки?

Варианты:

1. Метод всегда покажет высокую точность, независимо от распределения признаков

2. Классификатор увеличит вероятность редких признаков для повышения их значимости

3. Метод не сможет работать с разреженными данными и выдаст ошибку

4. Метод полностью проигнорирует редкие признаки, сконцентрировавшись на частых

5. Метод может недооценить влияние редких признаков, что приведет к снижению точности классификации

Наивный байесовский классификатор оценивает вероятность класса исходя из умножения вероятностей признаков.

Если признаки редкие, то их вероятности малы.
При перемножении они могут очень быстро стать почти нулевыми, что приведет к «затиранию» их влияния.
В реальности метод не полностью их игнорирует, но сильно недооценивает их влияние, что снижает точность.

Поэтому вариант «полностью проигнорирует» некорректен буквально, а вот «может недооценить влияние редких признаков, что приведет к снижению точности» — максимально точное описание.

Теперь по вариантам:

Всегда высокая точность — очевидно неправда.
Наоборот, не увеличит вероятность редких признаков.
Метод спокойно работает с разреженными данными (часто используется для текстов).

«Полностью проигнорирует» — не совсем корректно, скорее он недооценит.

Недооценка редких признаков приведет к снижению точности.

Выбранный ответ:

Метод может недооценить влияние редких признаков, что приведет к снижению точности классификации

Вопрос 7. При применении k-NN вы заметили, что один из классов доминирует в ближайших соседях из-за его численного превосходства в данных. Какое последствие это может иметь?

Варианты:

1. Метод скорректирует веса автоматически для балансировки классов

2. Доминирующий класс будет разбит на подклассы

3. Это означает, что параметры модели подобраны оптимально

4. Это увеличит точность классификации на редких классах

5. Модель будет склонна предсказывать более частый класс, игнорируя редкие

Метод k-NN (k ближайших соседей) работает очень просто:

смотрит на k ближайших объектов в данных,
и отдаёт класс, который встречается среди них чаще всего.

Если один класс просто чаще встречается в обучающих данных, то он будет с высокой вероятностью встречаться и среди ближайших соседей, даже если входящий объект принадлежит к редкому классу.
В результате модель будет:

склонна отдавать этот частый класс,
игнорируя редкие классы, у которых мало представителей.

По вариантам:

1. Метод сам не балансирует веса (это надо специально задавать).

2. Не будет дробить класс на подклассы.

3. Наоборот, это признак плохого подбора данных или параметров.

4. Это снизит, а не повысит точность на редких классах.

5. Модель склонна предсказывать более частый класс, игнорируя редкие.

Выбранный ответ:

Модель будет склонна предсказывать более частый класс, игнорируя редкие

Вопрос 8. Вы рассматриваете использование метода опорных векторов (SVM) для классификации. Данные содержат много выбросов, а граница между классами размыта. Как можно охарактеризовать поведение метода SVM в такой ситуации?

Варианты:

1. SVM автоматически удаляет выбросы перед построением гиперплоскости

2. Метод чувствителен к шуму, но всегда точно разделяет классы с помощью линейного ядра

3. SVM в любом случае строит жёсткую границу, поэтому выбросы не влияют на результат

4. Метод с мягким зазором позволяет частично учитывать выбросы и лучше работает при пересечении классов

5. При наличии шумов SVM не применяется, так как требует идеального разделения классов

SVM действительно известен своей чувствительностью к выбросам, но именно для этого у него есть так называемый мягкий зазор (soft margin).

Этот зазор позволяет немного нарушить идеальное разделение, допуская, что некоторые точки окажутся не на той стороне гиперплоскости.
Это помогает SVM лучше работать на данных с шумом или пересекающимися классами, чем классический «жёсткий» SVM без допуска.

Теперь по вариантам:

1. SVM не удаляет выбросы автоматически.

2. Линейный SVM не всегда может точно разделить шумные данные.

3. Жёсткая граница без мягкого зазора как раз очень плохо справляется с шумом.

4. SVM с мягким зазором учитывает выбросы и может их частично пропускать, что помогает при пересечении классов.

5. SVM не требует идеального разделения, именно поэтому и был придуман soft margin.

Выбранный ответ:

Метод с мягким зазором позволяет частично учитывать выбросы и лучше работает при пересечении классов

Вопрос 9. Почему интерпретируемость случайного леса (Random Forest) значительно ниже по сравнению с одиночным деревом?

Варианты:

1. Random Forest требует обязательной стандартизации данных, что усложняет интерпретацию

2. Random Forest игнорирует важные признаки, фокусируясь только на шумовых данных

3. Деревья в Random Forest глубже, чем одиночное дерево, поэтому их сложнее визуализировать

4. Random Forest использует только линейные комбинации признаков, что делает его менее прозрачным

5. Ансамбль из сотен деревьев не дает единой четкой логики принятия решений, усредняя множество сложных правил

Одиночное дерево решений можно легко «нарисовать» и показать путь принятия решения:

«если возраст > 30 и доход > 100 тыс, тогда класс 1».

А вот Random Forest состоит из сотен (или тысяч) деревьев, каждое из которых строит свои условия и решения.

Затем все эти деревья голосуют, а итоговое решение — это результат голосования.

Из-за этого:

нельзя вывести единого четкого набора правил, как для одного дерева.
мы теряем интерпретируемость — не можем просто так объяснить «почему именно этот клиент попал в этот класс».

Теперь по вариантам:

1. Стандартизация для деревьев обычно не требуется.

2. Random Forest наоборот снижает влияние шумовых данных.

3. Глубина не является причиной низкой интерпретируемости, чаще лес даже из неглубоких деревьев.

4. Random Forest не использует только линейные комбинации.

5. Причина в том, что ансамбль из сотен деревьев не даёт единой четкой логики, усредняя множество сложных правил.

Выбранный ответ:

Ансамбль из сотен деревьев не дает единой четкой логики принятия решений, усредняя множество сложных правил

Вопрос 10. Какой способ поможет улучшить персонализацию рекомендаций в гибридной системе?

Варианты:

1. Исключение метаданных из анализа

2. Применение случайных подвыборок пользователей

3. Использование одного метода без дополнительных признаков

4. Учет только новых объектов в системе

5. Совмещение коллаборативной и контентной фильтрации

Гибридная рекомендательная система — это система, которая объединяет несколько подходов для улучшения рекомендаций.
Обычно берут:

контентную фильтрацию (рекомендует товары, похожие на те, что тебе уже нравились, по их характеристикам), и
коллаборативную фильтрацию (смотрит, что любят пользователи с похожим на твой вкус).

Объединяя их, система может давать более персонализированные и качественные рекомендации, чем любой из этих методов по отдельности.
Это как если бы твой плейлист формировался одновременно по похожим исполнителям и по тому, что слушают другие люди с твоими интересами.

Теперь по вариантам:

1. Исключение метаданных только ухудшит качество.

2. Случайные подвыборки пользователей не связаны с персонализацией.

3. Один метод без дополнительных признаков — наоборот, меньше информации.

4. Учет только новых объектов — это узко.

5. Совмещение коллаборативной и контентной фильтрации — классический способ построить гибридную систему для улучшения персонализации.

Выбранный ответ:

Совмещение коллаборативной и контентной фильтрации

Вопрос 11. Каким является основное преимущество решетчатого поиска (Grid Search) при оптимизации гиперпараметров?

Варианты:

1. Возможность гибкого поиска без строгой сетки

2. Быстрая обработка больших пространств параметров

3. Полное исследование всех возможных комбинаций гиперпараметров

4. Низкая вычислительная сложность

5. Эффективность при большом количестве гиперпараметров

Grid Search — это такой «тупой, но надёжный» способ подбора гиперпараметров.
Он просто:

строит сетку всех возможных комбинаций значений гиперпараметров, которые мы указали,
и перебирает их все, обучая модель на каждом варианте.

Его основное преимущество в том, что мы гарантированно проверим все эти комбинации, и точно найдем лучшую среди них для заданной сетки.

Теперь по вариантам:

1. Нет гибкости без строгой сетки — наоборот, Grid Search работает строго по сетке.

2. Он не быстрый, особенно при большом числе параметров (комбинаторный взрыв).

3. Зато он гарантирует полное исследование всех возможных комбинаций, заданных в сетке.

4. Низкой вычислительной сложности нет, наоборот — это главный его минус.

5. И при большом числе параметров становится очень неэффективен.

Выбранный ответ:

Полное исследование всех возможных комбинаций гиперпараметров

Вопрос 12. Вы хотите восстановить производную функции по экспериментальным данным, содержащим шум. С помощью какого решения вы сможете это сделать?

Варианты:

1. Использование метода главных компонент (РСA) для уменьшения шума перед вычислением производной

2. Кластеризация данных методом k-средних перед вычислением производной

3. Сглаживание данных сплайнами или ядерными методами с последующим численным дифференцированием

4. Наивное численное дифференцирование (например, метод конечных разностей) без предварительной обработки

5. Линейная регрессия на исходные данные с взятием производной от уравнения регрессии

Когда в данных есть шум, а нам нужно найти производную, то прямое численное дифференцирование (например, методом конечных разностей) очень плохо работает. Почему?
Потому что даже малый шум в данных сильно усиливается при вычислении производной. В итоге получим не гладкую кривую, а рваную и скачущую.

Лучшее, что можно сделать, — сначала сгладить данные, убрав шум, а потом уже взять производную.
Это делается с помощью:

Ø сглаживания сплайнами (подгоняем плавную кривую),

Ø или ядровыми методами (например, сглаживающее окно),
после чего вычисляем производную от полученной сглаженной кривой.

Теперь по вариантам:

1. Использование PCA перед вычислением производной в первую очередь применяется для уменьшения размерности, но не решает задачу сглаживания в одном временном ряду.

2. Кластеризация k-средних не имеет отношения к сглаживанию и нахождению производных.

3. Сглаживание данными сплайнами или ядровыми методами — это как раз классическое решение, чтобы аккуратно убрать шум и потом безопасно найти производную.

4. Наивное численное дифференцирование без предварительной обработки только усилит шум.

5. Линейная регрессия и нахождение производной от уравнения регрессии подходит для общей трендовой зависимости, но в явном виде это не лучший выбор для шума и локальной производной.

Выбранный ответ:
Сглаживание данных сплайнами или ядровыми методами с последующим численным дифференцированием.

Вопрос 13. Какая часть ошибки в bias-variance decomposition считается неизбежной и не может быть устранена улучшением модели?

Варианты:

1. Ошибка из-за шума в данных (Noise Error)

2. Ошибка из-за разброса (Variance Error)

3. Ошибка в выборе метрики модели

4. Ошибка из-за смещения (Bias Error)

5. Сумма смещения и разброса

Когда мы разлагаем ошибку модели на составляющие (bias-variance decomposition), она обычно представляется так:

Ошибка из-за смещения (Bias Error) — ошибка, связанная с тем, что модель слишком простая и не способна уловить закономерность (например, линейная модель пытается аппроксимировать синус). Ее можно уменьшить, сделав модель более гибкой.
Ошибка из-за разброса (Variance Error) — ошибка, которая возникает из-за того, что модель слишком сильно реагирует на конкретные данные (переобучается). Ее можно уменьшить за счет регуляризации, больше данных или уменьшения сложности.
Ошибка из-за шума в данных (Noise Error, Irreducible Error) — это часть ошибки, которая связана с естественной случайностью или ошибками измерений в данных, и она неизбежна. Сколько бы мы ни улучшали модель, убрать этот шум невозможно, если он реально есть в природе.

Теперь по вариантам:

1. Ошибка из-за смещения и ошибка из-за разброса — могут быть уменьшены путем изменения модели.

2. Сумма смещения и разброса тоже может изменяться.

3. Ошибка в выборе метрики — не часть bias-variance decomposition.

4. А вот ошибка из-за шума в данных (Noise Error) — это та самая неизбежная часть, которую улучшением модели не устранить.

Выбранный ответ:
Ошибка из-за шума в данных (Noise Error).

Вопрос 14. Вы обучаете модель классификации и хотите выполнить отбор признаков для повышения её обобщающей способности. Какой из предложенных подходов соответствует отбору признаков с использованием модели?

Варианты:

1. Использовать веса коэффициентов линейной модели для оценки важности признаков

2. Применить метод главных компонент (РСА) для снижения размерности

3. Удалить признаки с низкой дисперсией

4. Исключить признаки, имеющие пропущенные значения

5. Стандартизировать все числовые признаки перед обучением

Есть разные способы отбора признаков:

Фильтрационные методы (filter) — без использования модели. Например, удаление признаков с низкой дисперсией, удаление признаков с большим количеством пропусков или высокими корреляциями между собой.
Методы снижения размерности (PCA) — тоже не используют модель для отбора признаков, они преобразуют признаки в новые оси.
Отбор признаков с использованием модели (embedded или wrapper) — когда мы строим модель и по её результатам решаем, какие признаки оставить. Например, смотрим на веса коэффициентов в линейной регрессии или важности признаков в деревьях.

Теперь по вариантам:

1. Использовать веса коэффициентов линейной модели для оценки важности признаков — это и есть отбор с использованием модели (embedded).

2. PCA не относится к отбору на основе модели — это метод преобразования.

3. Удаление признаков с низкой дисперсией — статистический подход (filter), без обучения модели.

4. Исключение признаков с пропущенными значениями — просто предобработка.

5. Стандартизация — подготовка признаков, но не их отбор.

Выбранный ответ:
Использовать веса коэффициентов линейной модели для оценки важности признаков.

Вопрос 15. Для данных анализов пациентов требуется оценить уверенность прогноза заболевания. Какой метод лучше подходит для этой задачи?

Варианты:

1. Логистическая регрессия с L2

2. Ensemble из градиентного бустинга и логистической регрессии

3. Дерево решений

4. Bayesian Neural Network

5. K-Nearest Neighbors

В этом вопросе важно не просто предсказать класс (болен / не болен), а именно оценить уверенность прогноза, то есть получить прогноз вместе с вероятностью и понять, насколько модель «сомневается».

Логистическая регрессия сразу даёт вероятности принадлежности к классам, но её вероятности часто бывают плохо откалиброваны.
Ensemble из бустинга и логистической регрессии чаще оптимизирован на точность классификации, но для интерпретации вероятностей не лучший.
Деревья решений дают прогнозы классов, но вероятность у них не очень надёжна.
Bayesian Neural Network (байесовская нейронная сеть) специально строится для того, чтобы моделировать распределение вероятностей предсказания, учитывая априорные и апостериорные распределения параметров. Это позволяет не просто сказать: «вероятность болезни 0.7», но и оценить неопределённость этой вероятности.
K-NN даёт долю ближайших соседей данного класса, что не даёт строгой вероятности и не учитывает априорную неопределённость.

Для медицинских прогнозов, где важна именно оценка уверенности, Байесовские методы считаются наиболее подходящими.

Выбранныйответ:
Bayesian Neural Network.

Заключение

После разбора теста продвинутого уровня вам станет легче понимать, почему важна калибровка вероятностей, чем хороши байесовские нейронные сети для оценки уверенности, как устроена оптимизация Grid Search и что делать с разбросом в данных.
Это даёт вам возможность выходить на проекты, где важно не просто «получить модель», а строить обоснованные прогнозы, управлять рисками и давать бизнесу понятные ответы. А значит — открывает путь к высоким позициям и интересным задачам в сфере AI и ML.

Машинное обучение для практиков модели, метрики, ансамбли и рекомендации

2025-08-16T19:16:39.419Z

Машинное обучение — это не магия и не «чёрный ящик», а строгая математика, которая помогает находить паттерны там, где человек быстро запутается. На среднем уровне знаний появляются вопросы про переобучение, регуляризацию, выбор метрик и работу с несбалансированными классами.

В этой статье мы детально разберём тест второго уровня, объясним, почему деревья решений склонны к переобучению, как влияет bias-variance tradeoff и что делать с шумными данными.

Эти знания пригодятся аналитикам, дата-специалистам и разработчикам, которые хотят перейти от простых дашбордов к автоматическому прогнозированию или построению рекомендательных систем.

Вся навигация по материалам в Telegram 👇🏻

Вопрос 1. Какое утверждение верно для обучения с учителем (supervised learning), но неверно для обучения без учителя (unsupervised learning)?

Варианты:

1. Может применяться только для задач классификации

2. Не требует разделения данных на обучающую и тестовую выборки

3. Используется для поиска скрытых закономерностей в данных

4. Требует одинакового количества примеров для каждого класса

5. Модель обучается на размеченных данных, где каждому примеру соответствует целевая переменная

Обучение с учителем — это когда у нас есть примеры и мы знаем правильный ответ (например: фото собаки и подпись «собака»). Модель учится по этим парам «пример — ответ».

Обучение без учителя — это когда мы просто даём кучу примеров без ответов и модель сама ищет закономерности.

Разберём варианты:

1. Может применяться только для задач классификации — неверно, т.к. supervised learning используют также для регрессии (предсказывать числа).

2. Не требует разделения на train/test — неверно, supervised обычно требует разделения на обучающую и тестовую выборку для проверки.

3. Используется для поиска скрытых закономерностей — это как раз цель unsupervised learning, а не supervised.

4. Требует одинакового числа примеров для каждого класса — это вообще не требование supervised learning, можно учить и на несбалансированных выборках (будут другие подходы для борьбы с этим, но не требование).

5. Модель обучается на размеченных данных, где каждому примеру соответствует целевая переменная — да, это и есть ключевое различие supervised vs unsupervised. В unsupervised таких целевых переменных нет.

Выбранный ответ:

Модель обучается на размеченных данных, где каждому примеру соответствует целевая переменная

Вопрос 2. Что измеряет метрика Recall (полнота) в задаче бинарной классификации?

Варианты:

1. Среднюю ошибку модели на тестовой выборке

2. Долю истинно положительных предсказаний среди всех объектов, предсказанных как положительные

3. Количество ошибок модели на тренировочных данных

4. Соотношение ложных срабатываний к общему количеству прогнозов

5. Долю истинно положительных предсказаний среди всех фактически положительных объектов

Представь, что у тебя есть задачи «находить больных» среди всех пациентов.

Recall (полнота) отвечает на вопрос:

«Из всех реально больных (положительных случаев) скольких мы нашли?»

Формула:

Recall = TP / (TP+FN)

где:

TP — истинно положительные (мы сказали «болен» и он действительно болен),
FN — пропущенные больные (мы сказали «здоров», а он болен).

Теперь по вариантам:

· Средняя ошибка — это скорее MSE / RMSE для регрессии, не для Recall.

· Доля TP среди всех предсказанных положительных — это Precision, а не Recall.

· Количество ошибок на тренировочных данных — это просто ошибка, не Recall.

· Соотношение ложных срабатываний — тоже не Recall.

· Доля истинно положительных предсказаний среди всех фактически положительных объектов — идеально описывает Recall.

Выбранный ответ: Долю истинно положительных предсказаний среди всех фактически положительных объектов

Вопрос 3. Какой из признаков обязательно должен быть исключён или преобразован перед использованием в линейной регрессии?

Варианты:

1. Отсутствующие значения, заменённые медианой

2. Числовой признак, нормализованный от 0 до 1

3. Положительная корреляция между двумя признаками

4. Категориальный признак с несколькими уникальными значениями

5. Нормальное распределение целевой переменной

Представим, что ты строишь модель, чтобы предсказывать цену квартиры.

Линейная регрессия понимает только числа.
Если у тебя есть категориальный признак, например «Город» = {Москва, СПб, Казань}, то регрессия просто не сможет с этим работать, пока ты не превратишь это в числа (например, через one-hot encoding).

Теперь по вариантам:

· Отсутствующие значения, уже заменённые медианой — их уже обработали, линейная регрессия это «ест».

· Числовой признак, нормализованный — отлично подходит для регрессии.

· Положительная корреляция — это просто зависимость, не мешает напрямую.

· Категориальный признак с несколькими уникальными значениями — вот его обязательно надо кодировать (one-hot или label encoding). Если оставить в виде строк, регрессия не сможет их обработать.

· Нормальное распределение целевой переменной не требуется для самой регрессии (требуется нормальность ошибок для доверительных интервалов).

Выбранный ответ: Категориальный признак с несколькими уникальными значениями

Вопрос 4. Когда логистическая регрессия применима?

Варианты:

1. Для кластеризации пользователей по их поведению

2. Для восстановления пропущенных пикселей в изображении

3. Для прогнозирования стоимости акций через 1 год

4. Для предсказания возраста человека по его фотографии

5. Для предсказания вероятности дефолта клиента банка

Логистическая регрессия — это метод для предсказания вероятности события, которое имеет два возможных исхода (например, «да/нет», «будет дефолт / не будет», «клиент уйдёт / не уйдёт»).

По вариантам:

· Кластеризация — это вообще задача без учителя, логистическая регрессия тут не подходит.

· Восстановление пикселей — это задача регрессии или генерации, но не бинарной классификации.

· Прогноз стоимости акций через год — задача регрессии, нужен непрерывный результат.

· Предсказание возраста — это тоже регрессия (число лет).

· Предсказание вероятности дефолта — это типичная задача для логистической регрессии: «будет дефолт / не будет», плюс модель сразу даёт вероятность.

Выбранный ответ: Для предсказания вероятности дефолта клиента банка

Вопрос 5. Вы обучили модель Линейного дискриминантного анализа (LDA) для задачи классификации четырех категорий клиентов. Какое максимальное количество линейно-независимых компонентов (новых признаков) может получить модель после преобразования?

Варианты:

1. Столько же, сколько исходных признаков

2. Четыре компоненты (по числу классов)

3. Три компоненты (число классов минус один)

4. Компоненты не используются в LDA

5. Одна компонента

ЛДА (LDA) — это метод уменьшения размерности, который пытается максимально отделить классы.
Есть важное правило для LDA:

Максимальное число новых признаков (компонент), которое можно получить после преобразования = (число классов - 1).

Это значит:

Если есть 4 категории клиентов → максимум можно получить 3 линейно-независимые компоненты.
Почему не 4? Потому что при разделении K классов, чтобы их полностью различить в пространстве, достаточно (K-1) направлений.

Выбранный ответ: Три компоненты (число классов минус один)

Вопрос 6. Как называется проблема, при которой дерево решений запоминает все особенности обучающей выборки, включая шум?

Варианты:

1. Недообучение

2. Случайное разбиение

3. Регрессия

4. Кластеризация

5. Переобучение

Представь, что дерево решений старается слишком сильно — оно так точно «выучивает» все данные, включая случайные колебания и шум, что на новых данных оно начинает ошибаться.

Это как если студент заучил билеты дословно, включая ошибки печати, и не может ответить на похожие, но слегка изменённые вопросы.

Такое поведение называется переобучение (overfitting).

Теперь по вариантам:

· Недообучение (underfitting) — это когда модель слишком простая и даже на обучающих данных плохо справляется.

· Случайное разбиение — это просто процедура разделения данных на train/test, не ошибка модели.

· Регрессия и кластеризация — это типы задач, не проблемы модели.

· Переобучение — это и есть ситуация, когда дерево запомнило всё, включая шум.

Выбранный ответ: Переобучение

Вопрос 7. Вы планируете использовать наивный байесовский классификатор для классификации отзывов пользователей как положительные или отрицательные. Какое ограничение этого метода следует учитывать при проектировании модели?

Варианты:

1. Он предполагает независимость признаков друг от друга, что редко выполняется на практике

2. Он требует предварительного уменьшения размерности

3. Он всегда даёт лучшее качество, чем деревья решений

4. Он не работает с категориальными признаками

5. Он может использовать только числовые признаки

Наивный байесовский классификатор работает по простой формуле вероятностей, где он считает, что каждый признак влияет на результат независимо от других признаков. Это очень сильное допущение (называется наивным предположением о независимости), которое на практике часто не выполняется, особенно в тексте, где слова связаны между собой.

По вариантам:

· Он предполагает независимость признаков друг от друга, что редко выполняется на практике — это как раз его ключевое ограничение.

· Не требует уменьшения размерности — байес легко работает даже с большим числом признаков (слова в тексте — типичный пример).

· Не всегда даёт лучшее качество, чем деревья решений — наоборот, иногда хуже.

· Работает и с категориальными признаками, например в задаче фильтрации спама.

· Может использовать категориальные и числовые признаки.

Выбранный ответ:

Он предполагает независимость признаков друг от друга, что редко выполняется на практике

Вопрос 8. Для применения метода k-ближайших соседей на текстовых данных лучшей метрикой расстояния будет:

Варианты:

1. Евклидово расстояние

2. Косинусное расстояние

3. Расстояние Махаланобиса

4. Расстояние Хэмминга

5. Манхэттенское расстояние

Когда мы сравниваем тексты, чаще всего представляем их в виде больших векторов (например, частота слов).

Евклидово и Манхэттенское расстояния плохо работают на таких разреженных и высокоразмерных данных (например, векторы словаря могут иметь тысячи нулей).
Хэмминг используется для бинарных строк одинаковой длины (например, битовые коды), а не для текстов с частотами.
Махаланобис оценивает расстояние с учетом ковариации признаков, но для текстов и огромных разреженных матриц не применяется.
Косинусное расстояние (по сути, мера близости углов между векторами) — идеально подходит для текстов, т.к. смотрит не на абсолютную величину, а на то, насколько тексты «направлены» в одну сторону (одни и те же слова встречаются пропорционально).

Выбранный ответ: Косинусное расстояние

Вопрос 9. Какова основная идея метода опорных векторов?

Варианты:

1. Случайное разбиение выборки

2. Построение дерева решений

3. Предсказание вероятности события

4. Уменьшение размерности данных

5. Нахождение гиперплоскости, максимально разделяющей классы

Метод опорных векторов (SVM) — это алгоритм, который:

ищет линию (или в многомерном пространстве — гиперплоскость),
которая лучше всего разделяет разные классы данных,
и делает это так, чтобы расстояние (запас) от ближайших точек до этой линии было максимальным (так модель становится более устойчивой к ошибкам).

Разберём варианты:

Случайное разбиение выборки — это подготовительный этап для обучения/валидации.
Построение дерева решений — это метод decision tree.
Предсказание вероятности события — делает логистическая регрессия и другие вероятностные модели.
Уменьшение размерности — это PCA или LDA.
Нахождение гиперплоскости, максимально разделяющей классы — это и есть суть SVM.

Выбранный ответ:

Нахождение гиперплоскости, максимально разделяющей классы

Вопрос 10. Какой эффект достигается за счёт объединения нескольких деревьев решений в случайный лес?

Варианты:

1. Увеличение переобучения

2. Повышение стабильности и точности предсказаний

3. Ускорение работы модели

4. Уменьшение количества признаков

5. Исключение категориальных переменных

Случайный лес (Random Forest) — это метод, где строят много деревьев решений на разных случайных подвыборках данных и признаков, а потом усредняют (или берут большинство голосов).

Зачем?

Одно дерево решений часто переобучается (запоминает данные слишком детально).
Но если взять много деревьев, каждое «ошибается» по-своему. Когда они голосуют вместе, ошибки взаимно гасятся.
Это повышает стабильность и точность предсказаний, делает модель менее чувствительной к случайным колебаниям в данных.

Теперь по вариантам:

Увеличение переобучения — наоборот, лес снижает переобучение.
Повышение стабильности и точности предсказаний — главная цель Random Forest.
Ускорение работы — обычно наоборот, медленнее, так как много деревьев.
Уменьшение количества признаков — не про лес, хотя он случайно отбирает подмножества признаков.
Исключение категориальных переменных — не связано напрямую с лесом.

Выбранный ответ:

Повышение стабильности и точности предсказаний

Вопрос 11. Какой тип рекомендательной системы делает предложения на основе предпочтений других пользователей с похожим поведением?

Варианты:

1. Коллаборативная фильтрация

2. Фильтрация по новизне

3. Контентная фильтрация

4. Гибридная система

5. Случайная фильтрация

Представь, что ты смотришь фильмы на платформе, а она тебе говорит:

«Пользователи, которые смотрели и полюбили те же фильмы, что и ты, также оценили вот эти фильмы.»

Это и есть коллаборативная фильтрация — она рекомендует, исходя из похожести пользователей по их поведению, то есть по их оценкам, лайкам, покупкам.

Разберём остальные варианты:

Контентная фильтрация — делает предложения на основе характеристик самих объектов («ты любишь драмы — вот ещё драма»), не учитывая других пользователей.
Фильтрация по новизне — просто показывает новые товары.
Гибридная система — это сочетание коллаборативной и контентной, но здесь вопрос прямо про «основе предпочтений других пользователей».
Случайная фильтрация — такого подхода в ML нет.

Выбранный ответ: Коллаборативная фильтрация

Вопрос 12. Какой метод оптимизации гиперпараметров позволяет последовательно выбирать новые параметры, основываясь на результатах предыдущих итераций и вероятностной модели качества?

Варианты:

1. Градиентный спуск

2. Случайный поиск (Random Search)

3. Байесовская оптимизация (Bayesian Optimization)

4. Генетический алгоритм

5. Решетчатый поиск (Grid Search)

Grid Search и Random Search просто перебирают значения (решётка или случайно), они не используют результаты прошлых запусков для выбора следующих точек.
Градиентный спуск используется для обучения самих моделей (настройки весов), но не для поиска гиперпараметров, и точно не строит вероятностные модели.
Генетические алгоритмы эволюционно отбирают комбинации, но не на основе строгой вероятностной модели ошибки.
Байесовская оптимизация именно для этого и создана:

она строит вероятностную модель функции ошибки,

на её основе выбирает следующую точку для теста,

постепенно улучшает предсказания о том, где могут быть лучшие гиперпараметры.

Выбранный ответ:

Байесовская оптимизация (Bayesian Optimization)

Заключение

Вы разобрали задачи среднего уровня сложности и поняли, как вести себя с реальными данными: сглаживать шум, избегать переобучения, правильно подбирать функции потерь и понимать важность разброса и смещения. Теперь вы уже не просто «знаете про машинное обучение», а умеете задавать правильные вопросы к данным и результатам моделей. Это критический навык для того, чтобы расти до позиции дата-сайентиста или тимлида аналитиков и принимать решения, которые влияют на бизнес.

Основы машинного обучения и метрики оценки моделей

2025-08-16T19:15:24.996Z

Представьте, что компьютер учится распознавать, кто на фото — кот или собака, или предсказывает, пойдет ли завтра дождь. Это и есть машинное обучение: программа ищет закономерности в данных, чтобы потом делать выводы на новых примерах.

В этой статье мы разберём тест начального уровня по машинному обучению.

Эти базовые знания пригодятся тем, кто работает с данными, хочет автоматизировать рутинные решения или планирует устроиться в IT на позицию аналитика, тестировщика или младшего дата-специалиста.

Вся навигация по материалам в Telegram 👇🏻

Вопрос 1. Для каких из следующих задач может быть подходящим алгоритмом кластеризация методом K-средних?

Варианты:

1. По профилю пользователя на сайте определить мужчина это или женщина

2. Для множества электронных писем определить популярные темы

3. Получив набор новостных статей с различных новостных сайтов, выяснить являются ли они новостями культуры

4. Для множества данных о ценах акций предсказать будущую цену

5. Для сортировки элементов массива по возрастанию

Представь, что у нас есть куча разноцветных шариков, и мы хотим разложить их по кучкам так, чтобы в одной кучке были похожие друг на друга. Вот это и есть идея кластеризации.

Метод K-средних («K-means») берёт данные и пытается разбить их на K групп (кластеров), основываясь на том, как они «похожи» между собой.

K-средних — это алгоритм без учителя. То есть ему не говорят заранее, где какие ярлыки (типы, классы), он сам находит «естественные группы» в данных.

Теперь посмотрим на варианты:

1. Определить мужчина или женщина — это задача классификации, где уже есть заранее известные классы (мужчина / женщина). Это не кластеризация.

2. Определить популярные темы писем — тут мы не знаем заранее, какие темы будут. Мы хотим, чтобы алгоритм сам нашёл группы похожих писем. Это типичная задача кластеризации.

3. Выяснить, являются ли статьи новостями культуры — это классификация (есть или нет), скорее бинарная. Не подходит для K-средних.

4. Предсказать будущую цену акций — это регрессия, мы прогнозируем число. Тоже не кластеризация.

5. Сортировка массива — это вообще алгоритм упорядочивания данных по числу, не имеет отношения к кластеризации.

Выбранный ответ:

Для множества электронных писем определить популярные темы.

Вопрос 2. Компания разрабатывает систему предсказания спроса на продукцию в зависимости от сезона и региона. Какой тип задачи машинного обучения здесь применим?

Варианты:

1. Регрессия

2. Поиск аномалий

3. Классификация

4. Кластеризация

5. Поиск ассоциативных правил

Давай представим, что компания хочет узнать сколько человек купит их товар в июле в Москве. Или в ноябре в Сочи.

То есть они хотят предсказать конкретное числовое значение спроса, опираясь на такие факторы, как сезон и регион.

Когда задача сводится к предсказанию числа (количества, цены, температуры, спроса) — это всегда регрессия.
Классификация — это когда мы выбираем категорию («купит» или «не купит», «Москва» или «Питер»).
Кластеризация — это когда нужно найти группы похожих данных без заранее заданных категорий.
Поиск аномалий — это когда ищут необычные случаи (например, резкий скачок спроса).
Поиск ассоциативных правил — это вроде «кто купил хлеб, купил и молоко».

Выбранный ответ: Регрессия

Вопрос 3. Выберите НЕВЕРНОЕ описание метрики.

Варианты:

1. F1-оценка — среднее гармоническое между точностью (Precision) и полнотой (Recall).

2. Точность (Accuracy) — процент правильно классифицированных объектов среди всех объектов.

3. Объем данных — количество примеров в обучающем наборе, используемом для тренировки модели.

4. Матрица ошибок (confusion matrix) — метрика, показывающая среднее количество неверных предсказаний модели.

5. Время обучения — количество времени, которое потребовалось модели для завершения процесса обучения.

Давай разберём каждое утверждение:

· F1-оценка действительно — это гармоническое среднее между Precision и Recall. Всё верно.

· Точность (Accuracy) — это сколько всего правильно угадали из всех случаев. Тоже правильно.

· Объем данных — это просто характеристика набора данных, но это не метрика качества модели. Однако вопрос звучит не про это, а именно про НЕВЕРНОЕ описание метрики. Тут сказано, что это «количество примеров в обучающем наборе» — это по сути правда про объем данных, но объем данных — вообще не метрика, а характеристика данных. Но оставим пока.

· Матрица ошибок (confusion matrix) — в описании сказано: «метрика, показывающая среднее количество неверных предсказаний модели». Это неправда.

Ø Матрица ошибок — это таблица, показывающая подробно количество верных и неверных предсказаний по классам.

Ø Она не показывает среднее число неверных предсказаний, а раскладывает ошибки и верные ответы по категориям.

· Время обучения — это правда время, затраченное на обучение модели. Его иногда рассматривают как характеристику (скорость), но в ML это вполне нормальная метрика времени обучения.

Выбранный ответ:

Матрица ошибок (confusion matrix) — метрика, показывающая среднее количество неверных предсказаний модели.
(это неверное описание, т.к. confusion matrix показывает распределение предсказаний, а не среднее количество ошибок).

Вопрос 4. Представлены результаты работы бинарного классификатора:
Истинное значение 0 - Предсказано «0» (96) Предсказано «1» (4)
Истинное значение 1 - Предсказано «0» (8) Предсказано «1» (19)

Определите, какое из приведённых значений соответствует метрике accuracy.

Accuracy (точность по классификации в общем смысле) — это доля правильных предсказаний от всех предсказаний.

То есть:

Accuracy = TP+TN / TP+TN+FP+FN

Где:

1. TP (True Positive) = 19 (истинные 1, правильно предсказаны как 1)

2. TN (True Negative) = 96 (истинные 0, правильно предсказаны как 0)

3. FP (False Positive) = 4 (истинные 0, ошибочно предсказаны как 1)

4. FN (False Negative) = 8 (истинные 1, ошибочно предсказаны как 0)

Подставим числа:

Accuracy=96+19 / 96+4+8+19 = 115 / 127 ≈ 0.906

Выбранный ответ: 0.906

Вопрос 5. Для чего используется линейная регрессия?

Варианты:

1. Кластеризация отзывов клиентов

2. Предсказание категориальной переменной

3. Моделирование нелинейных зависимостей

4. Создание векторных представлений

5. Предсказание числового значения целевой переменной

Линейная регрессия — это один из самых простых инструментов машинного обучения.
Представь, что у тебя есть таблица, где по одной колонке (например, температура) ты хочешь предсказать другую колонку (например, продажи мороженого). Линейная регрессия рисует прямую линию, которая лучше всего подходит к этим данным, и использует её для прогнозов.

· Линейная регрессия применяется для предсказания числового значения (сколько? какой рост? какая температура?).

· Она не используется для классификации категориальных переменных (типа «красный» или «зелёный»).

· Не для кластеризации (это совсем другая задача).

· Не для создания векторных представлений слов или текстов.

· И не для моделирования нелинейных зависимостей (для этого существуют полиномиальная регрессия, решающие деревья и др.).

Выбранный ответ: Предсказание числового значения целевой переменной

Вопрос 6. Вы обучаете модель на основе логистической регрессии. Выберите верное утверждение.

Варианты:

1. Увеличение сложности модели всегда ускоряет процесс обучения

2. Добавление нового признака в модель всегда приводит к равной или лучшей производительности на обучающей выборке

3. Введение регуляризации в модель всегда приводит к равной или лучшей производительности на данных, не входящих в обучающий набор

4. Добавление в модель новых признаков помогает предотвратить переобучение обучающей выборки

5. Введение регуляризации в модель всегда приводит к равной или лучшей производительности на обучающей выборке

· Увеличение сложности модели обычно наоборот замедляет обучение, т.к. больше параметров.

· Добавление нового признака чаще всего улучшает обучение на тренировочной выборке, но не всегда — может даже ухудшить, если шумный.

· Введение регуляризации (например, L1 или L2) снижает сложность модели и помогает избежать переобучения, то есть улучшает или сохраняет производительность на тестовых (не обучающих) данных. Это прямо известный факт из машинного обучения — регуляризация помогает бороться с переобучением и обычно повышает качество на новых данных.

· Добавление признаков не предотвращает переобучение — наоборот, часто усиливает.

· Введение регуляризации на обучающей выборке чаще даже ухудшает точность (так как «штрафует» слишком точное подгоняние), но зато улучшает на новых данных.

Выбранный ответ: Введение регуляризации в модель всегда приводит к равной или лучшей производительности на данных, не входящих в обучающий набор

Вопрос 7. Для чего используется линейный дискриминантный анализ (LDA)?

Варианты:

1. Для уменьшения размерности и классификации данных

2. Для увеличения выборки

3. Для поиска аномалий

4. Для регрессионного анализа

5. Для кластеризации без разметки

Линейный дискриминантный анализ (LDA) используют в двух основных целях:

1. Для уменьшения размерности данных, чтобы их можно было легче визуализировать или быстрее обучать модель.

2. Для классификации, т.е. отделения объектов разных классов.
Он специально ищет такие линии или плоскости в данных, которые максимально хорошо разделяют разные классы.

Это не:

увеличение выборки,
не поиск аномалий,
не регрессия,
не кластеризация без разметки (LDA как раз использует метки классов).

Выбранный ответ: Для уменьшения размерности и классификации данных

Вопрос 8. В какой задаче целесообразно использовать деревья решений?

Варианты:

1. Дешифровка базы данных

2. Сжатие изображений

3. Выделение скрытых тем в текстах

4. Классификация клиентов по уровню дохода

5. Прогнозирование курса валют

Деревья решений — это алгоритмы, которые хорошо подходят для:

Ø классификации (определить к какому классу относится объект: например, низкий, средний или высокий доход)

Ø а также для регрессии (предсказывать число), но чаще всего их показывают именно на задачах классификации.

А теперь разберём по пунктам:

· Дешифровка БД — криптографическая задача, деревья решений тут не помогут.

· Сжатие изображений — нужна трансформация данных, а не выбор классов по признакам.

· Выделение скрытых тем в текстах — это задача тематического моделирования (например LDA, но не деревья решений).

· Классификация клиентов по уровню дохода — это типичная задача для деревьев решений, которые на каждом шаге решают: если доход больше/меньше или есть такие-то признаки, то отнести в такой-то класс.

· Прогнозирование курса валют — для этого чаще используют временные ряды (ARIMA, LSTM), а не деревья (хотя можно пробовать и деревья для регрессии, но это менее «целесообразно» для временных зависимостей).

Выбранный ответ: Классификация клиентов по уровню дохода

Вопрос 9. Какая задача подходит для применения наивного байесовского классификатора?

Варианты:

1. Кластеризация медицинских записей

2. Вычисление среднеквадратической ошибки

3. Поиск выбросов в данных

4. Классификация текстов по тональности

5. Прогнозирование стоимости акций

Наивный байесовский классификатор — это алгоритм для классификации, который работает особенно хорошо, когда нужно определить категорию на основе частот признаков. Его часто применяют в обработке текстов, например:

Ø для определения тональности отзывов (положительный/отрицательный),

Ø для фильтрации спама.

Теперь по вариантам:

· Кластеризация — это задача без учителя (unsupervised), а наивный Байес — supervised.

· Среднеквадратическая ошибка — это метрика для регрессии.

· Поиск выбросов — обычно используют другие методы, такие как локальные аномалии или кластерные подходы.

· Классификация текстов по тональности — классический пример для наивного байеса.

· Прогнозирование стоимости акций — задача регрессии.

Выбранный ответ: Классификация текстов по тональности

Вопрос 10. Какую задачу можно решить с помощью метода k-NN?

Варианты:

1. Поиск скрытых тем в текстах

2. Определение линейной зависимости

3. Прогнозирование временных рядов

4. Классификация изображений по категориям

5. Кластеризация больших данных

Метод k-NN (k ближайших соседей) — это очень интуитивный способ классификации:

Ø мы смотрим, кто окружает объект в многомерном пространстве признаков,

Ø если большинство соседей из класса «кот», значит и этот объект — «кот».

Можно также использовать k-NN для регрессии (среднее значение соседей), но чаще всего — для классификации.

Теперь по вариантам:

· Поиск скрытых тем в текстах — тематическое моделирование, например LDA.

· Определение линейной зависимости — это линейная регрессия.

· Прогнозирование временных рядов — это ARIMA, LSTM и др.

· Классификация изображений по категориям — классический кейс для k-NN.

· Кластеризация — это без учителя, а k-NN — метод обучения с учителем.

Выбранный ответ: Классификация изображений по категориям

Заключение

Теперь вам будет проще ориентироваться в основах машинного обучения: что такое обучение с учителем и без него, как работает классификация и регрессия, почему важны выборки и метрики. После такого разбора вы начнёте понимать, какие задачи можно решать ML-моделями. Это отличный фундамент для роста: дальше можно изучать Python, библиотеки Scikit-learn и пробовать строить первые модели на практике.

Математическая статистика для продвинутых

2025-08-16T19:09:02.013Z

Математическая статистика кажется скучной и страшной, пока не поймёшь, для чего она нужна. По сути, это набор инструментов, которые помогают делать выводы из данных, даже если данные неполные или шумные. Благодаря статистике бизнес может предсказать спрос, инженер — проверить качество партии деталей, а врач — оценить эффективность нового лекарства.

В этой статье мы разбираем тест продвинутого уровня по математической статистике. Пройдём вопросы шаг за шагом, объясним, почему правильный ответ именно этот, а не другой. Даже если вы далеки от математики, поймёте логику рассуждений.

Эти знания нужны не только аналитикам и дата-сайентистам. Они важны для всех, кто работает в IT, управляет проектами, принимает решения на основе цифр. Чем лучше вы понимаете статистику, тем проще вам проверить гипотезы и не попасться на ложные выводы.

Вся навигация по материалам в Telegram 👇🏻

Вопрос 1. В проекте разработки ПО среднее время завершения задачи — 20 дней с дисперсией 25. Какова вероятность того, что задача будет завершена за менее чем 15 дней?

Варианты ответов:

· 9%

· 5%

· 16%

· 30%

· 24%

Чтобы понять, как часто задача заканчивается быстрее 15 дней, используем нормальное распределение.

Среднее время (μ) = 20 дней.

Дисперсия = 25, значит стандартное отклонение (σ) = √25 = 5.

Находим z-оценку:

Z = (15−20) / 5= −5 / 5= −1

Это значит, что 15 дней на 1 стандартное отклонение меньше среднего.

Смотрим таблицу стандартного нормального распределения:

P(Z<−1) ≈ 0.1587

То есть примерно 16% задач завершается быстрее 15 дней.

Выбранный ответ: 16%

Вопрос 2. Случайная величина X имеет нормальное распределение с параметрами μ = 10 и σ = 2. Чему равна вероятность того, что X попадёт в интервал от 8 до 12?

Варианты ответов:

· 95%

· 50%

· 32%

· 68%

· 99,7%

У нас нормальное распределение со средним 10 и стандартным отклонением 2.

Нас спрашивают про интервал от 8 до 12. Это значит от среднего ±2 единицы.

Считаем z-значения:

Для 8:

Z = (8−10) / 2= −1

Для 12:

Z = (12−10) / 2 = +1

То есть нас интересует вероятность того, что значение окажется в пределах ±1 σ от среднего.

Что говорит правило для нормального распределения?

Примерно 68% значений попадают в интервал μ ± σ (один стандарт).

Выбранный ответ: 68%

Вопрос 3. Какой размер выборки нужен для 95% уровня доверия и 5% допустимой ошибки при партии из 10,000 изделий?

Варианты ответов:

· 370

· 435

· 290

· 230

· 620

Тут нужно понять, сколько изделий проверить, чтобы быть уверенным в результате на 95% (и при этом ошибиться не больше чем на 5%).
Используем известную приближенную формулу для выборки (для больших N):

n = Z^2 * p(1−p) / E^2

где:

· Z ≈ 1.96 для 95% доверия,

· p = 0.5p (максимальная вариативность — наибольший запас),

· E = 0.05(5% ошибка).

Считаем шаг за шагом:

n = ((1.96)^2 × 0.5 × 0.5) / 0.05^2 = 3.8416 × 0.25 / 0.0025 = 0.9604 / 0.0025 = 384.16

Это если бы партия была очень большой (N → ∞).

С учётом конечной совокупности (10,000):

Примерно 370 изделий нужно проверить.

Выбранный ответ: 370

Вопрос 4. Чем НЕ характеризуется качество точечной оценки параметра распределения?

Варианты ответов:

1. Нет правильного ответа

2. Несмещённостью

3. Состоятельностью

4. Эффективностью

5. Случайностью

Когда мы оцениваем какой-то параметр (например, среднее), мы хотим, чтобы наша оценка была:

1. несмещённой (в среднем даёт правильный результат),

2. состоятельной (при увеличении выборки приближается к истинному значению),

3. эффективной (имеет наименьшую возможную дисперсию).

А вот случайность — это не характеристика качества оценки. Все статистики — случайные величины, но это не свойство их качества. Качество измеряется другими терминами.

Выбранный ответ: Случайностью

Вопрос 5. Какой тест используют для проверки нормальности распределения данных?

Варианты ответов:

1. Тест Спирмена

2. Тест Краскела-Уоллиса

3. Тест Манна-Уитни

4. Тест Левенса

5. Тест Шапиро-Уилка

Заказчик сказал, что продажи распределены нормально — но нам нужно это проверить.
Для этого есть специальные статистические тесты, которые как раз и показывают, насколько данные «похожи» на нормальное распределение.

Из предложенных:

Тест Шапиро-Уилка — классический критерий для проверки нормальности. Он специально разработан для этой задачи.
Остальные тесты (Спирмена, Краскела-Уоллиса, Манна-Уитни, Левенса) проверяют другие свойства: корреляцию, различия между группами, равенство дисперсий, но не нормальность.

Выбранный ответ: Тест Шапиро-Уилка

Вопрос 6. Какова вероятность того, что в выборке из нормального распределения со средним 100 и σ=15 значение окажется меньше 85?

Варианты ответов:

1. 0,4610

2. 0,1587

3. 0,0455

4. 0,0227

5. 0,3173

Ø Среднее μ = 100

Ø σ = 15

Ø Нас интересует вероятность X < 85.

Находим z-значение:

z = (85−100) / 15 = −15 / 15 = −1

То есть 85 — это ровно на одно σ меньше среднего.

Смотрим стандартную таблицу нормального распределения:

P(Z<−1) ≈ 0.1587

Это значит, что примерно 15,87% значений окажутся меньше 85.

Выбранный ответ: 0,1587

Вопрос 7. Что правильно говорит о построенном 99% доверительном интервале?

Варианты ответов:

1. Мы можем быть на 99% уверены, что каждый посетитель торгового центра тратит сумму, находящуюся в пределах интервала

2. При многократном повторении опроса и построении доверительного интервала, истинное среднее значение расходов всех посетителей торгового центра окажется внутри построенного интервала в 99% случаев

3. Вероятность того, что истинное среднее значение расходов всех посетителей торгового центра лежит в построенном интервале, равна 99%

4. Построенный доверительный интервал всегда будет содержать выборочное среднее значение (1200 рублей)

5. 99% посетителей торгового центра тратят сумму в пределах интервала

Когда мы строим 99% доверительный интервал, это значит:

если бы мы много раз повторили эксперимент (брали бы новые выборки по 250 человек) и каждый раз строили интервал, то примерно в 99% этих интервалов оказалось бы истинное среднее значение для всех посетителей.

То есть доверительный интервал говорит о надёжности процедуры, а не о том, что внутри интервала 99% людей или что вероятность для конкретного уже построенного интервала равна 99%.

По вариантам:

Ø «Каждый посетитель тратит сумму в пределах интервала» — это не так, CI не для каждого человека.

Ø «При многократном повторении... истинное среднее окажется в интервале в 99% случаев» — это верно.

Ø «Вероятность, что истинное среднее в этом конкретном интервале, =99%» — строго говоря, это не классическая интерпретация.

Ø «Интервал всегда содержит выборочное среднее» — это банально, но не раскрывает смысла доверия.

Ø «99% посетителей тратят сумму в пределах интервала» — это вообще о другом, это был бы prediction interval.

Выбранный ответ:
При многократном повторении опроса и построении доверительного интервала, истинное среднее значение расходов окажется внутри построенного интервала в 99% случаев

Вопрос 8. Что лучше всего использовать для проверки гипотезы о том, что распределение баллов соответствует нормальному с неизвестным средним и дисперсией?

Варианты ответов:

1. t-критерий Стьюдента

2. Критерий знаков

3. Критерий хи-квадрат Пирсона

4. Критерий Колмогорова-Смирнова

5. Критерий Вилкоксона

Нам нужно проверить, «похожи ли данные на нормальное распределение».

Для таких задач чаще всего применяют Критерий Колмогорова-Смирнова, который сравнивает эмпирическую функцию распределения выборки с теоретической нормальной функцией.

Остальные:

t-критерий Стьюдента — для проверки равенства средних.
Критерий знаков, Вилкоксона — для сравнения медиан или рангов.
χ²-критерий Пирсона может использоваться для нормальности, но он более грубый, чувствителен к разбиению интервалов. Для непрерывных проверок чаще используют Колмогорова-Смирнова.

Выбранный ответ:
Критерий Колмогорова-Смирнова

Вопрос 9. Компания, производящая батарейки, утверждает, что средний срок службы их батареек составляет 50 часов. Была протестирована случайная выборка из 64 батареек, обнаружено, что средний срок службы в выборке составляет 48 часов со стандартным отклонением 8 часов. Какой статистический критерий следует использовать для проверки гипотезы о среднем сроке службы батареек, и каковы будут правильно сформулированные нулевая и альтернативная гипотезы для проверки утверждения компании на уровне значимости 5%?

Варианты ответов:

1. Двухвыборочный t-критерий. Нулевая гипотеза: средний срок службы равен 50 часам. Альтернативная гипотеза: средний срок службы не равен 50 часам

2. Одновыборочный t-критерий. Нулевая гипотеза: средний срок службы равен 50 часам. Альтернативная гипотеза: средний срок службы меньше 50 часов

3. Критерий хи-квадрат. Нулевая гипотеза: средний срок службы равен 48 часам. Альтернативная гипотеза: средний срок службы не равен 48 часам

4. Парный t-критерий. Нулевая гипотеза: разница в среднем сроке службы равна О часам. Альтернативная гипотеза: разница в среднем сроке службы не равна О часам

5. Одновыборочный z-критерий. Нулевая гипотеза: средний срок службы равен 50 часам. Альтернативная гипотеза: средний срок службы не равен 50 часам

У нас есть одна выборка, которую сравнивают с заданным средним значением (50 часов).

Размер выборки n=64 большой, можем использовать z-критерий (так как известно стандартное отклонение выборки, выборка достаточно велика для нормального распределения средней).

Если бы выборка была маленькая или неизвестна σ генеральной совокупности, применяли бы t-критерий для одной выборки.

Из предложенных вариантов:

Тут явно дан «Одновыборочный z-критерий». Это на практике правильный подход для больших выборок с известной s.

Гипотезы:

1. H0: Средний срок службы равен 50 часам.

2. H1: Средний срок службы не равен 50 часам. (двусторонняя проверка, так как может быть и меньше, и больше).

Выбранный ответ:
Одновыборочный z-критерий. Нулевая гипотеза: средний срок службы равен 50 часам. Альтернативная гипотеза: средний срок службы не равен 50 часам

Вопрос 10. Что произойдет со спросом, если цена увеличится на 10%, реклама на 20%, а сезонность не изменится?

Варианты ответов:

1. Увеличится на 2%

2. Увеличится на 1%

3. Уменьшится на 1%

4. Уменьшится на 2%

5. Останется неизменным

Вопрос даёт нам модель множественной регрессии, где каждый фактор умножается на свой коэффициент.

Считаем вклад:

· Цена: − 0.5 × 10% = −5% (уменьшает спрос на 5%).

· Реклама: + 0.3 × 20% = +6% (увеличивает спрос на 6%).

· Сезонность не изменилась, значит добавляет 0.

Итого:

−5% + 6% = +1%

Выбранный ответ:
Увеличится на 1%

Вопрос 11. Какой коэффициент корреляции Пирсона между количеством удобрений и урожайностью?

Варианты ответов:

· -0.50 - Умеренная отрицательная корреляция

· -0.99 - Сильная отрицательная корреляция

· 0.50 - Умеренная положительная корреляция

· 0.00 - Отсутствие корреляции

· 0.99 - Сильная положительная корреляция

Смотрим таблицу: чем больше внесли удобрений (100 → 300), тем выше урожайность (30 → 70).

Это почти идеально линейная зависимость: рост удобрений даёт рост урожайности.

Значит, корреляция высокая и положительная.

Для наглядности: если бы все точки лежали на одной прямой, корреляция была бы +1.

Здесь данные именно такие (каждый шаг +50 удобрений даёт +10 урожайности), значит близко к +1.

Выбранный ответ:
0.99 — Сильная положительная корреляция

Вопрос 12. Сравнивается два метода обучения студентов (традиционный и интерактивный) по результатам итогового экзамена. Распределение результатов не является нормальным. При применении критерия Манна-Уитни обнаруживается, что статистика U равна О. Какое из следующих утверждений наиболее точно описывает ситуацию?

Варианты ответов:

1. Существует статистическая ошибка в расчетах, поскольку U не может быть равно О

2. Распределение результатов в обеих группах идентично

3. Критерий Манна-Уитни не может быть применен к данным такого типа

4. Отсутствуют различия между группами, и критерий Манна-Уитни не выявил значимых результатов

5. Все значения в одной группе строго меньше, чем все значения в другой группе

Критерий Манна-Уитни нужен для сравнения двух выборок, когда распределения не обязательно нормальные.

Статистика U показывает, сколько раз значение из одной группы больше, чем из другой.

Если U = 0, значит нет ни одной пары, где бы значение из первой группы оказалось больше значения из второй.

То есть все значения одной группы строго меньше всех значений другой группы — очень сильное различие.

Выбранный ответ:
Все значения в одной группе строго меньше, чем все значения в другой группе

Заключение

Вы прошли тест продвинутого уровня и разобрали каждое задание. Теперь вы умеете не просто угадывать ответы, а понимаете, почему они такие. Это главное — вы учитесь мыслить как аналитик: проверять допущения, задавать уточняющие вопросы, разбирать задачи на простые части.

Эти навыки пригодятся в любой сфере, где важны данные и принятие решений: от IT до маркетинга и управления продуктами. Чем больше вы практикуетесь, тем увереннее будете себя чувствовать в сложных задачах и переговорах. А значит, сможете быстрее расти в профессии.

ILDM

Go (Golang). Средний уровень.

Go (Golang): Базовый уровень.

C++. Средний уровень

Заключение

C++. Базовый уровень

Вопрос 1. Какой формат цикла for правильно перебирает массив A из n элементов?

Вопрос 2. Как правильно открыть файл для чтения в C++?

Вопрос 3. Какое утверждение верно для данной функции?

Вопрос 4. Что произойдёт после выполнения инкрементации итератора?

Вопрос 6. Выберите верное утверждение для абстрактного класса.

Вопрос 7. Как нужно объявить переменную count на месте пропуска в классе Player, чтобы на экран было выведено 2?

Вопрос 8. Проанализируйте код ниже. Какие поля есть у класса C?

Вопрос 9. Выражение const int* wsk означает:

Вопрос 10. Что произойдёт после выполнения этого кода?

Заключение

HR-аналитика: базовый уровень. От отклика до оффера анализ воронки найма и эффективности рекрутинга

Вопрос 1. Выберите НЕВЕРНЫЙ вариант определения HR-метрики.

Вопрос 2. Выберите пункт, содержащий ТОЛЬКО те метрики, которые помогают оценить процесс подбора персонала.

Вопрос 4. Выберите набор метрик, относящихся к воронке подбора.

Вопрос 6. Для расчета какой метрики может быть использована приведённая таблица с сырыми данными?

Вопрос 7. Выберите вариант, в котором корректно соотнесены метрики и их тип.

Вопрос 9. Перед вами график распределения подразделений компании по численности персонала. Как называется такой тип графика?

Вопрос 10. Соотнесите метрики и способы визуализации.

Вопрос 11. Необходимо проанализировать эффективность источников подбора по периодам. Какие параметры и куда в сводной таблице вы внесёте?

Заключение

HR-аналитика: средний уровень. От отклика до оффера анализ воронки найма и эффективности рекрутинга

Вопрос 1. Выберите НЕВЕРНОЕ продолжение фразы из списка ниже. Польза от HR-аналитики для бизнеса может заключаться…

Вопрос 2. Ниже — таблица с данными по опросу лояльности сотрудников. Рассчитайте eNPS.

Вопрос 5. Как можно получить аналитику о качестве собеседований в разрезе рекрутеров, если доступны данные из таблиц 1 и 2?

Вопрос 7. Было собрано 100 анкет кандидатов.

Вопрос 8. Конверсия найма по компании снизилась на 12%. Задача аналитика — разобраться в причинах. Расположите действия аналитика в верном порядке.

Вопрос 9. Какой инструмент оптимально выбрать для подготовки данных в виде разового отчета (для усредненного портрета сотрудника с демографией и ценностями)?

Вопрос 11. Какой вывод по итогу анализа эффективности плана мероприятий можно сделать?

Вопрос 12. Какая рекомендация будет самой эффективной для решения задачи по найму?

Вероятные места ошибок

Заключение

От линейных моделей до ансамблей как оценивать качество ML-моделей и избегать переобучения

Вся навигация по материалам в Telegram 👇🏻

Вопрос 2. Как можно обнаружить проблему недообучения в модели линейной регрессии?

Вопрос 5. Почему деревья решений склонны к переобучению на обучающей выборке, особенно при большой глубине дерева?

Вопрос 9. Почему интерпретируемость случайного леса (Random Forest) значительно ниже по сравнению с одиночным деревом?

Вопрос 10. Какой способ поможет улучшить персонализацию рекомендаций в гибридной системе?

Вопрос 11. Каким является основное преимущество решетчатого поиска (Grid Search) при оптимизации гиперпараметров?

Вопрос 12. Вы хотите восстановить производную функции по экспериментальным данным, содержащим шум. С помощью какого решения вы сможете это сделать?

Вопрос 13. Какая часть ошибки в bias-variance decomposition считается неизбежной и не может быть устранена улучшением модели?

Вопрос 15. Для данных анализов пациентов требуется оценить уверенность прогноза заболевания. Какой метод лучше подходит для этой задачи?

Заключение

Машинное обучение для практиков модели, метрики, ансамбли и рекомендации

Вся навигация по материалам в Telegram 👇🏻

Вопрос 1. Какое утверждение верно для обучения с учителем (supervised learning), но неверно для обучения без учителя (unsupervised learning)?

Вопрос 2. Что измеряет метрика Recall (полнота) в задаче бинарной классификации?

Вопрос 3. Какой из признаков обязательно должен быть исключён или преобразован перед использованием в линейной регрессии?

Вопрос 4. Когда логистическая регрессия применима?

Вопрос 6. Как называется проблема, при которой дерево решений запоминает все особенности обучающей выборки, включая шум?

Вопрос 8. Для применения метода k-ближайших соседей на текстовых данных лучшей метрикой расстояния будет:

Вопрос 9. Какова основная идея метода опорных векторов?

Вопрос 10. Какой эффект достигается за счёт объединения нескольких деревьев решений в случайный лес?

Вопрос 11. Какой тип рекомендательной системы делает предложения на основе предпочтений других пользователей с похожим поведением?

Заключение

Основы машинного обучения и метрики оценки моделей

Вся навигация по материалам в Telegram 👇🏻

Вопрос 1. Для каких из следующих задач может быть подходящим алгоритмом кластеризация методом K-средних?

Вопрос 2. Компания разрабатывает систему предсказания спроса на продукцию в зависимости от сезона и региона. Какой тип задачи машинного обучения здесь применим?

Вопрос 3. Выберите НЕВЕРНОЕ описание метрики.

Вопрос 5. Для чего используется линейная регрессия?

Вопрос 6. Вы обучаете модель на основе логистической регрессии. Выберите верное утверждение.

Вопрос 7. Для чего используется линейный дискриминантный анализ (LDA)?

Вопрос 8. В какой задаче целесообразно использовать деревья решений?

Вопрос 9. Какая задача подходит для применения наивного байесовского классификатора?

Вопрос 10. Какую задачу можно решить с помощью метода k-NN?

Заключение

Математическая статистика для продвинутых

Вопрос 1. В проекте разработки ПО среднее время завершения задачи — 20 дней с дисперсией 25. Какова вероятность того, что задача будет завершена за менее чем 15 дней?

Вопрос 2. Случайная величина X имеет нормальное распределение с параметрами μ = 10 и σ = 2. Чему равна вероятность того, что X попадёт в интервал от 8 до 12?

Вопрос 3. Какой размер выборки нужен для 95% уровня доверия и 5% допустимой ошибки при партии из 10,000 изделий?

Вопрос 4. Чем НЕ характеризуется качество точечной оценки параметра распределения?

Вопрос 5. Какой тест используют для проверки нормальности распределения данных?

Вопрос 6. Какова вероятность того, что в выборке из нормального распределения со средним 100 и σ=15 значение окажется меньше 85?

Вопрос 7. Что правильно говорит о построенном 99% доверительном интервале?

**Вопрос 9. Выражение const int* wsk означает:**

Вопрос 10.
Что произойдёт после выполнения этого кода?