Points of interests
Как работать с POI?
POI - это points of interest. Базово мы все когда-то сталкивались с POI, анализируя условную "насыщенность" территории, какие районы живые, а какие не такие активные. Однако вряд ли вне серьезных исследований в студенческих работах рассматривается хоть что-то кроме разнообразия и плотности функций на территории. Давайте немного углубимся в эту тему. Это поможет усилить понимание городской среды и пригодится особенно для аналитических проектов B2G.
Какие бывают метрики, показывающие разные характеристики POI на местности?
1) POI density / poi_count Общая функциональная насыщенность территории: сколько сервисов и объектов доступно рядом.
2) Category counts / category shares (cat__*)
Функциональный профиль территории: какие функции представлены и в каких долях.
3) Richness Число различных функций без учёта их баланса (если в ячейке 10 разных функция по 1 штуке и 10 разных функций по 50, то значение будет одинаковым).
4) Shannon entropy Наиболее распространённая мера mixed-use: учитывает и число функций, и их баланс.
5) Evenness (Pielou) Нормированная мера равномерности распределения функций; удобна для сравнения территорий с разным richness, нормирует предыдущий Shannon и позволяет честнее сравнивать зоны с разным числом категорий.
6) Simpson / Gini–Simpson Вероятность, что два случайно выбранных POI - разных типов, чувствителен показатель к крупным категориям и меньше к редким.
7) Hill numbers (q = 1, q = 2) Сильно более понятная и интерпретируемая метрика. Проблема энтропий (Шенона в частности) - полезно, но абстрактно. Значение 0.9 или 1.3 само по себе ничего не говорит, непонятно, много это или мало функций, сложно сравнивать разные территории и объяснять результат не-специалистам.
Hill numbers отвечает на вопрос "Скольким равномерно представленным функциям соответствует такое разнообразие?".
Пример: 4 функции, но одна доминирует (70% — еда, 10% — транспорт, 10% — торговля, 10% — услуги). Richness будет 4, Шенон средний, а Hill q=1 скажет, что эта территория ведет себя примерно как место с 2 функциями, остальные (кроме еды) функции есть, но их вклад не велик.
8) Dominance / top-category share Тут просто - доля (%) ведущей категории, чтобы понять степень монофункциональности.
9) HHI / concentration indices Это мера концентрации, а не разнообразия. Если представить, что каждая функциональная категория POI - это "рыночный игрок", то HHI показывает, насколько рынок функций монополизирован. Если dominance игнорирует все, кроме лидера, то HHI чувствителен к тому, насколько сильные другие функции.
Например:
* 2 функции (60% - еда, 40% - торговля). Dominance = 60%, HHI будет умеренным (две сильные функции).
* 5 функция (60% - еда, 10% + 10% + 10% + 10%). Dominance = 60% также, но HHI будет высоким
10) Kernel density of POI (KDE)
Сглаженная плотность POI с учётом соседства, часто применяется как шаг улучшения признаков перед выделением функциональных зон
11) TF–IDF weights for POI categories Выделение "сигнатурных" функций (дословно, оставляющие характерный почерк на месте), отличающих территорию от остальных. Метрика выделяет категории, которые особенно характерны для зоны (не просто частые, а отличающие её от остальных).
12) POI-based composite indices (UDI, vibrancy, livability) В последнее время усилился тренд на стандартизированные индексы. Это интегральные индексы, объединяющие плотность и разнообразие POI для межтерриториальных сравнений.
Примеры, как читать несколько метрик вместе и делать выводы
1) Высокий richness + низкий evenness Формально разнообразно, фактически специализировано. Есть много типов функций, но одна доминирует. Типично для туристических центров, вокзалов, торгово-развлекательных кластеров.
2) Высокий Shannon + высокий Hill q1
Сбалансированная многофункциональная среда. Функции представлены сопоставимо, без явного лидера.
Типично для mixed-use районов, TOD (ох как бы я усилила свой диплом, если бы это знала в универе) и "15-минутных городов".
3) Низкий Hill q2 + высокий top_cat_share
Ярко выраженная специализация. POI многочисленны, но почти все одного типа. Типично для кампусов, больничных кластеров, аэропортов, промзон.
Источники POI
[out:json][timeout:120]; area["name:ru"="Москва"]->.searchArea; ( node["amenity"="hospital"](area.searchArea); way["amenity"="hospital"](area.searchArea); relation["amenity"="hospital"](area.searchArea); ); out center tags;
2) Google Places API
3) FourSquare
P.S. Я предпочитаю использовать OSM, так как у остальных перекос в коммерческие объекты, также несложно в из OSM вычленить архивы. Напишите, если интересуетесь парсерами этих 3 источников, выложу на гитхаб или в какой-то продукт.
Как и что можно прогнозировать?
Развитие POI вполне прогнозируют, и в последние годы это делают в двух основных направлениях:
- прогноз функциональных зон/профилей на основе многолетних POI;
- прогноз “городской активности/притяжения” (куда “переедет” спрос), где POI выступают ключевыми признаками.
Рост/спад POI по категориям на grid-уровне
Цель: предсказать, увеличится ли (и насколько) число POI в категории (например, Food & Beverage) в ячейке через 1–3 года.
Переход функционального типа территории
Цель: “ячейка поменяет функцию” (например, из residential → mixed-use, или education → mixed-use).
Это очень популярно в работах про urban functional areas, где сначала классифицируют функциональные зоны по POI, а затем предсказывают их изменение (часто через CA–Markov). Например: Exploring the predictive ability of the CA–Markov model for urban functional area in Nanjing old city (2024).
Диверсификация/специализация (изменение diversity-метрик)
Цель: предсказать, станет ли ячейка более mixed-use (рост Shannon/Hill q1) или более специализированной (рост dominance/HHI).
На практике это часто делается через:
Появление “редких” функций
Цель: появится ли в ячейке новая категория типа Culture/Arts, университет, больница и т.п.
- бинарная классификация “появится/не появится”,
- или survival/hazard (время до появления), если есть длинный временной ряд.
Какие признаки реально используют?
- Описанные выше метрики по самим POI (плотность, категориальные доли, richness/Shannon/Hill, dominance/HHI). И очевидно lagged features: значения этих метрик в прошлом (t−1, t−2…).
- Inbound trips / attractor strength как прокси спроса на разные функции (например, gps-треки) + OD-потоки и дистанционные профили как признак “доступного рынка”.
- Cетевые расстояния (т.е. по УДС) до центров, остановок, магистралей, сервисов + индикаторы доступности к POI.
- Gризнаки соседних ячеек: средняя плотность/диверсификация вокруг, наличие “ядер” + графовые признаки (соседство по сетке/по дорожной сети) — особенно в нейросетевых моделях.
Какие подходы/модели используют?
I. CA–Markov
- Markov chain - какие типы территорий во что обычно превращаются со временем;
- Cellular Automata (CA) - где именно это происходит с учётом соседей.
Моделирует структурные переходы, а НЕ точное кол-во POI.
Это один из самых частых путей в UFA prediction:
- классифицируем функциональный тип (по POI),
- строим матрицу переходов,
- CA добавляет пространственные правила (влияние соседей),
- получаем прогноз карты типов.
Вот тут хороший скрипт на гитхабе с помощью GeoAI.
II. XGBoost и аналоги
Если цель — предсказать рост/спад категорий POI или метрик diversity, то тут хорошо работают градиентные бустинги и табличные модели (особенно при ограниченной длине временного ряда). Также легко и естественно подключаются mobility/accessibility/lag признаки.
Топ, когда нужна количественная точность, предсказывает сколько и каких функций будет, но не строит пространственную динамику (слабо учитывается пространственный эффект).
III. LSTM/Transformer/GNN
Используются, когда есть много временных шагов, важны сложные взаимодействия “соседи ↔ время”. Ключевая особенность - совместно моделирует время и пространство.
Тут сложно, нужен длинный временный ряд, но у этого метода максимальная предсказательная мощность (но и сложная интерпретация, поэтому редко применяется в policy-making работах).
Пример: Urban Grid Population Inflow Prediction via POI-Enhanced Conditional Diffusion with Dual-Dimensional Attention (2025).
Прикладная ценность
Для городских планировщиков и местных властей
1) Контроль монофункциональности:
высокий top_cat_share + низкий Hill приводит к рису "мёртвых зон" вне пиковых часов.
2) Целенаправленное развитие:
- где стимулировать сервисы;
- где ограничивать перепроизводство одной функции.
3) Оценка эффективности политик:
рост Shannon и Hill q1 со временем - это признак успешной политики mixed-use.
Для частного бизнеса
1) Оценка риска и потенциала:
- высокий Shannon = устойчивый спрос в течение дня;
- высокая специализация = спрос пиковый и уязвимый.
2) Стратегия расширения
бизнесы используют такие метрики как прокси для пешеходных потоков (если не возможно измерить), клиентского микса и временной структуры спроса.
Кому ещё это полезно?
- девелоперам — выбор концепции проекта;
- транспортным агентствам — связь функций и мобильности;
- ритейл-аналитикам — сегментация районов;
- банкам и инвесторам — оценка устойчивости локаций;
- исследователям — связь POI с мобильностью, ценами, качеством жизни.