Speaker
Description
Анализ больших данных разной природы требует выявления и описания неоднородностей в этих данных. Во многих практических задачах актуален вопрос о выявлении лакун <<пустот>> в распределении этих данных. Стандартные методы кластеризации здесь бессильны; поскольку требуется выявить своего рода антикластеры.
Решение такой задачи: пусть имеется $N$ точек, как-то распределённых в $L$-мерном (метрическом) пространстве. Пусть $\mathfrak{M}$ - множество точек в $\mathbb{R}^n$;
и пусть $\mathfrak{M}$ изолировано от <<внешнего мира>> (располагается внутри области $\Omega\subset \mathbb{R}^n$). Пусть $\overline{\rho}$ - средняя плотность точек в $\Omega$;
Построим новое множество $\mathfrak{S}$, такое, что $|\mathfrak{M}| \sim |\mathfrak{S}|$ и его точки распределены случайно и равномерно в $\Omega$. Теперь удалим те точки $\mathfrak{s} \in \mathfrak{S}$, которые расположены близко к точкам $\mathfrak{m} \in \mathfrak{M}$. Определить близость точек из $\mathfrak{S}$ к точкам из $\mathfrak{M}$ можно разными способами. Затем удалим всё множество $\mathfrak{M}$. Оставшиеся после этого точки и составляют <<дополнение>> $\widehat{\mathfrak{S}}$ множества $\mathfrak{M}$ до $\Omega$.
Для определения удаляемых точек построим на каждой точке $\mathfrak{m}\in \mathfrak{M}$ шар радиуса $\varepsilon$. Удалим из $\mathfrak{S}$ все точки $\mathfrak{s}^{\ast} \in \mathfrak{S}$, попадающие внутрь этих шаров. Наконец, удалим само множество $\mathfrak{M}$.
Построение дополнения $\widehat{\mathfrak{S}}$ для $\mathfrak{M}$ в $\Omega$ завершено. Очевидно, что вид дополнения зависит от величины $\varepsilon$. Строго говоря, исключаемые точки $\mathfrak{s}\in \mathfrak{S}$ должны определяться не только теми точками, которые лежат в $\varepsilon$-окрестности. Точки в $\mathfrak{M}$ могут быть распределены неравномерно, тем самым <<имея право>> участвовать в выборе удаляемых из $\mathfrak{S}$ точек. Проблема разрешается построением специальной функции типа <<среднего поля>>.
Секция конференции | Численное статистическое моделирование и методы Монте-Карло |
---|