Мера Кульбака в задачах динамической кластеризации наблюдений состояния окружающей среды

А.В. Скатков1, А.А. Брюховецкий1, Д.В. Моисеев1, Ю.Е. Шишкин1,2

1 ФГАОУ ВО «Севастопольский государственный университет», РФ, г. Севастополь, ул. Университетская, 33

2 Институт природно-технических систем, РФ, г. Севастополь, ул. Ленина, 28

E-mail: dmitriymoiseev@mail.ru

DOI: 10.33075/2220-5861-2019-3-35-38

УДК 681.3

Реферат:

  Мониторинг данных по техногенным загрязнениям окружающей среды связан с необходимостью фильтрации, обработки и накопления многомерных, разнородных, динамически обновляющихся данных. Обработка таких данных традиционными методами весьма затруднительна в силу их недостаточной структурированности. Поэтому представляется перспективным использование операций кластеризации, которые хорошо себя зарекомендовали в подобных случаях. В связи с чем возникает задача, которая должна быть решена на основе кластеризации, связана с обнаружением аномальных значений в таких данных.

   Известные методы нахождения аномальных значений ориентированы для данных, представленных в векторном либо матричном виде, в связи с чем становится актуальной разработка методов обнаружения аномалий для данных, представленных в кластерном виде. Этому и посвящена статья. Для разрешения поставленной задачи привлекается мера Кульбака, которая известна как информационная характеристика для данных, представленных рядами распределений. В данном случае предлагается использовать меру Кульбака как инструмент для формирования динамически изменяющихся кластеров и их числа. Для реализации операционной компоненты меры Кульбака используется полный граф, характеризующий информационную меру Кульбака как расстояние между рассматриваемыми классами.

   Приводится пример реализации предлагаемого подхода путем численного моделирования и графической иллюстрации динамического процесса образования кластеров и их мощности. Предлагается алгоритм динамической коррекции структуры классов и их числа, получения текущих данных и результатов их представления в виде описанных графов и характеристик расстояния. На этой основе формируется адаптивная процедура принятия решений в условиях неопределенности.

Ключевые слова: анализ, аномалии, большие данные, кластеризация, мера Кульбака, мониторинг, окружающая среда, прогнозирование, экосистемы.

Полный текст в формате PDF

СПИСОК ЛИТЕРАТУРЫ: 

  1. Об утверждении Концепции построения и развития АПК «Безопасный город», утв. Распоряжением Правительства Российской Федерации 03.12.2014, №2446-р. [Электронный ресурс] – Режим доступа: https://14.mchs.gov.ru/document/2632303 (дата обращения: 12.01.2018).
  2. Современное состояние загрязнения вод Черного моря / под ред. А.И. Симонова, А.И. Рябинина // Гидрометеорология и гидрохимия морей. Т. IV. Черное море. Вып. 3. Севастополь: ЭКОСИ-Гидрофизика, 230 с.
  3. Основные источники загрязнения морской среды Севастопольского региона / Е.И. Овсяный, А.С. Романов, Р.Я. Миньковская [и др.] // Экологическая безопасность прибрежной и шельфовой зон и комплексное использование ресурсов шельфа. Севастополь: ЭКОСИ-Гидрофизика, 2001. С. 138–152.
  4. Скатков А.В., Брюховецкий А.А., Моисеев Д.В. Методология организации мониторинговых процессов при решении крупномасштабных задач в облачных вычислительных средах // Информационные технологии и информационная безопасность в науке, технике и образовании «ИНФОТЕХ — 2017»: сборник статей Всерос. науч.-техн. конф. Севастопольский государственный университет, Институт «Информационные технологии и управление в технических системах». Севастополь: СевГУ, 2017. С. 78–80.
  5. Бондур В.Г. Аэрокосмический мониторинг объектов нефтегазового комплекса. М.: Научный мир, 2012. 558 с.
  6. Достоверный и правдоподобный вывод в интеллектуальных системах / В.Н. Вагин, Е.Ю. Головина, А.А. Загорянская [и др.]. М.: Физматлит, 2008. 712 с.
  7. Анализ данных и процессов / А.А. Барсегян, И.И. Холод, М.Д. Тесс [и др.]. СПб: БХВ-Петербург, 2009. 512 с.
  8. Барсегян и др. Методы и модели анализа данных: OLAP и Data Mining. СПб., 2004. 478 c.
  9. Ганти В., Герке Й., Рамакришнан Р. Добыча данных в сверхбольших базах данных // Открытые системы, 1999. № 9–10.
  10. Гимаров В.А., Дли М.И., Круглов В.В. Временная изменчивость образов // Вестник МЭИ. 2003. № 2. С. 91-95.
  11. Скатков А.В., Шишкин Ю.Е. Модель обнаружения аномалий в наблюдениях параметров полей окружающей среды с использованием систем мониторинга // Системы контроля окружающей среды. Севастополь: ИПТС. 2017. № 10 (30). С. 48–53.
  12. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.
  13. Hurvich, C.M., & Tsai, C.L. Regression and time series model selection in small samples. Biometrika. 1989. Vol. 76(2), 297–DOI:10.1093/biomet/76.2.297.

Loading