ИКРБС
№ 222071900001-6Проактивный подход к мониторингу событий в сложных распределенных системах интеллектуального города с использованием технологий больших данных и предиктивной аналитики
30.06.2022
Сведения о фактическом выполнении плана работы в отчетный период
Первый результат.
В соответствии с задачами второго этапа проекта результатом является метод консолидации больших разнородных данных о критических событиях, авариях и нештатных ситуациях с разными временными и геопространственными метками, включая исключение дубликатов, подтверждение достоверности, очистку информационного шума, формализацию в виде векторных и графовых моделей, классификацию и кластеризацию в пространстве признаков и факторов влияния, сбор статистик, ретроспективный анализ для установления корреляций с аналогичными происшествиями в прошлом (паттернами событий).
Консолидация является этапом мониторинга и предиктивного анализа. В ее основе лежит процесс сбора и организации хранения данных в необходимом формате для последующей обработки в модулях аналитической платформы мониторинга. Результатом консолидации данных является приведение к единому формату информации о событии и факторах влияния в виде связанных блоков данных с хэш идентификаторами. В ходе консолидации обрабатывается информация, поступающая от источников, и формируются выборки данных необходимые для аналитических приложений. В общем случае решаются задачи: а) сбор данных от разных источников, б) оценка качества и очистка данных, в) обогащение данных дополнительной информацией, д) подготовка и загрузка в хранилище.
Очистка данных — комплекс методов и процедур, направленных на устранение шума: аномалий, пропусков, дубликатов, противоречий и т.д. Обогащение — это процесс дополнения данных информацией, повышающей достоверность данных и эффективность решения аналитических задач. В нашем проекте к такой информации относятся фотографии и видеролики с места события, а также сообщения очевидцев, полученные с мобильных средств связи. В основе консолидации лежит процесс ETL (extraction, transformation, loading) (Рис. 1 файла к отчету), в ходе которого решаются задачи извлечения данных из разнотипных источников и преобразования к виду, пригодному для хранения в определенной структуре. К данным в системе мониторинга событий относятся: а) текстовые файлы с разделителями и (xls, csv, txt) и без, файлы реляционных баз данных (dBase, access и т.п.), фотографии и видеоролики, файлы Web сайтов (html, xml, json и т.п.). Для ускорения ETL процесса реализуется технология потокового извлечения, обработки и преобразования данных агентами (Рис. 2 файла к отчету).
В процессе сбора данных необходимо выполнить консолидацию двух видов данных (Рис. 3 файла к отчету): а) основные данные киберфизического вида, собираемые от сенсорных устройств, б) дополнительные данные киберсоциального вида от участников и очевидцев из открытых источников сети Интернет. Киберфизические данные характеризуют критическое событие, показатели объектов, на которых оно происходит и числовые значения факторов внешней среды. Примерами данных в дорожно-транспортной среде являются: данные о состоянии комплекса фото и видеофиксации, количество транспортных средств (ТС), скорость, регистрационные номера, дата, время и координаты места нарушений и инцидентов, данные о нарушениях правил дорожного движения (ПДД), характеристики объектов в момент инцидента, тип нарушения или инцидента (превышение скорости, пересечение сплошной, пересечение стоп-линии, проезд на запрещающий сигнал, не пропуск пешехода, столкновение ТС, наезд на пешехода и т.п.), идентификатор и координаты фиксирующего устройства и т.п. К данным первого типа также относятся характеристики возможных факторов влияния, которые могут быть оперативными и ретроспективными. Ретроспективные данные используются для обучения прогностических моделей. В качестве примера таких данных в проекте использованы метеорологические данные. Киберсоциальные данные характеризуют критическое событие и объекты мониторинга со стороны очевидцев и являются дополнительными. К источникам данных относятся Web сайты, социальные сети, мессенджеры. Информация необходима для обогащения сенсорных данных и сравнительного анализа по аналогии с текущими событиями, обнаружения корреляционных зависимостей, обучения прогнозных моделей.
Консолидация данных от сенсорных устройств выполняется: а) на уровне телеметрических и диагностических данных о работе сенсорных узлов, б) на уровне параметров объектов мониторинга, в) на уровне характеристик возможных факторов влияния, г) на уровне данных о критических событиях. Здесь необходима обработка данных, чтобы повысить отношение сигнал/шум и удалить ненужную информацию. Этапом консолидации является выделение признаков для кластеризации и классификации в соответствующих пространствах, которыми могут быть технические параметры объектов мониторинга, значения показателей факторов и характеристики критического события, вычисляемые статистики по архивным данным.
В ходе консолидации выполняется предварительная обработка данных, которая включает ряд процедур, включая: а) очистку от дубликатов и информационного шума (выбросов, аномалий, пропусков в данных и т.п.), б) подтверждение достоверности посредством консолидации данных из разных источников, в) обогащение сенсорных данных изображениями с камер видеонаблюдения и мобильных устройств с распознаванием объектов мониторинга, г) повышение достоверности изображений из фотографий и видеороликов путем исключения дубликатов и очистки шума в виде некачественных и поврежденных элементов, д) формализацию и структуризацию текстовых описаний посредством перехода к векторным моделям ключевых слов и извлечением из текстовых сообщений числовых характеристик события, д) классификацию критических событий, е) кластеризацию событий в пространстве признаков (характеристик события и параметров факторов влияния), ж) извлечение архивных данных об аналогичных критических событиях и значениях возможных факторов влияния в заданных пространственных зонах и временных интервалах. для выявления корреляционных связей, з) формирование блоков данных с вычислением хэшей для идентификации, привязки к координатам места и времени события, установления связей и формирования распределенного реестра (блокчейн). Рассмотрим процедуры подробнее с описанием разработанных методов.
Первой процедурой является очистка от аномалий, пропусков и дубликатов. В процессе сбора данных могут возникать сбои в работе оборудования, приводящие к наличию выбросов, аномалий, пропусков и дубликатов данных. Аномалией считается отклонение значения параметра объекта мониторинга от среднего значения N за период времени. Аномалии могут представлять пиковые выбросы показателей или нулевые значения. Пропуски в данных возникают в случае сбоя в работе устройства или сетевого оборудования, например, в случае информационных атак. Дублирование данных может возникать в случае рассинхронизации приемного и передающего оборудования. Исключение аномалий и дубликатов сводится к восстановлению пропусков в данных, так как аномалии и дубликаты фактически можно представлять в виде пропусков. Алгоритм восстановления пропусков основан на методе k – ближайших соседей:
1. Выбирается k частей временного ряда, которым представлено изменение контролируемого параметра объекта или фактора. Набор данных разделяется на две части: интервалы времени с пропусками в данных Dr и без пропусков в данных Ds.
2. Векторы x из Dr разделяются на: вектора xr с пропущенными данными и xrs с полными данными.
3. Путем сравнительного анализа для k ближайших соседей (интервалов временных рядов) определяется разница между точками вектора xs и векторов из полного набора Ds.
4. После определения разницы относительно каждого вектора выбирается k наименьших результатов (наиболее близких соседей). Для каждого пропуска в Dr выбираются «соседние векторы». Зная интервал времени и точное время пропуска, из числа соседей выбираются аналогичные точки временного ряда и рассчитывается их среднее значение.
Следующим шагом является обработка и консолидация изображений из фотографий и видеороликов, полученных с устройств фото и видеофиксации. В ходе консолидации формируются наборы изображений распознаваемых объектов мониторинга и компонент окружающей среды. Так как в фоторадарных устройствах данная информация комбинируется с сенсорными данными от датчиков (лидаров, радаров), при консолидации одновременно извлекаются фиксируемые показатели объектов мониторинга, из которых можно получить данные о техническом состоянии в момент события. Основными задачами являются идентификация событий (нарушений и инцидентов), обнаружение и распознавание участников событий (пешеходов и ТС), обнаружение и распознавание других объектов, которые могли стать причиной событий и фактором влияния на риски их возникновений. Задачи усложняются в условиях плохой видимости, связанной с метеорологическими условиями, которые являются факторами влияния на инциденты. Например, капли воды или грязи, попав на стекла камер, делают изображения непригодными для обработки. Снижается точность идентификации и распознавания объектов, номерных знаков, траекторий движения ТС и т.д.
В ходе исследований разработан метод обнаружения, распознавания и классификации объектов мониторинга с повышенной точностью в условиях плохой видимости. Метод основан на использовании оператора Canny для исключения из рассмотрения некачественных (размытых, неконтрастных и т.п.) участков и участков изображения, поврежденных каплями воды или грязи. Для классификации изображений по оставшимся неповрежденным частям предложен комбинированный метод HOG-BoVW-BPNN, включающий метод гистограммы ориентированных градиентов (HOG), модель визуальных слов (Bag-of-Visual-Words, BOVW) и нейронную сеть с обучением способом обратного распространения ошибки (Back Propagation Neural Network - BPNN). При классификации поврежденных изображений метод показал значительное преимущество перед классическим методом сверточных нейронных сетей (convolutional neural network - CNN). Оператор Canny традиционно используется для определения границ изображения. Однако стандартный оператор Canny не имеет адаптивной способности выбирать дисперсию гауссовской фильтрации, которая влияет на сохранение края и эффект шумоподавления. Поэтому оператор был оптимизирован. Модель визуальных слов» (BoVW) используется для классификации и повышения точности оператора Canny. Разработанный метод с формулами и рисунками приведен в файле к отчету (Алгоритм 1) и включает следующие шаги:
1. Обнаружение границ областей объектов с использованием оператора Canny в качестве детектора границ с гауссовским фильтром для сглаживания изображения и удаления шума. Работа оператора включает а) задание уравнения для ядра фильтра Гаусса размером (2k+1)×(2k+1). б) поиск градиентов интенсивности изображения и подавление ложных краев детектором границ Canny. в) задание коэффициентов для двух порогов (80 для первого и 200 для второго) определения потенциальных границ. г) завершение обнаружения краев с подавлением слабых и несвязных.
Для иллюстрации работы алгоритма были выбраны «плохие» фотографии, на которых было нереально обнаружить необходимую область даже для человека (Рис. 4 файла к отчету). На них найти границы автомобилей можно только в области, где изображение не размыто. Работа ведется с изображением, преобразованным к шкале серого. Алгоритм смог найти ненулевые элементы слева, справа, вверх и вниз для обнаружения необходимой области.
2. Выделение объектов на изображении с использованием метрики степени пересечения между двумя ограничивающими рамками (Intersection over Union – IoU) (Рис. 5 файла к отчету). Чтобы получить метрику изображения преобразуются так, чтобы распознаваемый объект или область были выделены белым цветом, а оставшаяся часть изображения черным.
3. Обнаружение объекта на изображении по алгоритму синтеза гистограммы направленных градиентов (Histogram Oriented Gradients-HOG), который основан на допущении, что внешний вид и форма объекта на участке изображения могут быть описаны распределением градиентов интенсивности или направлением краев. Алгоритм является алгоритмом обучения и состоит из двух этапов: обучения модели и применение модели к новым данным. Алгоритм использует скользящее окно ячеек для генерации вектора признаков. В ячейках вычисляются гистограммы hi направленных градиентов внутренних точек, которые объединяются в одну гистограмму h = f(h1, . . . , hk) и нормализуются по яркости посредством мультипликатора нормализации (Формула 1 файла к отчету). При вычислении градиентов происходит свертка изображения с ядрами [−1, 0, 1] и транспонированная свертка [−1, 0, 1]T, в результате формируются матрицы производных Dx и Dy по осям x и y. Эти матрицы используются для вычисления углов и величин градиентов в каждой точке изображения. На Рис. 6 в файле к отчету показан результат применения метода HOG к изображениям машин, полученным через прозрачное и покрытое водой стекло фоторадарного комплекса. Капля воды приводит к размытию изображения (Рис. 6 (2)) и уменьшению градиента в соответствующей области HOG. На рисунке 6 (4) это темные области внутри гистограммы.
4. Обучение и кластеризация изображений выделенных объектов на основе нейронной сети BPNN и модели визуальных слов (изображений) BOVW для повышения производительности дескриптора Canny. Ячейки рассматриваются как части объекта, а полученная ранее гистограмма HOG представляет точкой для кластеризации. Гистограммы HOG всех ячеек объекта в обучающем наборе группируются в однородные группы с использованием метода K-средних, где центром класса считается усредненное значение HOG ячеек.
Пример фрагмента нейронной сети BPNN показан на рисунке 7 файла к отчету. Алгоритм обратного распространения ошибки является методом обучения многослойных нейронных сетей. Веса алгоритма BPNN для первой эпохи выбираются случайным образом, выходные результаты возвращаются и усредняются с входными параметрами. Далее веса обновляются и процесс повторяется для всех комбинаций в обучающих данных. Процесс прекращается, как только достигается заданное значение ошибки. В процессе обучения тестировались сети с различными комбинациями скрытых слоев и различным числом нейронов в каждом слое. Достаточной производительности достигла нейронная сеть 8-24-32-9-2, т.е. 8 нейронов во входном слое, первый скрытый слой с 24 нейронами, второй слой с 32 нейронами и третий слой с 9 нейронами и выходной слой с 2 нейронами. Среднеквадратичная ошибка обученной нейронной сети составляет 0,136043.
Разработанный метод протестирован для сравнения с методом на основе сверточной нейронной сети. Сравнения проводились на основе обучения двух моделей обучающих и тестовых наборов фотографий. Первая модель применяется для бинарной классификации и распознавания автотранспорта и пешехода в зоне действия фоторадарного комплекса, вторая для распознавания и классификации других объектов в зоне фиксации критических событий. Для обучения модели отобрано 1 700 фотографий с комплексов. Из фотографий вырезаны изображения автомобилей и людей (каждому классу было представлено 2000 изображений). Выборки разделены на обучающий набор изображений и тестовый набор изображений в соотношении 4 к 1 соответственно. Кроме того, создан второй тестовый набор изображений, состоящий из 300 изображений людей и 300 автомобилей. Этот набор отобран из фотографий, сделанных через стекло, покрытое каплями воды с искажениями объектов. Каждое изображение было масштабировано до размера 70x70 и классифицировано; 0 — машина, а 1 — человек (Рис. 8 файла к отчету).
Для сравнения выбрана CNN с размерами ядра для сверток — 3, для пулинга — 2 (Рис. 9 файла к отчету). В качестве функции потерь выбрана функция перекрестной энтропии и оптимизатор Адама со скоростью обучения 1e-4. Сеть CNN обучена в течение 10 эпох. Получена точность распознавания 90,6% на первый обучающий набор и 84,9% на первый тестовый набор. Второй тестовый набор показал точность 65%. При реализации метода HOG-BoVW-BPNN сформирован визуальный словарь, состоящий из 500 визуальных изображений. Словарь создан на основе тех же обучающих наборов. Метод HOG-BoVW-BPNN показал точность 86% на первом тестовом наборе и 79% на втором. Средняя производительность предложенного метода оказалась на 30% выше, чем у CNN.
Целью проекта является не только обнаружение и распознавание участников инцидентов (пешеходов и автомобилей), но и других объектов, которые могут играть роль факторов влияния на риски возникновения критических событий. Пример анализируемой фотографии показан на рисунке 10 файла к отчету. Камера снимает через стекло с каплями воды или грязи, что приводит к размытию границ объектов (Рис. 10(1)). Детектор Canny игнорирует размытую границу (Рис. 10(3)) и в преобразованном изображении соответствующий блок будет отфильтрован (Рис. 10(4)). Кроме автомобилей, в белые блоки преображенного изображения попали деревья, рекламный билборд и т.д. Для анализа инцидентов и установления связи с факторами влияния важно распознавать и фиксировать дорожные знаки, элементы дорожной разметки, границы полос движения, дефекты дорожного покрытия (ямы, сторонние предметы, лужи, зоны грязи, льда и снега и т.п.). Для примера работы метода при классификации по нескольким классам заданы следующие типы распознаваемых объектов: автомобили, пешеходы, дорожные знаки, светофоры, дорожные переходы, линии дорожной разметки. Для обнаружения объектов в зоне мониторинга во время инцидента и в условиях плохой видимости использована вторая модель наборов фотографий. Для обучения классификатора сформирован набор, где число изображений каждого типа объектов в среднем составляло около 1000. Для моделирования реальных условия работы камер, обученная модель была протестирована на изображениях, частично поврежденных каплями дождя или грязи. Результаты оценки точности классификации объектов представлены в нормализованной матрице погрешностей (Рис. 11 файла к отчету). В матрице можно наблюдать истинные показатели (значения диагоналей) и ложные показатели (записи столбцов кроме диагоналей) для класса.
Необходимость разработки данного подхода при консолидации информации обусловлена ограничениями традиционных методов компьютерного зрения для применения в реальных погодных условиях в регионах России. Традиционные методы хорошо работают в странах, где погодный условия близки к идеальным с минимальным количеством осадков, большим числом солнечных дней, фактическим отсутствием снега и метелей. Однако эти методы теряют точность распознавания и классификации при обработке изображений, искаженных каплями воды, снега, грязи, насекомыми. Разработанный метод HOG-BOVW-BPNN позволяет незначительно снизить точность распознавания объектов при частичной потере или искажении объектов на фотографии. Для повышения точности работы метода можно использовать несколько камер, снимающих с разных ракурсов и перекрывающих угол обзора друг друга.
Следующий этап консолидации реализуется в процессе сбора дополнительной информации о критическом событии из открытых источников Интернет. Основными процедурами являются:
а) Идентификация извлеченных описаний критических событий по известным пространственным и временным параметрам, полученным с сенсорных устройств.
б) Сравнительный анализ текстовых описаний события с разных источников данных (описаний от участников и очевидцев, информация с интегративных ресурсов) с целью сопоставления текстов и изображений для исключения дублирующей информации.
в) Анализ, фильтрация и структурирование текстовых описаний события согласно по приведенной далее методике, включая лексический разбор текстов, извлечение ключевых слов, очистки от избыточности (информационного шума), извлечения количественной информации, преобразование в векторную модель для структурирования информации.
д) Сравнительный анализ изображений с фотографий и видеокадров, полученных очевидцами на мобильные средства связи с целью исключения дубликатов, отбора фотографий и видеокадров с разных ракурсов для одного события для последующей обработки. Для сравнения и исключения дубликатов реализован подход на основе перцептивного хэш-алгоритма Simple (Average) Hash (aHash). Суть состоит в синтезе индивидуального «отпечатка», который описывает изображения в виде результата вычисления хэш-функции. Сравнение сводится к классификации изображений методом k-ближайших соседей.
е) Обработка оставшихся изображений по методу HOG-BoVW-BPNN для обнаружения, распознавания и классификации объектов-участников и объектов-факторов влияния.
ж) Интеграция текстовой, числовой и графической информации с привязкой к времени и координатам события в блоки данных с хэшированием хэша для связи с блоками в распределенном реестре (блокчейн).
Методика анализа и структурирования текстовой информации включает:
1) Извлечение метаданных, в роли которых выступают атрибуты сообщений: а) дата публикации и время, б) координаты места фиксации события и координаты публикации сообщения, в) имя (псевдоним, аккаунт) автора, г) метка местоположения автора (координаты, IP-адрес устройства), д) текст сообщения, е) фотография или видеоролик.
2) Фильтрация избыточной информации. Для отбора сообщений задается период времени, в течении которого извлекаемые сообщения считаются актуальными. Отбираются сообщения с наиболее ранней датой публикации и наиболее близкие к месту события. Выполняется сравнение текстов сообщений на предмет наличия схожих последовательностей и исключения дубликатов.
3) Лексический разбор текстов сообщений с выделением ключевых слов, удалением знаков препинания, «стоп-слов». Преобразование сообщений в вектора ключевых слов и числовых характеристик по алгоритму word2vec и технологии Томита-парсера согласно следующей схеме: а) синтез кортежей данных [входное слово, выходное слово], б) представление слов в виде двоичного вектора (код one-hot), в) синтез модели обучения с one-hot векторами, г) расчет функции перекрестной энтропии между истинным значением контекста слова и значением предсказанного слова и добавление кросс-энтропийной потери отрицательных семплов (целевое слово + слово вне контекста), д) определение семплированной логистической функции потерь в качестве оптимизации Loss=SigmoidCrossEntropy(Prediction,Correct Word)+∑_1^K▒〖E_(noise ID) SigmoidCrossEntropy〗 (Prediction,Noise ID), где SigmoidCrossEntropy –ошибка для одного источника, е) извлечение числовых характеристик события из сообщения и добавление в вектора слов.
5) Кластеризация векторов по методу «к-ближайших соседей». В качестве центроидов принимаются вектора с наибольшим числом ключевых слов. Фильтрация слабосвязанных или несвязанных сообщений согласно заданному порогу степени близости к центроидам.
6) Интеграция векторов слов и числовых характеристик с основными блоками сенсорных данных.
На следующем этапе выполняется отбор визуальной информации с места события (фотографий и кадров видеопотока). Для исключения дубликатов выполняется сравнение изображений двумя способами: а) с использованием алгоритма aHash на основе вычисления и сравнения хэшей изображений, б) с использованием метода опорных точек Speeded up Robust Features (SURF) на основе сравнения по десткрипторам. Сперва агент, реализующий алгоритм aHash, попарно сравнивает хэши изображений и совпадающие изображения фильтрует. Алгоритм включает шаги: а) изображение уменьшается до 32х32 пикселей для фильтрации высоких частот, б) изображение переводится в шкалу серого, в) вычисляется среднее значение цвета пикселей, в) синтезируется хэш-значение, г) для пикселей со значением выше среднего принимается значение 1, для остальных – 0. Тестирование алгоритма проводилось в сравнении с алгоритмами хэширования pHash и dHash на выборке из 2150 изображений с дубликатами. Часть изображений была искажена (поворот на 3 градуса, обрезка на 5 %, цветокоррекция, зеркальное отражение. Результаты сравнения алгоритмов приведены в таблице 1 файла к отчету. Для сравнения задавалось расстояние Хэмминга между хэшами, при котором изображения считались одинаковыми. При нулевом расстоянии Хэмминга алгоритм aHash показал высокое быстродействие, успешно обработал 41 случай обрезки, 1689 случаев цветокоррекции, 118 случаев поворота и 5 случаев зеркального отображения, обнаружил все дубликаты, получил одно ложноположительное совпадение. При расстоянии Хэмминга от 0 до 5 алгоритм aHash распознал: 1261 случай обрезки, 52 случая зеркального отображения, 1723 случая поворота и 2150 случаев цветокоррекции, все дубликаты, но получил 732 ложноположительных совпадений. При расстоянии Хэмминга от 0 до 10 алгоритм aHash распознал 2070 случаев обрезки, все случаи цветокоррекции, 2122 случая поворота и 208 зеркальных отображений, обнаружил все дубликаты, но число ложноположительных совпадений превысило размеры выборки.
Для повышения точности и уменьшения ложноположительных совпадений изображения сравниваются методом SURF. Метод основан на получение дескриптора, который инвариантен к изменению масштаба и вращению и включает шаги: а) определение особых точек на основе матрицы Гессе для реализации инвариантности к поворотам, б) применение фильтров разного масштаба и вычисление Гессиан для реализации инвариантности по масштабу, в) вычисление ориентации с помощью каскада примитивов Хаара, которое нивелирует перепады яркости, г) формирование дескриптора на основе описаний градиента для 16 квадрантов вокруг особой точки, д) взвешивание элементов дескриптора с коэффициентами Гауссова ядра, е) добавление к дескриптору следа матрицы Гессе, способствующего различению темных и светлых пятен.
Последовательность работы двух агентов позволяет получить оптимальное сочетаний быстродействия и точности, так как сравнение изображений путем расчета хэшей изображений более быстрое, но менее точное, а метод на основе дескрипторов более медленный, но более точным. С помощью быстрого метода хэширования фильтруется максимально возможное число изображений, а на втором этапе анализируется и сравнивается оставшееся число фотографий. Сравнение видеороликов выполняется аналогичным способом по отдельным кадрам. Так как число кадров может быть большим, то сравнение останавливается при получении попарных совпадений 20 кадров из двух роликов.
Для распознавания и классификации объектов-участников и элементов дорожной инфраструктуры на отобранных фотографиях и видеокадрах на следующем этапе использовалась пятислойная нейронная сеть с обратным распространением ошибки, которая рассмотрена ранее. Алгоритм работы сети представлен на рисунке 12 файла к отчету. Для обучения и тестирования было выбрано 3789 фотографий размеров от 75х75 до 1290х704 пикселей. Изображения сегментировались на ячейки размерами 75х75 пикселей и 25х25 пикселей с помощью созданного инструментария на языке Python. На основе выборки фотографий было получено 46047 файлов с крупными ячейками и 470898 с мелкими. Для увеличения числа изображений разработан модуль мультиплицирования, который добавляет повернутые и зеркально отображенные изображения в выборку. Выборки были увеличены до 368376 крупных ячеек и 3767184 мелких. Обучение сети было реализовано на трех классах: деревья, конструктивные элементы инфраструктуры и газон. Для тестирования и работы с сетью были размечены изображения размером 256×256 пикселей в количестве 2880 шт. «зданий и сооружений», 7900 шт. «элементов инфраструктуры», 10 000 шт. «деревьев», более 5000 шт. «луж и водоемов», 1600 шт. «автомобилей» и 800 шт. «участков дорог с дефектами покрытия». Сеть позволяет выявлять на снимках объекты данных классов. Обучение модели нейронной сети проводилось при помощи библиотек глубокого обучения Keras, Open-CV и Numpy.
Информация, полученная в результате консолидации, представляет набор блоков для загрузки в распределенное хранилище. Данные, которые в дальнейшем извлекаются из блоков представляются в табличном и графическом виде для визуализации или в виде файлов json, xml для аналитических приложений и файлов с разделителями csv для синтеза временных рядов. Идентификатором блока служит двойной хэш, вычисляемый для информационной составляющей блока и метаданных. Блоки текстовых и числовых данных связаны через хэширование с файлами отобранных изображений. Метаданные блоков связываются в древовидную структуру.
Для демонстрации работы программных средств консолидации были получены данные с 15 участков дорог различного значения (с 7 участков автомагистрали федерального значений трассы М% Урал в Самарской области и, с 3 участков дорог регионального значения в Пензенской области и с 5 участков дорог городского значения в городе Пенза). Консолидированные сенсорные данные выгружены и собраны из нескольких десятков документов со статистикой проездов с камер автоматической фото и видеофиксации. Интернет ресурсы с большими данными выгрузки с фоторадарных комплексов за выбранные интервалы за 2021 год на разных участках двух регионов для проектных исследований: https://yadi.sk/d/_Yn4eTsSvBL-w, https://yadi.sk/d/JRbAk3TwCmqCHg. Настройки Power Pivot для быстрого анализа, сортировки и синтеза сводных таблиц и графиков находятся на Яндекс диске и
https://yadi.sk/d/KfHc1KlLY2Rk9A.
В качестве первого примера больших данных выгружено для предварительной обработки и консолидации 1 004 112 записей с 7 фоторадарных комплексов фото и видео фиксации за месяц (с 10.11.2021 по 12.12.2021 года): на участке – Самарская область, а/д М5 Урал 1036 км. – 140600. В ходе анализа на участке зафиксировано 8 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 2 превышения более 40 км/ч, что относится к серьезным правонарушениям.
Участок - Самарская область, а/д М5 Урал 1043 км – 148882 записи. В ходе анализа на участке зафиксировано 255 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 11 превышений более 40 км/ч, что относится к серьезным правонарушениям.
2) Участок - Самарская область, а/д М5 Урал 1044 км - 149438 записи. В ходе анализа на участке зафиксировано 197 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 11 превышений более 40 км/ч, что относится к серьезным правонарушениям.
3) Участок - Самарская область, а/д М5 Урал 1107 км. – 156660 записей. В ходе анализа на участке зафиксировано 1191 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 96 превышений более 40 км/ч, что относится к серьезным правонарушениям.
4) Участок – Самарская область, а/д М5 Урал 1154 км., в сторону Уфы и в сторону Самары – 141960. В ходе анализа на участке зафиксировано 1062 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 85 превышений более 40 км/ч, что относится к серьезным правонарушениям.
5) Участок - Самарская область, а/д Самара-Бугуруслан" 117 км. + 607 м." – 141447. В ходе анализа на участке зафиксировано 179 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 17 превышения более 40 км/ч, что относится к серьезным правонарушениям.
6) Участок - Самарская область, г. Отрадный, ФАД М-5 Урал" – 140825. В ходе анализа на участке зафиксировано 259 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 3 превышения более 40 км/ч, что относится к серьезным правонарушениям.
В процессе консолидации после очистки и нормализации из выгруженные данных оставлены данные для анализа. Анализ выполнялся для участков со скоростными ограничениями 60/70/90 км/ч с целью выявления нарушения правил дорожного движения и выявления корреляционных взаимосвязей с внешними факторами. Максимальное число правонарушений при фиксации движений транспорта в одну сторону выявлено на участке Самарская область, а/д М5 Урал 1107 км (1191 нарушение) и здесь же выявлено большинство серьезных нарушений скоростного режима (96). На участке установлена камера фотовидеофиксации КОРДОН Темп (КОРДОН-МТ0148-KD0357) с фиксацией нарушений в сторону Уфы. Участок представляет собой прямую четырехполосную магистраль длиной 14 км, ровную без подъемов и спусков, в хорошей зоной видимости. В качестве второго примера больших данных зафиксировано и выгружено для предварительной обработки и консолидации 1 048 568 записей с 8 фоторадарных комплексов фото и видео фиксации за несколько суток в Пензенском регионе и городе Пенза. В процессе консолидации после очистки и нормализации оставлены только данные для анализа (таблица 2 файла к отчету). Обработка и анализ данных выполнялся для участков дорог в городской черте со скоростным ограничением 60 км/ч с целью выявления нарушения правил дорожного движения и выявления корреляционных взаимосвязей с внешними факторами.
1) Участок - в Пензенской области, р.п. Колышлей, 55-й км дороги г.Тамбов-г.Пенза-р.п.Колышлей-г.Сердобск-р.п.Беково, (в сторону Пензы и в сторону Беково) за промежуток времени с 07 апреля по 13 мая 2021 года – 140732 записи. В ходе анализа зафиксировано 259 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 26 превышений более 40 км/ч, что относится к серьезным правонарушениям.
2) Участок - в г. Пенза. ул. Коннозаводская, д. 33А (в сторону ул. Ягодная и в сторону ул. Подлесная) за промежуток времени с 29 апреля по 13 мая 2021 года - 141070 записи. В ходе анализа на участке зафиксировано 34 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 5 превышений более 40 км/ч, что относится к серьезным правонарушениям.
3) Участок - в г. Пенза, ул. Стасова, д.14 (в сторону пр-кт. Строителей и в сторону ул. Рахманинова) за промежуток времени с 05 мая по 13 мая 2021 года – 140380 записей. В ходе анализа на участке зафиксировано 249 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 5 превышений более 40 км/ч, что относится к серьезным правонарушениям.
4) Участок - в г. Пенза ул. Коммунистическая, д.15 (в сторону пр. Победы и в сторону ул. Кулакова) за промежуток времени с 05 мая по 13 мая 2021 года – 140213. В ходе анализа на участке зафиксировано 588 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 22 превышений более 40 км/ч, что относится к серьезным правонарушениям.
5) Участок - в г. Пенза ул. 8 Марта, д.27 (в сторону ул. Карпинского и в сторону ул. Гастелло) за промежуток времени с 07 мая по 13 мая 2021 года – 139667. В ходе анализа на участке зафиксировано 701 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 23 превышений более 40 км/ч, что относится к серьезным правонарушениям.
6) Участок - в г. Пенза, ул. Павлушкина, д. 7 (в сторону ул. Баумана и в сторону ул. Демченко) за промежуток времени с 06 мая по 13 мая 2021 года – 140071. В ходе анализа на участке зафиксировано 456 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 10 превышений более 40 км/ч, что относится к серьезным правонарушениям.
7) Участок - в Пензенской области, с. Бессоновка, в сторону Пензы, 5-й км дороги г.Пенза-р.п. Лунино (в сторону ул.Рябинка и в сторону ул.Трудовая) за промежуток времени с 04 мая по 13 мая 2021 года – 1405317. В ходе анализа на участке зафиксировано 189 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 13 превышений более 40 км/ч, что относится к серьезным правонарушениям.
8) Участок - в Пензенской области, Пензенская область, 1-й км дороги г.Пенза-р.п.Шемышейка-с.Лопатино (в сторону г. Пенза и в сторону с. Лопатино) за промежуток времени с 09 мая по 13 мая 2021 года – 65940. В ходе анализа на участке зафиксировано 126 превышений скоростного режима более 20 км/ч, что является правонарушением с административным штрафом и 4 превышений более 40 км/ч, что относится к серьезным правонарушениям.
Результаты анализа зафиксированных показателей дорожного движения и правонарушений записываются в таблицы и визуализируются в виде отчетов и графиков. Результаты мониторинга собираются в структуры с помощью надстройки Power Pivot Excel для построения сводных таблиц и графиков. Графики показывают результаты кластеризации и анализа фиксируемых показателей для разных участков и временных промежутков. Вертикальные красные пунктирные линии на графиках показывают скоростные ограничения и скорости для максимального количество ТС на контролируемом участке. Графики на рисунках 13,14,15 в файле к отчету демонстрируют отношение средней скорости ТС на участке к установленному скоростному лимиту. В частности, по графике 14 видно, что средняя скорость сильно ниже установленного лимита, что резко снижает показатели аварийности данного участка. График на рисунке 15 демонстрирует обратную ситуацию и показывает негативную тенденцию к увеличению количества аварий на участке. Графики на рисунке 16 файла к отчету дают почасовую статистику соблюдения скоростного лимита на участке. 4 графика показывают фиксацию показателей в две стороны движения в течении часа, для которого сделан срез из данных за несколько дней. Графики показывают превышение средней скорости ТС на участке на 10-15 км/ч выше лимита в определенное время, после чего наблюдается резкий спад. Графики демонстрируют что большинство ТС двигаются с нарушением скоростного режима на данном участке в рамках не штрафуемого лимита. При превышении скорости наблюдается резкое снижение количества ТС, показывающее небольшое число нарушений свыше лимита в 20 км/ч. По графикам можно отметить факт, что практически на всех участках города в ночное время (с 0 до 6 часов) количество нарушителей скоростного режима в отношении к общему числу ТС увеличивается на 500-800%, что подтверждает корреляцию с временным фактором. Графики на рисунке 17 файла к отчету показывают результаты сравнительного анализа нарушений скоростного режима для разных участков. В соответствии с ним наиболее негативную тенденцию создаёт улица 8 Марта г. Пенза, а самую позитивную в плане снижения аварийности ул. Коннозаводская при сопоставимом количестве проездов. Фактором, влияющим на снижение нарушений и аварийности является неудовлетворительное качество дорожного покрытия и ремонтные работы, что является причиной снижения скорости на данном участке. Графики на рисунке 18 файла к отчету показывают результаты почасового анализа превышений скоростного лимита на 4 участках в Самарской области на трассе М5 Урал.
Для визуализации и анализа результатов мониторинга инцидентов на цифровой картографической основе создано программное приложение (результат 3 этапа проекта). Приложение позволяет отображать информацию о нарушениях и ДТП на карте города (на примере карты города Пензы и Пензенского района), подключённой через API-ключ разработчика Яндекс карт. Приложение предоставляет набор операций для взаимодействия с картой. Пространственный анализ позволяет выявлять корреляционную зависимость показателей ДТП с учетом степени тяжести от нарушений правил дорожного движения с учетом временных факторов и сезонности. Геопространственные метки нарушений и ДТП представлены группами разных цветов в зависимости от степени тяжести и серьезности. Они сгруппированы в круговые диаграммы в зависимости от масштаба карты (Рис. 19 в файле к отчету). При нажатии на диаграмму масштаб увеличивается и отображаются метки происшествий и нарушений (Рис. 20 в файле к отчету). При выборе метки отображается тип ДТП (Рис. 21 в файле к отчету) и сопутствующая информация. Типы ДТП обозначены цветовыми маркерами и приведены в списке (Рис. 22 в файле к отчету). При выборе метки пользователю становится доступной информация о подробных характеристиках инцидента (дате и времени, географическим координатам, адресу, сведениях об участниках и т.п.) (Рис. 23 в файле к отчету). Анализ инфографики инцидентов позволяет ранжировать типы ДТП по их частоте и выполнить кластеризацию типов с привязкой к местности. В частности анализ ДТП в выбранном регионе за указанный период. Анализ показал, что наиболее частыми типами ДТП в городе являются столкновения автомобилей и наезды на пешеходов. Наибольшая плотность мест ДТП за выбранный период наблюдается в центре города (Ленинский район) и в районе расположения крупных предприятий (Октябрьский район). Наименьшее количество ДТП замечено в Первомайском и Железнодорожном районах города. Одним из сложных участков по частоте и критичности инцидентов является пересечение улиц Максима Горького и Кирова, где было зафиксировано максимальное число тяжких ДТП, в том числе с летальным исходом участников (Рис. 24 в файле к отчету). В ходе исследования также выявлена зависимость числа инцидентов в городе от загруженности дорожной сети, что заметно при резком возрастании загруженности и числа инцидентов в часы пик (с 7.30 до 9.30 и с 17.00 до 19.00). Также влияет освещенность и осадки, связанные с сезонным характером явлений. Для анализа транспортной загруженности разработан алгоритм, с помощью которого реализуется автоматический сбор данных о скоростях движения на дорогах с общедоступных сервисов и расчет средних значений скоростей ТС (Рис. 25 файла к отчету. В ходе экспериментов выявлены оптимальные параметры работы алгоритма (Таблица 3 файла к отчету): размер «тайла» –области, соответствующей части города для сбора данных, периодичность считывания данных, период времени для расчета средней скорости, интервал между обновлениями средних скоростей. Данные для анализа на карте города Волгоград получены с помощью карт OpenStreetMap и бесплатного сервиса Mapzen (Рис. 26 файла к отчету).
Примером выгружаемых данных, которые в проекте считаются факторами влияния, являются метеорологические данные. Для работы был выгружен архив метеоданных для города Пенза в период времени с 01.03.2021 по 13.05.2021 с сайта https://www.worldweatheronline.com. Для работы с метеоданными приобретен ключ 97da4e9c88b24b27a6d71010222604. Пример запроса Premium API Interactive Explorer для парсинга и выгрузки данных: json:http://api.worldweatheronline.com/premium/v1/past-Weather.ashx?key=97da4e9c88b24b27a6d71010222604&q=PENZA&format=json&extra=localObsTime&date=2021-04-01&enddate=2021-05-13. Данные получены в виде файла json. Фрагмент скрипта с данными за одни сутки 26.04.2021 приведен в файле к отчету (Скрипт 1). В качестве факторов влияния оставлены суточные показатели: температур (maxtempC, mintempC, avgtempC), высоты снежного покрова (totalSnow_cm), величины светлого времени суток (sunHour), скорости и направления ветра (windspeedKmph, winddir16Point), погодных условий (weatherDesc), среднего давления (precipMM, pressure), видимости (visibility), влажности (humidity), облачности (cloudcover), которые использовались для синтеза временных рядов с суточными интервалами за определенный период, сравнения с временными рядами за аналогичные периоды в прошлом, сопоставления с временными рядами нарушений и инцидентов на аналогичные периоды и обучения прогностических моделей для среднесрочных прогнозов. Также отбирается информация о почасовых погодных условиях в течении суток для синтеза временных рядов, сопоставления с моментами нарушений и инцидентов, отбора существенных метеофакторов влияния, сопоставления с временными рядами нарушений/ инцидентов и обучения прогностических моделей для краткосрочных прогнозов. Почасовые ряды строятся для показателей: температура (tempC), температура точки росы (DewPointC), температура охлаждения ветром (WindChillC), скорость ветра (windspeedMeterSec), направление ветра в градусах (winddirDegree), давление (precipMM, pressure), видимость (visibility), влажность (humidity), облачность (cloudcover). Для повышения достоверности информации производится сравнение с данными из базы данных с российского сайта www.pogodaiklimat.ru за аналогичный период.
II. Следующим результатом проектных исследований является разработка модели и метода обеспечения информационной безопасности для защиты больших сенсорных данных в распределенном информационном хранилище на сенсорных и мобильных узлах сбора данных и в каналах связи телекоммуникационной среды в процессе сбора, передачи и хранения на основе технологий распределенного реестра (блокчейн).
Переход к использованию беспроводных технологий для мониторинга объектов с целью предупреждения критических событий требует использования новых подходов к обеспечению безопасности телекоммуникационной сети. В системах мониторинга и диспетчерского управления часто отсутствуют механизмы управления рисками критических событий, недостаточно реализованы меры по обеспечению информационной безопасности. Для обеспечения безопасности решено использовать программно-конфигурируемую сеть (SDN) с поддержкой технологии блокчейн и интеллектуального анализа пакетов данных для выявления информационных атак. Парадигма SDN предполагает отделение уровня управления и уровня данных от сетевых устройств и представление их в виде отдельных объектов. За управление логикой работы сети отвечают SDN контроллеры, а коммутаторы играют роль ретрансляторов пакетов данных согласно правилам таблиц потоков. SDN контроллеры чувствительны к DDoS атакам, что требует включения программных средств для предотвращения DDoS-атак с использованием технологий машинного обучения, виртуализации сетевых функций, сегментирования, статистического анализа и блокчейн. В проекте на данном этапе разработаны модель и метод обеспечения целостности и конфиденциальности сенсорных данных в транспортной среде с использованием технологий блокчейн для проверки подлинности узлов и пакетов данных, синтеза правил таблиц потоков и организации распределенного реестра. Для реализации блокчейн сенсорные устройства (фоторадарные системы, камеры видеонаблюдения, счетчики энергоресурсов, измерительные устройства и датчики) регистрируются в распределенном реестре, а операции по обмену данными представляются в виде транзакций. Примеры транзакций: а) регистрация устройств, б) регистрация и аутентификация удалённых пользователей, в) сбор данных, г) слежение за мобильными системами и т.д. В последних исследованиях для защиты от DDoS атак и атак флудинга предлагается использовать блокчейн совместно с SDN архитектурой. В SDN архитектуре блокчейн используется в качестве механизма обновления, модификации и валидации таблиц правил потока для коммутаторов.
Рассмотрим комбинированный подход к обеспечению безопасности в транспортной среде. Основная идея состоит в использовании распределенного реестра для защиты транзакций обработки данных, децентрализованного хранения данных и применения SDN для управления потоками данных. Для объединения блоков данных в распределенный реестр используется идентификатор блока в виде результата вычисления хэш функции. Он добавляется в заголовок и к транзакциям, записываемым в блок. Таким образом реестр формируется из множества блоков, связанных друг с другом за счет включения хэша предыдущего блока в текущий. Для обеспечения целостности данных в реестре в проекте применяется способ двойного хэширования. Связи последовательных записей реестра обеспечиваются двумя хэшами, которые вычисляются для основной части записи и для ее метаданных. При этом каждая из частей записи используется для вычисления хэша другой части. Затем полученный хэш вставляется в заголовок другой записи по аналогии с водяным знаком электронного документа. Если хэш не обнаружен в записи или не совпадает после вычисления, то это означает, что данная запись была модифицирована.
Модель SDN архитектуры для обеспечения безопасности данных в распределенном хранилище на сенсорных и мобильных узлах и в каналах связи включает четыре слоя (рис. 27 в файле к отчету): граничный слой оконечных сенсорных узлов, шлюзов-маршрутизаторов и плоскость данных SDN коммутаторов (функции - сбор, ретрансляция и фильтрация пакетов сенсорных данных), зональный слой контроллеров и серверов, включая плоскость управления SDN контроллеров (функции - туманная обработка, хранение и агрегирования сенсорных данных), облачный слой серверов центра обработки данных (функции - обработка и предиктивный анализ данных, хранение), мобильный слой пользовательских устройств и приложений (функции – представление и визуализация результатов). Нижний граничный слой отвечает за сбор сенсорных данных и их обработку SDN коммутаторами в соответствии с правилами таблиц потоков, которые формируются в результате контроля подлинности сетевых узлов и проверки сетевых пакетов в контроллерах туманного слоя. Он включает nk сенсорных узлов из конкретной географической зоны Z, которые подключены к SDN коммутаторам Gz и представлены как s1к, s2к, s3к, …, snк. Если множество узлов размещено на одном объекте мониторинга, то для сбора однотипных данных используются шлюзы с программными брокерами. Валидация источников и пользовательских запросов, а также анализ и кластеризация пакетов для обнаружения атак реализована в плоскости управления SDN контроллеров. Они расположены вместе с серверами пространственной зоны на туманном слое. Пакеты данных p1, p2, p3 ,…, рm от сенсорных узлов или шлюзов направляются на коммутаторы своей зоны Gz1, Gz2 ,…, Gzk, которые фильтруют нетипичные пакеты и пакеты от неавторизованных узлов согласно правилам таблиц потоков, сформированных контроллерами Uzi. Затем пакеты от подлинных узлов поступают на обработку и хранение в распределенное хранилище данных на зональных серверах туманного слоя. Метод обеспечения безопасности на основе технологий распределенного реестра состоит из нескольких этапов.
1. На первом этапе SDN коммутаторы выполняют фильтрацию недопустимого трафика посредством проверки номеров портов в сегментах транспортного уровня. Номера портов связаны с прикладными протоколами передачи данных, например HTTP (порты 80 и 443), FTP (порты 20 и 21), SMTP (порты 25 и 465) и т.п. Отбор транспортных сегментов с номерами разрешенных портов определяет допустимый трафик. Пакет данных, не соответствующий правилу для конкретного вида трафика, фильтруется коммутаторами. Фильтрация трафика может производится по другим критериям, например по времени жизни пакета (Time To Life – TTL), по размеру пакета (Total Size), по IP адресам, по лимиту и т.д. Пример обработки трафика представлен скриптом (скрипт 2 в файле к отчету), который начинается с инициализации сенсорных узлов. Узлы передают четыре вида трафика о критическом событии: трафик видеопотока Tvideo, FTP трафик с фотографиями событий Timage, трафик хml файлов данных Thttp, трафик SNMP с диагностическими и тестовыми запросами к фоторадарным комплексам Tsnmp. Тип трафика и номера портов проверяются коммутатором согласно правилам фильтрации пакетов в таблице потоков. Трафик с недопустимым номером фильтруется, а оставшиеся пакеты перераспределяются между коммутаторами в группе для балансировки загрузки.
2. На втором этапе решается задача синтеза и проверки подлинности цифровых подписей сетевых узлов транспортной среды в SDN контроллерах для защиты от атак и обеспечения безопасности. Процедура необходима для выявления неавторизованных, поддельных или скомпрометированных узлов, добавления их в черный список и фильтрации трафика от них. Подсистема проверки подлинности узлов включает анализатор, модуль кластеризации, блокчейн со схемой линейной гомоморфной подписи для идентификации узлов, модуль журнализации (рис. 28 в файле к отчету). Для проверки подлинности узлов на уровне управления в контроллере работает смарт контракт, реализующий алгоритм линейной гомоморфной подписи (LHS). Проверяемый идентификатор узла (сигнатура) синтезируется путем комбинации двух хэш-функций (формула 2 в файле к отчету): a) H1 (Id,(X,Y)), где входными данными являются идентификатор сенсорного или мобильного устройства Id, координаты его широты и долготы (X,Y); b) H2(T), где T –точка на эллиптической кривой в конечном поле c координатами (x,y): {(x,y)(ℝp)2 | y2=x3+ax+b (mod p), 4a3+27b2≠0 (mod p)} ∪ {0} , где ℝp конечное поле целых чисел a, b по модулю p, 0 – точка в бесконечности. Точка эллиптической кривой включена для повышения безопасности реального узла, чтобы усложнить процедуру возможной расшифровки сигнатуры, которая базируется на проблеме дискретного логарифма в группе точек эллиптической кривой.
Подпись узла можно представить как комбинированный хэш S: S = (H1(Id,(X,Y)),H2(T(x,y)).Для вычисления первой части цифровой подписи H1(Id,(X,Y) применяется алгоритм SHA-256 (Secure Hash Algorithm), который используется в блокчейн как алгоритм хэширования биткойна. Для синтеза второй части подписи H2(T(x,y) используется алгоритм с открытым ключом ECDSA (Elliptic Curve Digital Signature Algorithm) определённый в группе точек эллиптической кривой. Алгоритм генерации подписи выполняется итерационно (Алгоритм 2 в файле к отчету по следующим шагам: а) выбирается случайное целое число m {1,…,n-1}, где n – порядок группы; б) определяется точка на кривой T = mP, где P — базовая точка подгруппы, в) рассчитывается параметр y = xP mod n, где xP - координата х точки P; г) Если y = 0, то выбирается другое число m и переход к пункту 2, д) вычисляется S = m-1 (H2+x H1) mod n, е) если S = 0, то выбирается другое число m и переход к пункту 2.
Подпись S проверяется блокчейном и позволяет сертифицированным узлам совершать транзакции по сбору и хранению сенсорных данных от доверенных источников, а авторизированным пользователям получать доступ к результатам мониторинга. Валидация источников данных и устройств удаленного доступа с добавлением их адресов в правила потока необходимо для обнаружения поддельных источников и фильтрации трафика от них на граничном слое. Пакеты от таких узлов объявляются вредоносными, их характеристики передаются в модуль кластеризации для распознавания аналогичных пакетов. Выявленные адреса скомпрометированных источников добавляются в черный список адресов соответствующих журналов. Журнализация является мерой по обеспечению безопасности и процедурой подготовки данных для аудита сети. SDN контроллер ведет журналы адресов, признаков вредоносных пакетов данных и событий безопасности, обеспечивая доступ к ним сетевым администраторам.
3. На третьем этапе работает алгоритм обработки и валидации пакетов от сетевых узлов. Он реализован в виде смарт-контракта с исполняемым кодом. Для реализации в SDN выбрана технология блокчейн Ethereum с сохранением состояния. Это связано с: а) необходимостью использования смарт контрактов, б) высокой производительностью Ethereum при проведении транзакций. Децентрализованная сенсорная сеть подвержена не только DDoS атакам, но атакам с изменением пакетов данных. Процедура анализа реализуется в SDN контроллере и позволяет выявлять нетипичное поведение сенсорных узлов. Пакеты выделяются парсером из потока передаются в анализатор. Модуль анализа извлекает характеристики пакета (признаки) из его заголовка. Характеристики используются для кластеризации пакетов в пространстве признаков и определения сходства с ранее обнаруженными вредоносными пакетами с последующим применением правила фильтрации. Если узел может создать поддельную подпись и подменить IP адрес, то характеристики пакета слишком сложны для их одновременной модификации во вредоносных программах, поэтому кластеризация пакета в пространстве признаков позволяет выявить его компрометацию. Факты атаки и характеристики пакетов после кластеризации сохраняются в журнале безопасности и используются как точки в пространстве признаков, относительно которых определяется сходство других пакетов. Журналы с описанием пакетов хранятся в контроллерах SDN и доступны для администраторов при аудите безопасности.
Для обнаружения и кластеризации пакетов реализован подход на базе нечеткой логики и нейронной сети. По результатам принимается решение о фильтрации или ретрансляции пакетов и синтезируются новые правила таблицы потоков. Комбинация двух подходов сочетает достоинства нечеткой логики и нейронных сетей. Для обучения нейронной сети используются журналы нетипичных пакетов. Параметры функции принадлежности пакетов к кластерам настраиваются посредством алгоритма обучения нейронных сетей, а вывод о принадлежности и степени сходства с вредоносными пакетами формируется с помощью аппарата нечеткой логики. Для кластеризации в пространстве признаков выбрано девять характеристик: IP-адрес источника (IP_src), IP-адрес назначения (IP_Dst), длина заголовка (Head_Lng), полная длина пакета (Total_Lng), идентификатор фрагмента (Frag_Id), время жизни пакета (TTL), тип сервиса (Srv_ type) извлекаются из заголовка IP пакета сетевого уровня, номер порта протокола отправителя (Port_Srv), номер порта протокола получателя (Port_Dst) (извлекаются из TCP или UDP сегмента транспортного уровня). Алгоритм нечеткой кластеризации подробно с формулами приведен в файле к отчету (Алгоритм 3) и включает следующие шаги: а) задается число кластеров пакетов M, которое корректируется в процессе обучения и выбирается степень нечеткости целевой функции m; б) входные наборы характеристик пакета составляют вектора признаков Xj и определяют точку в пространстве, которая может входить в кластеры с центроидами C(k) и вероятностной функцией принадлежности (степень близости к центроиду как расстояние Dk); в) точки случайным образом распределяются по кластерам и формируется матрица степеней близости к центроидам; г) вычисляются координаты центроидов как мера близости точек кластера; д) определяются расстояния между точками и центроидами; е) пересчитываются степени принадлежности точек к кластерам и обновляется матрица распределения точек; ж) для остановки итерационного процесса задается параметр ε > 0.
Алгоритм определяет вероятностную принадлежность пакета данных к кластерам нетипичных пакетов. Вероятностная степень принадлежности входит в 3 интервала: а) 0 - 33 (%), б) 34 – 66 (%), в) 67 – 100 (%). Решение об уничтожении пакета и синтезе правил фильтрации принимается при попадании пакетов в 3 интервал. Такой пакет считается нетипичным, а источник идентифицируется как вредоносный узел и адрес добавляется в исключающее правило таблицы потоков. Если по степени принадлежности пакет попадает в 1 интервал, то он ретранслируется и создается правило для ретрансляции аналогичных пакетов от проверенного источника. Попадание пакета во второй интервал означает, что его степень близости к кластерам нетипичных пакетов под вопросом. Однако пакет и источник нельзя считать нормальными, поэтому считается, что он является новым классом нетипичных пакетов. Точка, соответствующая вектору признаков данного пакета, становится центроидом нового кластера. Число кластеров увеличивается на единицу и выполняется алгоритм кластеризации с перераспределением векторов (обучение алгоритма кластеризации).
4. Следующий этап включает процедуру обучения алгоритма обнаружения и кластеризации нетипичных пакетов, который реализуется посредством нечёткой нейронной сети. Подробное описание нечеткой нейронной сети и алгоритма обучения приведено в файле к отчету (Нечеткая нейронная сеть). Сеть представляет пятислойную структуру с весовыми коэффициентами и функциями активации (Рис. 29 в файле к отчету). Выходной сигнал определяется функцией агрегирования для M правил и N переменных (на входе сети N=9 характеристик пакетов). Функция принадлежности (фуззификации) для переменной xj представляется функцией Гаусса. Правила вывода выходных переменных Y=(y1,y2,…,yM) для множества переменных Х=(x1,x2,…,x9), принимающих множество значений A_j^((k) ) представляет матрицу значений функций принадлежности размера 9×M. Для снижения сложности в рамках работы допускаем, что количество правил совпадает с количеством функций принадлежности, хотя они могут быть отличаться.
В первом слое сети осуществляется фуззификация для каждой переменной xj. При этом для каждого правила Rj определяются значения функции принадлежности. Во втором слое определяются коэффициенты wk путем агрегирования значений переменных xi. Параметры wi передаются в 3-й слой, где умножаются на значения yi(x), а также в четвертый слой для вычисления суммы весов. На третьем слое рассчитываются значения y_i (x), которые умножаются на весовые коэффициенты wk. Линейные параметры zk0 и zkj являются функциями следствий правил, а zk0 рассматривается как центр функции принадлежности. Четвертый слой представлен двумя нейронами: f1 и f2 выполняющими агрегирование результатов. Пятый слой представлен одним нейроном, где веса подвергаются нормализации и вычисляется выходная функция. Нейронная сеть содержит первый и третий параметрические слои, в которых значения параметров подбираются на этапе обучения. Параметры первого слоя считаются нелинейными, а параметры третьего слоя линейными.
Обучение выполняется в два шага. На первом шаге подбираются параметры функций принадлежности третьего слоя посредством фиксации отдельных значений параметров и решения системы линейных уравнений. Выходные переменные заменяются эталонными значениями dP (P – число обучающих выборок). Система уравнений записана в матричном виде: DP = W*Z. Решение системы уравнений находится посредством псевдоинверсной матрицы W+: Z=W+DP. Далее после фиксации значений линейных параметров zkj рассчитывается вектор Y фактических выходных переменных и определяется вектор ошибки E = Y - DP. На втором шаге ошибки направляются в обратном направлении до первого слоя, где рассчитываются параметры вектора градиента целевой функции принадлежности относительно нелинейных параметров. Затем выполняется корректировка функции принадлежности методом быстрого спуска по градиентному способу. После уточнения нелинейных параметров снова запускается процесс адаптации линейных и нелинейных параметров. Итерационный процесс повторяется пока не стабилизируются все параметры процесса.
Результатом работы алгоритма кластеризации является синтез правил обработки пакетов и включение адресов источников в правила таблицы потоков. SDN коммутаторы обрабатывают пакеты согласно правилам таблицы потоков, фильтруя нетипичные и ретранслируя нормальные пакеты от сенсорных и мобильных узлов. Процедуры проверки подлинности узлов и распознавания нетипичных пакетов обеспечивают доказательство подлинности транкзакций в блокчейн. Пример фрагмента смарт контракта, демонстрирующего работу парсера и анализатора приведен в файле к отчету (Скрипт 3). Согласно смарт контракту пакеты классифицируются, нетипичные пакеты фильтруются, а нормальные пакеты от авторизованных узлов ретранслируются коммутаторами. Признаки нормальных и нетипичных пакетов, адреса узлов сохраняются в журналах. Журналы включают признаки нетипичных пакетов, идентификатор вредоносного узла, IP-адрес, время обнаружения атаки, координаты узла, тип транзакции в блокчейн.
Для моделирования работы архитектуры SDN сети, реализующей технологию блокчейн, был выбран симулятор для дискретно-событийного моделирования сетей Network Simulator версии 3 (NS3). В ходе моделирования сгенерировано 250 блоков, тестирование которых выполнялось 10 майнерами. Блоки распределенного реестра синтезировались в среднем с интервалом в 12 секунд. Для оценки эффективности работы алгоритма нечеткой кластеризации были созданы 5 неавторизованных узлов, которые генерировали в общем потоке нетипичные пакеты в среднем раз в секунду. В модели сети OpenFlow коммутаторы работали с 40 потоками. С коммутаторами работали 2 контроллера, которые анализировали характеристики пакетов для кластеризации. В результате получены оценки показателей функционирования архитектуры, такие как задержка передачи, время реакции, пропускная способность и точность распознавания нетипичных пакетов. Рост задержки передачи в зависимости от увеличения числа сенсорных узлов и количества обрабатываемых пакетов представлен на графиках (Рис. 30 файла к отчету). Графики показывают, что величина задержки постепенно увеличивается по мере увеличения количества устройств с изменениями несколько миллисекунд после передачи пакета от конечного узла. Однако, при увеличении числа узлов изменения уже достаточно существенным так как наблюдается линейная зависимость. Более слабая зависимость задержки наблюдается при увеличении числа пакетов, поступающих на вход коммутаторов с каждого узла. Время реакции представляет время, необходимое сетевым узлам для получения ответа на запрос. Метрика определяется на основе запросов, поступивших от конечных узлов к шлюзу, которые передаются на SDN коммутаторы, где выполняется их ретрансляция или фильтрация после аутентификации и валидации подлинности узлов. Время реакции включает время работы алгоритма LHS для валидации узлов и время нечеткой кластеризации пакетов. Сравнение времени реакции в SDN архитектуре с временем реакции в традиционной SDN архитектуре без смарт-контрактов и LHS алгоритма показало небольшое увеличение задержки в среднем на 10,5 процентов (Рис. 31 файла к отчету). На рисунке 32 файла к отчету приводятся диаграммы изменения пропускной способности в зависимости от числа запросов к узлам при передаче пакетов без обнаружения и фильтрации нетипичных пакетов и с подтверждением подписи узлов, распознаванием и фильтрацией нетипичных пакетов. Снижение пропускной способности (до 16 процентов) наблюдается из-за работы метода кластеризации и компенсируется повышением безопасности предлагаемой сетевой архитектуры. Повышение безопасности обеспечивает более высокую полезную нагрузку сети и резко снижает вероятность DDoS атак, атак флудинга и атак с неавторизированных узлов. Для оценки степени безопасности предложена метрика точности распознавания нетипичных пакетов по отношению к общему числу пакетов. Для оценки точности в сеть было добавлено 5 узлов без подлинной подписи, которые генерировали нетипичные пакеты со случайными характеристиками, отличающимися от характеристик нормальных пакетов. В таблице 3 файла к отчету показана точность обнаружения нетипичных пакетов в зависимости от скорости поступления пакетов на вход коммутаторов. Видно, что точность достаточно высокая, но снижается по мере роста скорости поступления новых пакетов. Это обусловлено недостаточной скоростью синтеза правил потока для пакетов второй группы, которые на первом этапе распознавания не могут быть точно отнесены к существующим кластерам и для них требуется время на формирование нового кластера и синтез нового правила потока. При большом числе поступающих пакетов смарт контракт не успевает реализовать вторую фазу их обработки и вероятность их ретрансляции возрастает.
Результаты работы методов обеспечения информационной безопасности на каждом этапе фиксируются в журналах, которые доступны администраторам для аудита. Журналы содержат записи с информацией о выявленных портах недопустимого трафика, записи с данными узлов «черного» и «белого» списков (IP адресами, координатами местоположения, идентификаторами, цифровыми подписями, временем поступления запроса), записи с характеристиками нормальных и нетипичных пакетов, включая параметры узлов-источников. В качестве вредоносных узлов определяются сенсорные узлы и мобильные средства связи, что позволяет обнаружить аномальное поведение пользователей. Журналы хранятся в SDN-контроллерах, что обеспечивает безопасность и недоступность для третьих лиц. Хэш-подпись узлов хранится в блокчейн контроллера и используется для поддержания целостности доказательств и повышения уровня безопасности системы хранения данных. Блоки распределенного реестре для записи транзакций и хранения данных создаются майнерами, в роли которых выступают зональные сервера.
III Результат. В качестве третьего результата разработана методика представления информации о событиях в виде временных рядов характеристик событий и временных рядов динамики возможных факторов для оценки рисков возникновения и развития негативных событий, определения корреляций с рядами факторов и закономерностей их влияния.
Целью проекта является прогнозирование вероятностных рисков возникновения критического события на объектах мониторинга в условиях, которые определяются совокупностью факторов влияния и оценка вероятности появления такого сочетания значений факторов, которое приводит к рискам появления критических событий. Для установления корреляционных связей изменения характеристик событий и объектов мониторинга с изменениями значений факторов влияния в проекте реализуется аналитический подход на основе кластеризации, анализа ассоциаций, многофакторного дисперсионного анализа (Multivariate ANalysis Of VAriance – MANOVA) и сравнительного анализа (benchmarking) временных рядов. Рассмотрим основные этапы методики выбора показателей и представления их в виде временных рядов.
На первом этапе необходимо выбрать данные, описывающие инциденты, участников событий и значения возможных факторов за заданный период времени до и после события. К таким данным относятся показатели событий, параметры объектов, которые связаны с событиями и характеристики факторов влияния. Так как в общем случае факторов влияния может быть достаточно большое количество, то необходимо выбрать характеристики (признаки), которые оказывают наиболее существенное влияние. Критические события типа ДТП определяются набором показателей, которые носят дискретный характер, но проблемой является их неоднородный характер. Они фиксируются сенсорными устройствами и мобильными средствами связи очевидцев. К ним относятся: а) дата и время события, б) продолжительность, в) координаты, г) тип события (задается в результате классификации), д) число участников, е) степень тяжести (нечеткая оценка), е) степень влияния на другие инциденты (определяется по числу других инцидентов, причиной которые является событие), ж) размер вероятного ущерба (нечеткая оценка) и т.д. Показатели объектов мониторинга также фиксируются и включают: а) скорость ТС до, после и в момент события, б) размеры ТС, в) характер и степень повреждения (нечеткая оценка), г) тип нарушения ПДД (задается при классификации), д) длина тормозного следа и т.п. Наиболее сложной задачей является фиксация факторов влияния, связанных с событиями. Проще всего получить данные о метеорологических условиях, так как они фиксируются погодными станциями и накапливаются в ряде хранилищ. Также можно фиксировать параметры состояния дорожного полотна и дорожной инфраструктуры, плотность автомобильного и пешеходного трафика, степень освещенности посредством камер видеонаблюдения. В проекте для экспериментального исследования разработанных методов выбраны погодные условия и состояние дорожной инфраструктуры.
Следующим шагом является сегментация ретроспективных данных методом кластеризации K-means. Для примера работы алгоритма кластеризации по типам инцидентов выбрано более 568 дорожных инцидентов за период с 01.01.2021 по 01.11.2021 года в городе Пенза. Результаты кластеризации визуализированы в виде круговых диаграмм на цифровой картографической основе (Рис. 19-24 файла к отчету). Кластерный анализ позволил сгруппировать данные в однородные сегменты по типам инцидентов в разных пространственных зонах. Алгоритм приведен в файле к отчету (Алгоритм 4) и использован для кластеризации ДТП различных типов согласно частоте их возникновения. В качестве числа ожидаемых кластеров взято число возможных типов ДТП на стадии инициализации. Примеры результатов кластеризации. Кластер 1 включает 35% аварий, связанных с участием пешеходов в основном на перекрестках и переходах без светофоров возле центров скопления людей (рынки, магазины, больницы и т.п.). В 67 % случаев из них пострадал один человек. Кластер 2 включает аварии в виде столкновений ТС из-за выезда на встречную полосу при обгоне на холмистых участках с ограничением зоны видимости. В кластере 24 % несчастных случаев связаны с травмами 2 пострадавших, 22 % случаев связаны с травмой 1 человека, 11 % с травмами более 2 человек и остальные 43 % – без травм. Кластер 3 включает аварии в виде столкновений ТС из-за нарушений скоростного режима и выезда на встречную полосу на участках без ограничения зоны видимости. В кластере 36 % несчастных случаев связаны с травмами 2 пострадавших, 32 % случаев связаны с травмой 1 человека, 11 с травмами более 2 человек и остальные без травм. Кластер 4 включает аварии в виде столкновений с элементами придорожной инфраструктуры (столбами, знаками, ограничителями и т.п.). Около 31 % случаев имеют критические травмы водителей. Кластер 5 включает инциденты в виде опрокидывания ТС на поворотах и уклонах автомагистралей. Всего было выделено 9 основных кластеров согласно типам нарушений и инцидентов. Следует отметить, что наиболее критическими и травмоопасными являются инциденты в ночное время на автомагистралях, что связано ограничениями освещенности и видимости, особенно в условиях осадков.
На следующем этапе для выявления причин инцидентов и выбора вероятных факторов влияния реализован механизм анализа правил ассоциации для типов инцидентов в кластерах. В качестве причин инцидентов рассматриваются нарушения ПДД (внутренние факторы влияния) и внешние факторы влияния (погодные условия, состояние дорожного покрытия и т.п.). В кластерах для типов инцидентов выполняется ассоциативный анализ тенденций изменения их количества и изменений факторов влияния, чтобы выбрать факторы, которые могут быть связаны с инцидентами для оценки степени их влияния. Анализ ассоциативных правил позволяет создать базовые шаблоны в наборе данных. Ассоциативность характеристик критического события определяется частотой совместного появления в наборе данных. Пример шаблона – «ассоциативное правило «нарушение A -> инцидент B c вероятностью P» указывает, что нарушение ПДД A является причиной и фактором ДТП B с вероятностью P». Правила ассоциации генерируются согласно часто встречающимся и повторяющимся множествам в наборах данных и оцениваются по степени строгости и достоверности. Правило считается строгим, если оно удовлетворяет минимальному порогу для вероятности появления инцидента B, вызванного фактором А. Достоверность правила указывает на то, что в N % случаях инцидентов, фактор A влияет на инцидент B. Примеры правил: «не пропуск пешехода на нерегулируемом переходе приводит к наезду в 38 процентах случаев с достоверностью 0.73», «рост трафика в промежутки времени с 7.30 до 09.30 и с 17.00 до 19.00 приводит к столкновениям ТС в 26 процентах случаев с достоверностью 0.56», «нарушения скоростного режима более 40 км/ч приводит к столкновениям с элементами придорожной инфраструктуры и опрокидыванию автомобилей на поворотах в 63 процентах случаев с достоверностью 0.87». Правила ассоциации для кластера 2 указывают, что холмистая местность для скоростных автомагистралей опасна в связи с повышенной аварийностью ТС, где фактором влияния является снижение зоны видимости. В кластерах 3, 4 и 5 наличие поворотов влияет на число аварий, связанных с нарушением скоростного режима и ограниченной видимостью. В кластере 1 в ночное время на участках с плохой освещенностью наезды на пешеходов в большинстве случаев признаются критическими.
На следующем этапе из множества факторов, выбранных по ассоциативным правилам, необходимо выбрать наиболее существенные. Для этого реализован алгоритм сравнительной оценки степени влияния факторов на результативный показатель в виде числа инцидентов всех типов за заданный период времени в разных кластерах. Для исследования влияния факторов реализован метод многофакторного дисперсионного анализа. В качестве исследуемых факторов были выбраны 6 характеристик погодных условий, таких как температура, давление, влажность, скорость ветра, видимость, количество выпавших осадков. В основе метода лежит оценка отклонений результативного показателя, которые вызваны воздействием исследуемого фактора в сравнении с отклонениями, которые вызваны воздействием случайных факторов. В результате из факторов выбираются те, влияние которых на результат более существенно, чем влияние случайных факторов. Алгоритм состоит в определении соотношения факторной дисперсии к остаточной дисперсии. В качестве показателя отклонений используется сумма квадратов отклонений Sf для каждого фактора влияния, сумму квадратов отклонений Sp для случайных факторов от среднего арифметического значения S. В качестве исследуемого значения фактора принимается математическое ожидание M генеральной выборки значений факторов за заданный период времени. В качестве случайной ошибки принимается разница между результатом i-го измерения фактора xi,j в j-м кластере и математическим ожиданием показателя Mj. Если фактор влияния оказывает воздействие на результативный показатель, то систематическая ошибка для воздействия будет разницей между средним арифметическим в кластере и математическим ожиданием генеральной выборки: Mj – M. Алгоритм представлен в файле к отчету (Алгоритм 5) и включает шаги: а) выбор линейной модели для дисперсионного анализа; б) синтез дисперсионной таблицы, в которой разграничены факторы, результативный показатель и выборка значений показателей, которые изменяются под влиянием факторов; г) формулировка нулевой гипотезы, в которой предполагается, что все факторы не оказывают влияния на результативный показатель; г) вычисление общей, факторной и остаточной дисперсий; д) сравнение факторной и остаточной дисперсий с помощью F-критерия Фишера – Снедекора; е) расчет мощности влияния фактора на результативный показатель как доли факториальной дисперсии в общей дисперсии; ж) определение вероятности получения различий при условии справедливости нулевой гипотезы (для проверки гипотезы применяется критерий Краскела – Уоллиса при уровне отвержения гипотезы о равенстве средних значений в 5 %. Если вероятность меньше уровня значимости α = 0,05, то нулевая гипотеза отвергается и делается вывод о том, что результаты исследования статистически значимы); ж) при отвержении гипотезы проверка дополнительных гипотез о попарном равенстве медианных значений с целью определения, в каких кластерах влияние факторов сильно различается по критерию Манна – Уитни.
На следующем этапе динамика изменения параметров объектов мониторинга и значений отобранных существенных факторов влияния представляется в виде спектра временных рядов. Сравнение временных рядов характеристик событий и факторов позволяет утвердить или опровергнуть гипотезу о корреляционной зависимости рисков типов критических событий от влияния факторов. Статистический анализ рядов значений параметров объектов позволяет выявить аномальные отклонения из области допустимых значений и моменты отклонений для прогнозирования сбоев и отказов. Величина временных интервалов отклонений позволяет сделать оценить риски сбоев, сопоставив отклонения с изменениями факторов влияния.
Анализ временных рядов включает определение тренда, сезонности и случайных отклонений (шума). Декомпозиция рядов позволяет выделить данные компоненты (рис. 33 файла к отчету). Для синтеза моделей рядов и прогнозирования использован метод авторегрессионного интегрированного скользящего среднего (Autoregressive Integrated Moving Average – ARIMA). Данная модель синтезируется путем регрессии зависимой переменной по ее значению запаздывания, текущему значению и значению запаздывания члена случайной ошибки в процессе преобразования нестационарных временных рядов в стационарные. Модель ARIMA (p, d, q) представлена в файле к отчету (Формула 3) с тремя параметрами: p - количество членов авторегрессии, d - количество несезонных различий, q - количество условий скользящей средней. Если временные ряды, например, метеорологических данных имеют сезонные закономерности, то модель становится моделью Seasonal ARIMA. Методика представления наборов данных в виде временного ряда представлена набором скриптов в файле к отчету (Скрипты 4):
А) На первом шаге выполняется подготовка данных к представлению в виде временного ряда. Данные извлекаются из таблиц (например, из таблицы 2 с числом зафиксированных нарушений каждым комплексом) и преобразуются в файлы данных с разделителем (Данные csv в файле к отчету). Далее подготовленные данные из файлов сsv загружаются в программную среду статистического анализа временных рядов и выполняется визуализация временного ряда (Рис. 34 файла к отчету). Для работы с временными рядами в проекте используется бесплатная программная среда R для статистических вычислений и графики с встроенным в Python интерфейсом rpy2 для ее запуска.
Б) На следующем шаге выполняется идентификация модели. Для этого необходимо определить является ли временной ряд стационарным. Проверяется скользящие среднее и стандартное отклонение. если эти метрики остаются постоянными во времени, то ряд стационарный. Если ряд не стационарный, выполняется преобразование в стационарный посредством вычитания между двумя значениями ряда, разделенными d периодами или путем логарифмирования индексов ряда.
В) Далее проверяется стационарность ряда с помощью теста Дикки-Фулера из пакета R. Нулевая гипотеза теста заключается в том, что временной ряд не является стационарным. Если p-значение теста меньше уровня значимости 0,05, то временной ряд стационарен.
Г) Выбирается оптимальная модель ARIMA путем подбора параметров. Подбор параметров выполняется на основе анализа автокорреляционной и частной автокорреляционной функции для минимизации критерия Акаике (АIC=-2log(S)+2Kn, где S-сумма квадратичных отклонений, n-размер выборки данных, K-число параметров модели). Для выбора параметров модели использовалась функция auto.arima из библиотеки Forecast для R. В результате начальных расчетов был получен портфель моделей, в который входило больше 100 моделей-кандидатов, затем по критерию AIC выбрана модель с параметрами р=3, d=1, q=7. Скрипт для синтеза модели приведен в файле к отчету (Скрипты 4).
Д) Далее выполняется оценки оптимальности модели. Оптимальность модели временного ряда означает, что случайный остаток близок к белому шуму, математическое ожидание остатков равно нулю, дисперсия постоянна на любом участке измерений, между уровнями случайных остатков нет автокорреляционного шума. Для тестирования модели использован критерий Фишера, согласно которому проверяется гипотеза о равенстве оценок средних значений ряда.
Для уточнения корреляционных связей между временными рядами применяется метод сравнительного анализа рядов параметров объекта и факторов влияния, что позволяет уточнить результаты оценки чувствительности параметров событий от влияния факторов. Целью бенчмаркинг-анализа временных рядов является выделение схожих и повторяющихся паттернов при попарном сравнении временных рядов параметров событий и временных рядов параметров факторов. В результате фиксируются сочетания и наборы значений факторов, которые связаны с критическими событиями. Результатом является распределение паттернов временных рядов событий по типам и уточнение связей с показателями инцидентов. Сравнительный анализ рядов может показать минимальное число схожих паттернов, что указывает на отсутствие сильных корреляционных связей между рядами факторов и событий. Однако, прежде чем, сделать вывод о неправильном выборе факторов и ложности гипотезы о связи факторов с событием, предлагается выполнять оценку причин ослабления корреляционных связей. Для этого оценивается: а) вероятность влияния фактора сезонности и цикличности на изменение динамики критических событий, б) вероятность влияния шумов (случайных изменений факторов). Влияние сезонности и шумов оценивается через средний уровень колебаний числа инцидентов/нарушений по типам для часовых, суточных, дневных и месячных интервалов времени за год в сопоставлении со средним уровнем за заданный период. Таким образом определяется индекс сезонности Rs как отклонение интервального значения в временном ряду от среднего значения.
Для статистического анализа временных рядов рассчитываются ряд показателей таких как, например, темпы роста/снижения инцидентов (базисный и цепной) и темпы роста/снижения нарушений (базисный и цепной) за выбранный интервал времени. Для кластера выполняется анализ тенденций роста/снижения ежемесячного и почасового количества инцидентов и нарушений. Примеры расчета данных характеристик приведены в файле к отчету (Формула 2). Статистический анализ позволяет выявить влияние сезонных, цикличных и шумовых изменений, которые могут перекрывать воздействий выявленных ранее факторов на показатели рисков критических событий. В процессе анализа статистик временных рядов критических событий могут быть выявлены временные интервалы и пространственные зоны, в которые происходит аномальное отклонение количества происшествий от среднестатистических показателей. В таких интервалах и зонах необходимо повторно определить факторы, а также влияния сезонности и шумов, которые могут быть определяющими для аномального изменения процессов на контролируемых объектах.
Примеры синтеза временных рядов представлены в файле к отчету. Для синтеза временных рядов выбираются пространственные зоны мониторинга с нарушениями ПДД и зафиксированными инцидентами. Например, для синтеза временного ряда динамики изменения числа нарушений ПДД определенных типов, фиксируемых фоторадарными комплексами в системе дорожного мониторинга, используются данные, представленные в фрагментах таблиц 4 и 5 файла к отчету. Далее задаются интервалы, в которые были зафиксированы критические события. Размер интервала зависит от типа факторов влияния и вида прогнозирования. Например, для исследования влияния метеорологических факторов целесообразно выбирать суточные интервалы для краткосрочного прогноза и месячные интервалы для среднесрочного прогноза (Рис. 35 и 36 файла к отчету). Если факторами влияния является состояние дорожного покрытия, то оно не изменяется в течении суток, и нет смысла анализировать суточную динамику изменения инцидентов.
Важной задачей, которая дополнительно решается в проекте, является мониторинг работы сенсорных устройств. Здесь в виде временных рядов представляются параметры устройств для анализа их работы с целью определения моментов времени, когда число их сбоев и аномальных фиксаций выйдет за пределы допустимых значений, что указывает не необходимость регламентных или ремонтных работ (Рис. 37 файла к отчету). Пример журнала с исходными данными, синтезированный временной ряд работы и простоя фоторадарного комплекса приведен на рис. 38 файла к отчету.
Все планируемые в отчетный период работы выполнены полностью.
ГРНТИ
28.19.23 Адаптивные и обучающие системы
Ключевые слова
Intelligent learning environment
Blockchain Technology
Internet of Things
Privacy and Security
Convergent model
Learning management system
Proactive monitoring
Critical events
Big sensor data
Детали
Заказчик
Российский научный фонд
Исполнитель
Федеральное государственное бюджетное образовательное учреждение высшего образования "Пензенский государственный университет"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 5 000 000 ₽
Похожие документы
Проактивный подход к мониторингу событий в сложных распределенных системах интеллектуального города с использованием технологий больших данных и предиктивной аналитики
0.960
ИКРБС
Проактивный подход к мониторингу событий в сложных распределенных системах интеллектуального города с использованием технологий больших данных и предиктивной аналитики
0.956
ИКРБС
Проактивный подход к мониторингу событий в сложных распределенных системах интеллектуального города с использованием технологий больших данных и предиктивной аналитики
0.925
ИКРБС
Управление безопасностью и устойчивым функционированием киберфизических систем с адаптивной топологией
0.907
ИКРБС
Разработка экспериментального образца аппаратно-программного комплекса на базе беспилотного летательного аппарата для автономного мониторинга выбросов с судов в океан и атмосферу в соответствии с требованиями конвенции МАРПОЛ
(Промежуточный отчет, "Разработка оболочки "Мониторинг", 1-й этап 2021г.)
0.905
ИКРБС
Разработка и тестирование опытного образца системы искусственного интеллекта для предиктивного моделирования и непрерывного анализа рассеиваний загрязняющих веществ для контроля и сокращения вредных выбросов промышленных предприятий в атмосферный воздух (заключительный)
0.904
ИКРБС
Повышение отказоустойчивости киберфизических систем на основе технологии искусственного интеллекта при мониторинге техногенного воздействия на окружающую среду (КФ-988/РНФ-86)
0.904
НИОКТР
Разработка гибридной информационно-телекоммуникационной системы (ГИС) для детектирования и управления рисками развития стресс-индуцированных состояний в процессе учебной деятельности
0.892
ИКРБС
Разработка адаптивно-вариативного комплекса беспилотных авиационных систем
0.891
ИКРБС
Теоретические основы моделирования и семантического анализа процессов преобразования вихревых электромагнитных полей в инфокоммуникационных системах (итоговый отчет о результатах исследования)
0.890
ИКРБС