ОТЧЕТ О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ по теме: МАСШТАБИРУЕМЫЕ СЕТИ СИСТЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ АНАЛИЗА ДАННЫХ РАСТУЩЕЙ РАЗМЕРНОСТИ (итоговый)

30.04.2021

Главная цель проекта: разработать перспективные методы для интеллектуального анализа данных высокой размерности, оптимизированные для работы в высокой (десятки и сотни) и очень высокой (тысячи, десятки тысяч и более) размерности. Для достижения этой цели будут разработаны и реализованы в программах открытого доступа методы и алгоритмы быстрого неитеративного и обратимого исправления ошибок и передачи навыков в системах искусственного интеллекта (ИИ). В данном отчете представлены следующие результаты. Феномен стохастической отделимости был выявлен и использован в машинном обучении для коррекции ошибок систем ИИ и анализа нестабильностей ИИ. В многомерных наборах данных при широких допущениях каждая точка может быть отделена от остального множества простым и надежным дискриминантом Фишера (является отделимой по Фишеру). Ошибки или кластеры ошибок могут быть отделены от остальных данных. Получены явные и оптимальные оценки этих вероятностей разделения, для важных классов распределений: логарифмически вогнутого распределения, их выпуклых комбинаций и распределений-произведений. Стандартное предположение о независимости и одинаовой распределенности было значительно смягчено. Эти теоремы и оценки используются как для коррекции многомерных систем ИИ, управляемых данными, так и для анализа их уязвимостей. Третья область применения - возникновение памяти в ансамблях нейронов, феномены бабушкиных клеток и разреженного кодирования в мозге, а также объясненяют неожиданной эффективности малых нейронных ансамблей в многомерном мозге. Выявлены новые типы уязвимости систем ИИ, возможные способы атак и противодействия им. Разработана основа для оценки и анализа двух классов недоброжелательных действий по отношению к универсальным системам ИИ. Анализ обхединяет идеи состязательной игры с наблюдателем и состязание с учителем ИИ с новой теорией корректоров и теорией стохастической разделимости. Рассматриваются два класса атак. Первый класс включает состязательные примеры и касается введения небольших возмущений входных данных, которые приводят к неправильным решениям. Второй класс, описанный нами впервые и названный стелс-атаками, включает в себя небольшие возмущения самой системы ИИ. Здесь возмущенная система производит любой желаемый злоумышленником результат на определенном небольшом наборе данных, возможно, даже на одном входе, но работает как обычно на тестовом наборе (который неизвестен злоумышленнику). Знание внутренней размерности данных (ВРД) является существенным для прогнозирования надежности поведения систем ИИ в реальных системах, возможности коррекции их ошибок, а также подверженности к разного рода потенциально злонамеренным манипуляциям (таких как состязательные атаки). ВРД может быть вычислено глобально для всего облака точек данных, или расчитано локально в разных областях пространства данных. Существует большое число подходов к оценке ВРД. Разработан пакет scikit-dimension на языке Python, который претендует на то, чтобы в будущем занять нишу стандартного пакета на этом языке для методов оценки ВРД, в различных областях применения машинного обучения и искусственного интеллекта. В результате проведенной работы по реализации, тестированию и сравнению различных методов оценки ВРД, в пакете на данный момент реализовано 12 методов оценки ВРД, эффективность которых была показана в тестовых задачах. В частности, в пакете реализован метод оценки ВРД, основанный на применении теоретических результатов о Фишеровской разделимости облаков точек данных. Большие наборы клинических наборов данных, содержащих результаты наблюдений по различным заболеваниям, становятся все более доступны для применения методов машинного обучения с целью обнаружения связей между характеристиками заболеваний и назначенной терапии. Предложена методология динамического фенотипирования заболеваний, основанная на анализе большого количества клинических данных, характеризующихся смешанными типами данных и существенным количеством пропущенных значений. Предложенный метод моделирует геометрическую структуру данных как «букет» расходящихся клинических траекторий, с применением метода эластичных главных графов и топологических грамматик. Метод главных графов значительно усовершенствованный в рамках работы по данному проекту, позволяет одновременно решать задачи снижения размерности данных, визуализации данных, кластеризации, выбора наиболее информативных признаков, и расчета геодезическиго расстояния (псевдовремени) в частично упорядоченных последовательностях клинических наблюдений. Методология позволяет позиционировать (фенотипировать) конкретного пациента на ландшафтном представлении, указать степень прогрессирования заболевания и дать количественный и качественный прогноз вместе с оценкой неопределенности. Метод был воплощен в программном продукте ClinTrajAn, реализованном на языке Питон, позволяющим производить анализ клинических траекторий. Методология применялась для анализа нескольких больших наборов клинических данных, находящихся в открытом доступе: оригинальной базе данных по осложнениям инфаркта миокарда, собранных в Красноярске, и базе данных по госпитализациям пациентов, страдающих диабетом, собранной по больницам США. Разработан вычислительный подход к изучению эволюционной приспособленности сложных биологических систем, основанный на эмпирических данных с использованием искусственных нейронных сетей. Подход использован для моделирования оптимальной пожвижности планктона. Проведено сравнени с экспериментальными данными. Рассматривались векторные представления признаков для временных рядов спайков нейронов. Эти представления в сочетании с общими методами классификации / кластеризации временных рядов позволили получить хорошие результаты классификации на последовательностях спайков одиночных клеток в задаче классификации типов клеток. Использовался набор данных о спайковой активности коры головного мозга. Для задачи классификации типов клеток были классифицированы предполагаемые возбуждающие нейроны по сравнению с тормозными. Используя отдельные последовательности спайков нейронов, были получены базовые оценки производительности для ряда алгоритмов машинного обучения с учителем. Исследованы динамические режимы в моделях внеклеточного матрикса мозга (ВКМ), учитывающих изменения во времени среднего уровня нейросетевой активности. Проведено детальное исследование динамики концентрации кальция в астроцитах. Мозг представляет собой сложную многокомпонентную систему, в составе которой выделяют нейроны и глиальные клетки. Результаты исследований показывают, что для астроцитов характерны как спонтанные изменения концентрации кальция, так и кальциевые сигналы, вызванные активностью нейронов. При этом астроцитарные кальциевые сигналы могут быть локализованы в синапсах либо распространяться по астроцитарной сети. Искусственный свет в ночное время, излучаемый из жилых, промышленных, развлекательных зон и т. д., является важным спутником присутствия человека на Земле. На реальных спутниковых данных протестированы алгоритмы машинного обучения, дающие «сверхразрешение» при обработке информации дистанционного наблюдения земной поверхности из космоса. Показано, что сверхразрешение возможно и оценены его ожидаемые пределы. На примере электрокардиограмм показаны характерные проблемы, возникающие при моделировании одномерных сигналов, содержащих повторяющиеся ошибочные паттерны, с помощью стандартных сверточных сетей. Показано, что эти проблемы носят системный характер. Разработан, имплементирован и протестирован метод генерации ЭКГ для одного сердечного цикла с использованием вариационного автоэнкодера. Целью было закодировать исходный сигнал ЭКГ, используя как можно меньше признаков. Создание новых синтетических ЭКГ позволяет решить проблему отсутствия размеченных ЭКГ для использования в обучении с учителем. Разработана новая модель, описывающая «стрессовые» реакции при различных сигналах запуска неспецифических реакций со стороны распознающего модуля. Создана методика анализа экспериментальных данных (ритмограммы сердца у тестируемых людей) и разработка алгоритмов оптимальной сложности для выделения диагностических признаков для определении функционального состояния (уровня социальной дезадаптации) тестируемых людей. Создан способ регистрации эмоциональной дезадаптации по кардиоритмограмме. Разработан набор базовых нейроноподобных моделей, демонстрирующих возможность трансформации объемного экспериментального материала (представленного, например, высокоразмерными электрофизиологическими данными) в смысловое описание. Эффективность использования базовых нейроноподобных моделей была продемонстрирована на примерах рассмотрения прикладных задач. В частности, разработана версия системы интеллектуальной видеоаналитики, имеющей модули для обнаружения, распознавания и трекинга объектов. Представлены ключевые показатели эффективности проекта, в том числе: · Мастер-классы для студентов, аспирантов и молодых ученых, проводимые А.Н. Горбанем; · Подготовка к публикации статей по результатам проведенной работы; · Организация симпозиумов по тематике проекта; · Участие ведущего ученого и членов научного коллектива в конференциях, научных семинарах, симпозиумах; · Оснащение лаборатории оборудованием, материалами и комплектующими для проведения исследований; · Отбор коллекций и потоков данных для детального анализа; · Подача заявок на патенты; Гранты, полученные за отчетный период по направлению научного исследования.

ГРНТИ

28.23.37 Нейронные сети

28.23.02 Общие проблемы искусственного интеллекта

Ключевые слова

искусственный интеллект

нейронная сеть

коррекция

размерность

концентрация меры

машинное обучение

большие данные

динамические фенотипы

Детали

НИОКТР

№ АААА-А18-118101290055-3

Заказчик

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

Исполнитель

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский Нижегородский государственный университет им. Н.И. Лобачевского».

Бюджет

Средства федерального бюджета: 38 800 000 ₽

Похожие документы

ОТЧЕТ О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ по теме: МАСШТАБИРУЕМЫЕ СЕТИ СИСТЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ АНАЛИЗА ДАННЫХ РАСТУЩЕЙ РАЗМЕРНОСТИ (промежуточный)

Разработка перспективных подходов анализа больших массивов данных и методов глубокого обучения для диагностики и прогнозирования сердечно-сосудистых и нейродегенеративных заболеваний

0.933