ИКРБС
№ АААА-Б19-219092790043-4Алгоритмы масштабируемого анализа многомерных и сложно структурированных данных
22.01.2019
Подробно изучены подходы к поиску и оценке паттернов в контексте обучения "без учителя" (методы кластеризации, поиска ассоциативных правил и импликаций) и обучения "с учителем" (методы выявления подгрупп и классификации). Предложена систематизация существующих индексов на основе решетки формальных понятий (т.е. формальная иерархическая модель), позволяющая получить классы схожих индексов в разрезе различных ключевых характеристик (в том числе на основе данных экспериментов, проведенных с использованием синтетических и реальных наборов данных). Полученная модель позволяет повышать эффективность процесса анализа данных посредством использования наиболее эффективных подходов в выявленных группах схожих (аналогичных) методов. Предложены теоретические оценки переобученности алгоритмов классификации в рамках трансдуктивного подхода, совпадающие с верхними эмпирическими оценками переобученности и применимые для широкого класса алгоритмов. Предложенные оценки расширяют спектр применения существующих оценок качества семейства алгоритмов в задаче классификации. Исследованы возможности применения принципа минимальной длины описания (МДО) в задаче анализа данных. Предложена модификация существующего подхода Krimp к отбору паттернов, представляющая комбинированный метод, где анализ данных основывается не только на теоретически обоснованном принципе МДО (как практической реализации Колмогоровской сложности с использованием кодирования Шеннона), но и на дополнительных знаниях (представлении экспертов конкретной предметной области об интересности искомых паттернов). Таким образом, предложенный подход совмещает в себе гибкость эмпирических методов майнинга с точки зрения внедрения экспертных знаний и представлений об интересности в процесс майнинга данных и теоретическую обоснованность методов вычисления паттернов (как регулярных фрагментов в наборе данных). Проведено исследование методов ансамблевой классификации данных. Предложен подход к построению ансамбля классификаторов на основе структуризации пространства признаков и последующего применения принципа минимальной длины описания для построения ансамблевого классификатора. В результате получены теоретически обоснованная модель классификатора на основе решающих правил, где множество классификаторов оптимально с точки зрения длины описания. В рамках исследования текстовых данных подробно исследована и изучена применимость двух символьных моделей - модели на основе аннотированного суффиксного дерева и модели на основе рекуррентной нейронной языковой модели - в задачах обнаружения обсценной лексики и автоматического определения ударения в текстах на русском языке. Показано превосходство разрабатываемой модели на основе аннотированного суффиксного дерева в задаче обнаружения обсценной лексики по сравнению со стандартными n-граммными моделями и редакционным расстоянием. Собран экспериментальный корпусный материал с разметкой по обсценной лексике. Экспериментально обоснована применимость рекуррентной нейронной языковой модели в задаче автоматического определения ударения на материалы акцентологического корпуса русского языка. Другим ключевым результатом в анализе текстовых данных является применение модели структурного представления текстовых данных в задаче классификации текстовых данных и в задаче интерактивного анализа пользовательских запросов. Предложен и апробирован метод интеллектуальной классификации текстовых данных, использующий ядерные функции в сочетании с синтактико-дискурсивным представлением текста. Разработан алгоритм, анализирующий и сопоставляющий структуру запроса пользователя и возможных ответов на него. Алгоритм основан на применении методов ядерного обучения. Построена демоверсия диалоговой системы (чат-бота), основанная на использовании данной модели и ориентированная на применение для текстов финансовой и налоговой тематики. Проведены экспериментальные исследования системы, демонстрирующие её преимущества по сравнению с использованием традиционного промышленных поисковых систем. Осуществлена реализация комплексного подхода к доступу, предобработке и представлению в объектопризнаковом виде разнообразных форм и типов данных (включая реляционные данные с жёсткой схемой, полнотекстовые данные, иерархически структурированные документы, графы и сети в различных комбинациях) из гетерогенных источников данных.
ГРНТИ
27.47.23 Математические проблемы искусственного интеллекта
Ключевые слова
СЛОЖНО СТРУКТУРИРОВАННЫЕ ДАННЫЕ
ПАТТЕРНЫ
МЕТОДЫ КЛАСТЕРИЗАЦИИ
ТРАНСДУКТИВНЫЙ ПОДХОД
МЕТОДЫ АНСАМБЛЕВОЙ КЛАССИФИКАЦИИ ДАННЫХ
Детали
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "РОССИЙСКИЙ ФОНД ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ"
Исполнитель
Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики"
Похожие документы
Хорошо интерпретируемые методы интеллектуального анализа семантически насыщенных данных и их приложения
0.911
ИКРБС
Построение систем знаний и анализ данных на основе текстовой информации
0.909
НИОКТР
Мультиалгоритмические подходы к решению задач анализа данных, классификации и распознавания естественной русской речи. Информационная сложность и анализ понятий
0.906
ИКРБС
Алгоритмы масштабируемого анализа многомерных и сложно структурированных данных
0.905
НИОКТР
ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ РАЗВЕДОЧНОГО ИНФОРМАЦИОННОГО ПОИСКА, НАКОПЛЕНИЯ, АНАЛИЗА И СИСТЕМАТИЗАЦИИ ПРЕДМЕТНЫХ ЗНАНИЙ
0.905
ИКРБС
МЕТОДЫ СТРУКТУРНОГО ОБУЧЕНИЯ ДЛЯ СИНТЕЗА АЛГОРИТМОВ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В БОЛЬШИХ МАССИВАХ ТЕКСТОВЫХ ДАННЫХ
0.904
ИКРБС
Методы и алгоритмы машинного обучения для предобработки и классификации слабоструктурированных текстовых данных в научных рекомендательных системах
0.904
Диссертация
Методы синтеза и анализа моделей алгоритмов интеллектуального анализа данных
0.899
ИКРБС
Методы и алгоритмы анализа сетевых структур
0.897
ИКРБС
Развитие комбинаторных, алгебраических и статистических алгоритмов интеллектуального анализа данных и разработка на их основе методов решения прикладных задач
0.897
ИКРБС