ИКРБС
№ 223052600015-4ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ РАЗВЕДОЧНОГО ИНФОРМАЦИОННОГО ПОИСКА, НАКОПЛЕНИЯ, АНАЛИЗА И СИСТЕМАТИЗАЦИИ ПРЕДМЕТНЫХ ЗНАНИЙ
19.05.2023
Объект исследования — математическая теория, методы и алгоритмы решения некорректно поставленных задач неотрицательного матричного разложения в тематическом моделировании больших коллекций текстовых документов.
Цель выполнения НИР — создание новых технологий тематического разведочного поиска, которые позволят специалистам различных профессий более эффективно искать, анализировать и систематизировать большие объёмы текстовой информации.
Использовались методы вероятностного тематического моделирования, математическая теория аддитивной регуляризации тематических моделей, регуляризованный ЕМ-алгоритм, методы многокритериальной оптимизации, методики оценивания качества тематических моделей, средства визуализации разведочного поиска.
В рамках проекта разработан прототип поисково-рекомендательной системы, которая позволяет пользователям формировать тематические подборки документов. Для поиска документов, тематически близких к документам подборки, используются алгоритмы векторизации текстов, быстрого поиска тематически схожих векторов, ранжирования поисковой выдачи. Для векторизации текстовых документов используются методы вероятностного тематического моделирования и нейросетевые модели языка.
Разработан новый подход к полуавтоматическому реферированию тематических подборок научных публикаций как к рекомендательному сервису, выполняющему рутинные операции формирования сценария реферата и подбора релевантных фраз с помощью рекомендательных алгоритмов (суфлёров).
Разработаны методы выявления тематических трендов в коллекции научных публикаций. Под трендом понимается семантически однородная тема, которая характеризуется устойчивым во времени лексическим ядром и резким, зачастую экспоненциальным, ростом числа публикаций.
Разработан метод выявления и визуального представления семантических структур внутри тематических подборок. Использование данного метода показано на примере задачи выявления поляризованных мнений о политических событиях. Для определения мнений использовались объект-субъектные взаимодействия, семантические роли слов и тонально окрашенная лексика. Показано, что сочетание этих факторов обеспечивает наилучшее качество определения мнений. Для проверки данной гипотезы собраны и размечены два корпуса новостей о политических событиях.
Разработана модель когнитивной сложности текста для рекомендации порядка чтения документов в тематических подборках. Предложен квантильный подход к оцениванию когнитивной сложности текста на разных уровнях языка. В отличие от известных индексов удобочитаемости, данный подход позволяет оценивать сложность на всех уровнях языка -- морфологическом, лексическом, синтаксическом, дискурсивном и агрегировать эти оценки. Создана выборка размеченных пар документов русской Википедии и показано, что комбинированная модель превосходит конкурирующие подходы.
В рамках проекта продолжено развитие математической теории аддитивной регуляризации тематических моделей (ARTM). Выведен общий итерационный процесс для максимизации произвольной гладкой функции на единичных симплексах. Получены достаточные условия его сходимости. Алгоритмы обучения большинства известных тематических моделей выводятся из него как простые следствия. Фактически это означает, что вероятностное тематическое моделирование (сотни моделей, тысячи публикаций, 20 лет развития) становится «теорией одной леммы».
Предложена модификация ЕМ-алгоритма для ARTM, которая улучшает его сходимость без дополнительных затрат времени и памяти. Предложен способ быстрого вычисления тематического вектора произвольного текста за одну итерацию. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по критериям разреженности, различности, информативности и когерентности тем.
Предложен метод оптимизации гиперпараметров (весов модальностей) в тематических моделях мультимодальных текстовых и транзакционных данных, основанный на оптимизации вспомогательных критериев. Предложена тематическая модель с числовой модальностью, для которой получено аналитическое решение в случае гауссовского распределения. В экспериментах данная модель использовалась для обработки банковских транзакционных данных.
Предложен новый способ распараллеливания регуляризованного EM-алгоритма на графических процессорах (GPU). Показано, что реализация EM-алгоритма на GPU по производительности может превосходить в десятки раз известную реализацию пакетного онлайнового EM-алгоритма в библиотеке с открытым кодом BigARTM.
ГРНТИ
20.23.19 Процессы информационного поиска
28.23.24 Модели восприятия информации в интеллектуальных системах
Ключевые слова
ОТКРЫТЫЙ КОД
РАСПАРАЛЛЕЛИВАНИЕ
EM-АЛГОРИТМ
ВЕРОЯТНОСТНЫЙ ЛАТЕНТНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ
МАТРИЧНЫЕ РАЗЛОЖЕНИЯ
АДДИТИВНАЯ РЕГУЛЯРИЗАЦИЯ ТЕМАТИЧЕСКИХ МОДЕЛЕЙ
ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
РАЗВЕДОЧНЫЙ ПОИСК
ИНФОРМАЦИОННЫЙ ПОИСК
МАШИННОЕ ОБУЧЕНИЕ
Детали
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "РОССИЙСКИЙ ФОНД ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ"
Исполнитель
Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 1 183 000 ₽
Похожие документы
ВЕРОЯТНОСТНОЕ ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И РАЗВЕДОЧНЫЙ ИНФОРМАЦИОННЫЙ ПОИСК (заключительный)
0.918
ИКРБС
СИСТЕМЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА, ИЗВЛЕЧЕНИЕ ЗНАНИЙ И АНАЛИЗ ТЕКСТОВ 2019-2023(промежуточный)0063-2019-0001
0.913
ИКРБС
СИСТЕМЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА, ИЗВЛЕЧЕНИЕ ЗНАНИЙ И АНАЛИЗ ТЕКСТОВ 2024-2028
0.910
ИКРБС
Итоговый отчёт по проекту № 19-01-00006 А “Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов” Российского фонда фундаментальных исследований.
0.908
ИКРБС
МАТЕМАТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ДАННЫХ И ПРОГНОЗИРОВАНИЯ 2024-2028
0.907
ИКРБС
Алгоритмы масштабируемого анализа многомерных и сложно структурированных данных
0.905
ИКРБС
РАЗВИТИЕ МЕТОДОВ КОГНИТИВНОГО МОДЕЛИРОВАНИЯ, ПРИНЯТИЯ РЕШЕНИЙ, ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА И АНАЛИЗА ПОЛУСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ
0.903
ИКРБС
МЕТОДЫ СТРУКТУРНОГО ОБУЧЕНИЯ ДЛЯ СИНТЕЗА АЛГОРИТМОВ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В БОЛЬШИХ МАССИВАХ ТЕКСТОВЫХ ДАННЫХ
0.902
ИКРБС
Хорошо интерпретируемые методы интеллектуального анализа семантически насыщенных данных и их приложения
0.902
ИКРБС
Тематические и нейросетевые модели языка для разведочного информационного поиска
0.900
Диссертация