ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ РАЗВЕДОЧНОГО ИНФОРМАЦИОННОГО ПОИСКА, НАКОПЛЕНИЯ, АНАЛИЗА И СИСТЕМАТИЗАЦИИ ПРЕДМЕТНЫХ ЗНАНИЙ

19.05.2023

Объект исследования — математическая теория, методы и алгоритмы решения некорректно поставленных задач неотрицательного матричного разложения в тематическом моделировании больших коллекций текстовых документов. Цель выполнения НИР — создание новых технологий тематического разведочного поиска, которые позволят специалистам различных профессий более эффективно искать, анализировать и систематизировать большие объёмы текстовой информации. Использовались методы вероятностного тематического моделирования, математическая теория аддитивной регуляризации тематических моделей, регуляризованный ЕМ-алгоритм, методы многокритериальной оптимизации, методики оценивания качества тематических моделей, средства визуализации разведочного поиска. В рамках проекта разработан прототип поисково-рекомендательной системы, которая позволяет пользователям формировать тематические подборки документов. Для поиска документов, тематически близких к документам подборки, используются алгоритмы векторизации текстов, быстрого поиска тематически схожих векторов, ранжирования поисковой выдачи. Для векторизации текстовых документов используются методы вероятностного тематического моделирования и нейросетевые модели языка. Разработан новый подход к полуавтоматическому реферированию тематических подборок научных публикаций как к рекомендательному сервису, выполняющему рутинные операции формирования сценария реферата и подбора релевантных фраз с помощью рекомендательных алгоритмов (суфлёров). Разработаны методы выявления тематических трендов в коллекции научных публикаций. Под трендом понимается семантически однородная тема, которая характеризуется устойчивым во времени лексическим ядром и резким, зачастую экспоненциальным, ростом числа публикаций. Разработан метод выявления и визуального представления семантических структур внутри тематических подборок. Использование данного метода показано на примере задачи выявления поляризованных мнений о политических событиях. Для определения мнений использовались объект-субъектные взаимодействия, семантические роли слов и тонально окрашенная лексика. Показано, что сочетание этих факторов обеспечивает наилучшее качество определения мнений. Для проверки данной гипотезы собраны и размечены два корпуса новостей о политических событиях. Разработана модель когнитивной сложности текста для рекомендации порядка чтения документов в тематических подборках. Предложен квантильный подход к оцениванию когнитивной сложности текста на разных уровнях языка. В отличие от известных индексов удобочитаемости, данный подход позволяет оценивать сложность на всех уровнях языка -- морфологическом, лексическом, синтаксическом, дискурсивном и агрегировать эти оценки. Создана выборка размеченных пар документов русской Википедии и показано, что комбинированная модель превосходит конкурирующие подходы. В рамках проекта продолжено развитие математической теории аддитивной регуляризации тематических моделей (ARTM). Выведен общий итерационный процесс для максимизации произвольной гладкой функции на единичных симплексах. Получены достаточные условия его сходимости. Алгоритмы обучения большинства известных тематических моделей выводятся из него как простые следствия. Фактически это означает, что вероятностное тематическое моделирование (сотни моделей, тысячи публикаций, 20 лет развития) становится «теорией одной леммы». Предложена модификация ЕМ-алгоритма для ARTM, которая улучшает его сходимость без дополнительных затрат времени и памяти. Предложен способ быстрого вычисления тематического вектора произвольного текста за одну итерацию. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по критериям разреженности, различности, информативности и когерентности тем. Предложен метод оптимизации гиперпараметров (весов модальностей) в тематических моделях мультимодальных текстовых и транзакционных данных, основанный на оптимизации вспомогательных критериев. Предложена тематическая модель с числовой модальностью, для которой получено аналитическое решение в случае гауссовского распределения. В экспериментах данная модель использовалась для обработки банковских транзакционных данных. Предложен новый способ распараллеливания регуляризованного EM-алгоритма на графических процессорах (GPU). Показано, что реализация EM-алгоритма на GPU по производительности может превосходить в десятки раз известную реализацию пакетного онлайнового EM-алгоритма в библиотеке с открытым кодом BigARTM.

ГРНТИ

20.23.19 Процессы информационного поиска

28.23.24 Модели восприятия информации в интеллектуальных системах

Ключевые слова

ОТКРЫТЫЙ КОД

РАСПАРАЛЛЕЛИВАНИЕ

EM-АЛГОРИТМ

ВЕРОЯТНОСТНЫЙ ЛАТЕНТНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ

МАТРИЧНЫЕ РАЗЛОЖЕНИЯ

АДДИТИВНАЯ РЕГУЛЯРИЗАЦИЯ ТЕМАТИЧЕСКИХ МОДЕЛЕЙ

ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

РАЗВЕДОЧНЫЙ ПОИСК