МЕТОДЫ СТРУКТУРНОГО ОБУЧЕНИЯ ДЛЯ СИНТЕЗА АЛГОРИТМОВ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В БОЛЬШИХ МАССИВАХ ТЕКСТОВЫХ ДАННЫХ

23.11.2021

Объект исследования — методы и алгоритмы поиска нечетких дубликатов текстов или фрагментов текстов в больших слабоструктурированных массивах данных. Цель выполнения НИР — создание и развитие имеющихся методов структурного машинного обучения для задач анализа текстов, разработка методов построения и выбора оптимальной структуры модели на основе априорных знаний о данных и заданных критериев выбора, например, правдоподобия модели. Использовались методы структурного обучения – построение порождающих моделей (автокодировщиков и рекуррентных нейронных сетей, моделирующих вероятностные характеристики естественного языка), методы кластеризации векторов, методы получения оценок правдоподобия для выбора оптимальной модели. В рамках выполнения НИР проведен анализ методов структурного обучения в задачах обработки естественного языка. Формализована постановка задачи обнаружения заимствований с использованием кросс-языковых методов сопоставления структур предложений. Разработан метод сопоставления структур на основе мультиязыкового векторного отображения, позволяющего отображать структуры предложений, написанных на разных языках в единое векторное пространство. Предложен и реализован подход к обнаружению переводных и перефразированных заимствований на основе данного метода. Проведено исследование влияния метаданных и библиографических записей на качество обнаружения заимствований и разработан метод выделения библиографических блоков из документа. Разработан отдельный метод, позволяющий учитывать и выделять структуру научных работ. Рассмотрен метод построения стилистической функции текста для выделения фрагментов текста, которые с большей вероятностью являются заимствованиями. Предложена и реализована новая генеративная модель, описывающая плотность распределения двух доменов (например, двух языков). В модель введены относительные ограничения на основании идей метрического обучения. Получены оценки правдоподобия модели, проведен широкий ряд экспериментов на разных выборках. Предложенные алгоритмы пригодны для поиска в больших массивах текстовых данных.

ГРНТИ

28.23.24 Модели восприятия информации в интеллектуальных системах

Ключевые слова

БОЛЬШИЕ ДАННЫЕ

МАШИННОЕ ОБУЧЕНИЕ

КЛАССИФИКАЦИЯ

АВТОМАТИЧЕСКАЯ ОБРАБОТКА И АНАЛИЗ ЕСТЕСТВЕННОГО ЯЗЫКА

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

ТЕКСТОВЫЙ ПОИСК

Детали

НИОКТР

№ АААА-А18-118011590113-9