ИКРБС
№ 221112400075-3

МЕТОДЫ СТРУКТУРНОГО ОБУЧЕНИЯ ДЛЯ СИНТЕЗА АЛГОРИТМОВ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В БОЛЬШИХ МАССИВАХ ТЕКСТОВЫХ ДАННЫХ

23.11.2021

Объект исследования — методы и алгоритмы поиска нечетких дубликатов текстов или фрагментов текстов в больших слабоструктурированных массивах данных. Цель выполнения НИР — создание и развитие имеющихся методов структурного машинного обучения для задач анализа текстов, разработка методов построения и выбора оптимальной структуры модели на основе априорных знаний о данных и заданных критериев выбора, например, правдоподобия модели. Использовались методы структурного обучения – построение порождающих моделей (автокодировщиков и рекуррентных нейронных сетей, моделирующих вероятностные характеристики естественного языка), методы кластеризации векторов, методы получения оценок правдоподобия для выбора оптимальной модели. В рамках выполнения НИР проведен анализ методов структурного обучения в задачах обработки естественного языка. Формализована постановка задачи обнаружения заимствований с использованием кросс-языковых методов сопоставления структур предложений. Разработан метод сопоставления структур на основе мультиязыкового векторного отображения, позволяющего отображать структуры предложений, написанных на разных языках в единое векторное пространство. Предложен и реализован подход к обнаружению переводных и перефразированных заимствований на основе данного метода. Проведено исследование влияния метаданных и библиографических записей на качество обнаружения заимствований и разработан метод выделения библиографических блоков из документа. Разработан отдельный метод, позволяющий учитывать и выделять структуру научных работ. Рассмотрен метод построения стилистической функции текста для выделения фрагментов текста, которые с большей вероятностью являются заимствованиями. Предложена и реализована новая генеративная модель, описывающая плотность распределения двух доменов (например, двух языков). В модель введены относительные ограничения на основании идей метрического обучения. Получены оценки правдоподобия модели, проведен широкий ряд экспериментов на разных выборках. Предложенные алгоритмы пригодны для поиска в больших массивах текстовых данных.
ГРНТИ
28.23.24 Модели восприятия информации в интеллектуальных системах
Ключевые слова
БОЛЬШИЕ ДАННЫЕ
МАШИННОЕ ОБУЧЕНИЕ
КЛАССИФИКАЦИЯ
АВТОМАТИЧЕСКАЯ ОБРАБОТКА И АНАЛИЗ ЕСТЕСТВЕННОГО ЯЗЫКА
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ
ТЕКСТОВЫЙ ПОИСК
Детали

Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "РОССИЙСКИЙ ФОНД ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ"
Исполнитель
Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 2 100 000 ₽
Похожие документы
Методы структурного обучения для синтеза алгоритмов поиска нечетких дубликатов в больших массивах текстовых данных
0.939
НИОКТР
Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов
0.917
НИОКТР
Итоговый отчёт по проекту № 19-01-00006 А “Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов” Российского фонда фундаментальных исследований.
0.912
ИКРБС
Разработка методов, моделей и алгоритмов выделения единиц знаний из тематического текстового корпуса для распознавания ситуаций смысловой близости текстов
0.910
НИОКТР
Итоговый отчёт по проекту № 16-01-00004 А “Разработка методов, моделей и алгоритмов выделения единиц знаний из тематического текстового корпуса для распознавания ситуаций смысловой близости текстов” Российского фонда фундаментальных исследований.
0.909
ИКРБС
Разработка методов смыслосохраняющего сжатия текстовой информации для задач открытого тестирования знаний
0.905
ИКРБС
Методы и алгоритмы семантической структуризации текстовой информации на основе логико-онтологических преобразований
0.904
Диссертация
Алгоритмы масштабируемого анализа многомерных и сложно структурированных данных
0.904
ИКРБС
ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ РАЗВЕДОЧНОГО ИНФОРМАЦИОННОГО ПОИСКА, НАКОПЛЕНИЯ, АНАЛИЗА И СИСТЕМАТИЗАЦИИ ПРЕДМЕТНЫХ ЗНАНИЙ
0.902
ИКРБС
Построение систем знаний и анализ данных на основе текстовой информации
0.900
НИОКТР