НИОКТР
№ АААА-А20-120121690111-5Методы структурирования трудноформализуемых предметных областей на основе автоматизированного формирования больших графов знаний и онтологий по разнородным потокам текстовых данных .
16.12.2020
Фундаментальные исследования в области методов поддержки извлечения знаний предметной области из текстовых данных большого размера, структурирования извлеченной информации в больших графах знаний, а также использования накопленных знаний для анализа разнородных информационных потоков средствами информационно-аналитических систем. В рамках НИР рассматривается фундаментальные проблемы организации знаний - извлечение, упорядочивание и использование - в сложных предметных областях, где подавляющая часть знания распределена в большом количестве разнородных текстов. Одной из востребованных форм представления содержания сложных предметных областей являются графы знаний, которые интегрируют онтологические ресурсы с развитым набором отношений между понятиями и множество именованных сущностей разных типов (конкретных объектов/субъектов, явлений окружающего мира), а также сложные элементы знаний (многокомпонентные фреймы, текстовые фрагменты, медиа-данные и т.д.). Графы знаний используются для формирования развернутых ответов на запросы пользователей, а также как источник знаний о предметной области для улучшения качества работы других методов обработки текстовых данных. Большинство известных больших графов знаний сформировано с использованием заранее структурированных экспертами данных (например, конвертированием ресурсов Википедии). В настоящее время не разработаны полностью автоматизированные подходы к построению больших графов знаний. Актуальной является задача автоматизированного формирования больших графов знаний, включая формирование больших онтологий с развитой системой отношений, интеграции в графах знаний большой номенклатурой типов именованных сущностей, текстовых фрагментов и сложных структурированных элементов знания. Целью работы является разработка методов автоматизированного формирования и сопровождения графов знаний большого размера с использованием методов глубокого обучения на основе содержательной обработки больших массивов текстов, и на основе ранее созданных больших онтологических ресурсов. А также исследование методов использования больших графов знаний для поддержки решения информационно-аналитических задач в реальных социально-экономических и научно-технических предметных областях. Новизна исследования заключается в использовании для формирования больших графов знаний при сочетании мощных методов глубокого обучения с использованием больших предобученных языковых моделей и разработанных ранее методов автоматизированного создания и использования больших лингвистических онтологий. Лингвистические онтологии используют небольшой набор отношений и поддерживают логический вывод по иерархии наследуемых связей. Коллектив авторов НИР имеет большой задел в разработке больших лингвистических онтологий, использующих небольшой набор отношений, опыт в разработке методов выделения разнообразных типов информации из текстов, опыт построения информационно-поисковых и информационно-аналитических систем. В рамках НИР предполагается на основе использования нейросетевых подходов глубокого машинного обучения развить методы автоматизированного создания онтологических ресурсов по текстам предметной области на случай больших онтологий с развитым набором отношений. Также предполагается развить методы извлечения из текстов именованных сущностей по большой номенклатуре типов, в том числе редких типов сущностей, вложенных, разрывных и т.д. Будут разработаны методы поддержки больших графов знаний, включая актуализацию содержимого графа знаний, выявление противоречий, связывание различных вариантов написания именованных сущностей, разрешение многозначности и т.д. Будут исследованы методы использования больших графов знаний для решения информационно-аналитических задач поиска и анализа информации для социально-экономической и научно-технической тематик.
ГРНТИ
20.53.19 Средства обработки и поиска информации
Ключевые слова
большие данные
обработка естественного языка
графы знаний
глубокое обучение
онтологии
предобученные языклвые модели
представление знаний
текстовые данные
информационно-аналитические системы
лингвистические онтологии
Детали
Начало
01.01.2020
Окончание
31.12.2025
№ контракта
5
Заказчик
Правительство Российской Федерации
Исполнитель
Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный университет имени М.В. Ломоносова"
Бюджет
Средства федерального бюджета: 26 000 000 ₽
Похожие документы
Методы структурирования трудноформализуемых предметных областей на основе автоматизированного формирования больших графов знаний и онтологий по разнородным потокам текстовых данных .
1.000
НИОКТР
Методы структурирования трудноформализуемых предметных областей на основе автоматизированного формирования больших графов знаний и онтологий по разнородным потокам текстовых данных .
1.000
НИОКТР
Методы структурирования трудноформализуемых предметных областей на основе автоматизированного формирования больших графов знаний и онтологий по разнородным потокам текстовых данных .
1.000
НИОКТР
Методы структурирования трудноформализуемых предметных областей на основе автоматизированного формирования больших графов знаний и онтологий по разнородным потокам текстовых данных .
1.000
ИКРБС
Методы структурирования трудноформализуемых предметных областей на основе автоматизированного формирования больших графов знаний и онтологий по разнородным потокам текстовых данных
0.958
ИКРБС
Разработка новых методов формирования баз знаний, поиска и адаптации прецедентов о существующих научно-технических решениях и технологиях по их текстовым описаниям на основе теории семантических сетей
0.907
НИОКТР
Разработка метода автоматизированного анализа семантических структур понятий предметной области для повышения качества оценки знаний
0.907
НИОКТР
Исследование и разработка методов и технологий создания интеллектуальных систем анализа, обработки и использования знаний и данных
0.905
ИКРБС
Исследование и разработка методов и технологий создания интеллектуальных систем анализа, обработки и использования знаний и данных
0.905
ИКРБС
Разработка новых методов формирования баз знаний, поиска и адаптации прецедентов о существующих научно-технических решениях и технологиях по их текстовым описаниям на основе теории семантических сетей (заключительный)
0.904
ИКРБС