НИОКТР
№ 122011800109-7

Разработка программного комплекса для автоматического аннотирования и интеллектуального поиска корпоративной документации в распределенных источниках в целях сокращения временных издержек на поиск и сегментацию документов с поддержкой взаимодействия на естественном языке при помощи текстовых или голосовых сообщений, используя технологии семантического анализа для вычленения важных смысловых групп, их структуризации и формирования аннотации, а также технологии машинного и глубокого машинного обучения для постоянного улучшения качества обработки запросов и результатов аннотирования.

17.01.2022

Аннотация для заявки: Целью настоящей научно-исследовательской и опытно-конструкторской работы (НИОКР) является разработка программного комплекса для интеллектуального поиска корпоративной документации в распределенных источниках с целью сокращения времени на поиск нужных документов и информации, необходимой сотрудникам для работы, а также с возможностью автоматического выделения сущностей и создания аннотаций к документам - для расширения возможностей поиска и работы с найденными документами, используя технологии семантического анализа для вычленения важных смысловых групп, автоматической классификации для их структуризации, автоматического аннотирования, а также технологии машинного и глубокого машинного обучения для постоянного улучшения качества обработки запросов и результатов аннотирования. Для решения этой задачи будут разработаны новые и усовершенствованы существующие методы компьютерной лингвистики, которые будут основаны на таких технологиях как: – Автоматическое аннотирование текстов для создания краткого описания содержимого документа; – Интеллектуальный анализ текста; – Автоматическое классификация документов по категориями; – Тематическое моделирование и выделение аспектов для автоматической классификации документов по разным типам и тематикам; – Извлечение именованных сущностей и мета-данных из текста для поиска по извлеченным из текста сущностям: названиям компаний, адресам, персонам, заказчику, сумме сделки, датам и т.п.; – Технология индексации и поиска - создание индексов для быстрого поиска по документам; – Технология семантического анализа текста для возможности поиска не только по совпадению ключевых фраз, но и по смыслу документа; – Технология постоянного улучшения релевантности выдачи документов по запросу пользователя. Разрабатываемый программный продукт позволит пользователям значительно упростить и ускорить процесс поиска необходимых документов и информации содержащейся в них. Продукт предоставит пользователям функционал дополняемой базы данных, возможности технологий интеллектуальной компьютерной лингвистики, которые позволят выполнять поиск документов и информации по смыслу, выполнять первичную обработку документов и запросов, принимаемых через разные каналы, индексацию файлов, текстов и документов с последующим учетом их при интеллектуальном поиске. Качественные характеристики разрабатываемого продукта: – Единая точка входа для поиска документов по всем хранилищам системы; – Высокая скорость внедрения в компании за счет набора готовых интеграций; – Удобство использования (за счет предварительной обработки запроса пользователя); – Возможность поставки как on-premise внутри контура организации, так и SAAS-решения (программное обеспечение как услуга) по подписке; – Возможность находить максимально полные и точные данные и документы при минимальных затратах ресурсов (поиск не только по ключевым словам, но и по смыслу документа); – Качественный анализ данных при минимальном предварительном обучении; – Повышение качества использования существующих информационных систем; – Повышение скорости и качества принимаемых решений на основе накопленной в компании структурированной и неструктурированной информации; – Повышение качества корпоративной документации за счет увеличения эксплуатируемости документов и снижения количества дублей; – Простота настройки системы; – Возможность использовать широкий набор фильтров (по типу и тематике документа, по извлеченным сущностям из документов) без предварительного заполнения атрибутов документов вручную.
ГРНТИ
28.23.37 Нейронные сети
20.23.25 Информационные системы с базами знаний
20.23.21 Информационно-поисковые системы. Банки данных
20.23.19 Процессы информационного поиска
Ключевые слова
НЕЙРОСЕТИ
ИНТЕЛЛЕКТУАЛЬНЫЙ ПОИСК
БАЗЫ ДАННЫХ
Детали

Начало
06.12.2021
Окончание
06.12.2022
№ контракта
738ГРНТИС5/71111
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "СИБЭДЖ"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 20 000 000 ₽; Собственные средства организаций: 6 000 000 ₽
Похожие документы
ОТЧЕТ о выполнении НИОКР по теме: "Разработка программного комплекса для автоматического аннотирования и интеллектуального поиска корпоративной документации в распределенных источниках в целях сокращения временных издержек на поиск и сегментацию документов с поддержкой взаимодействия на естественном языке при помощи текстовых или голосовых сообщений, используя технологии семантического анализа для вычленения важных смысловых групп, их структуризации и формирования аннотации, а также технологии машинного и глубокого машинного обучения для постоянного улучшения качества обработки запросов и результатов аннотирования." (договор 738ГРНТИС5/71111 от 03.12.2021)
0.932
ИКРБС
Проектирование и разработка версии программного комплекса для организации кроссплатформенной мультиотраслевой базы знаний с интеллектуальным поиском по данным, хранящимся в ней, с использованием технологии семантического анализа для распознавания сущностей в тексте и его структуризации
0.925
НИОКТР
ОТЧЕТ о выполнении НИОКР по теме: "Разработка программного комплекса для интеллектуального поиска по корпоративной документации в различных источниках в целях облегчения доступа сотрудникам к корпоративной информации и предоставления ответов на часто задаваемые вопросы с поддержкой коммуникации на естественном языке, используя технологии семантического анализа для распознавания сущностей в тексте и его структуризации, а также технологии глубокого машинного обучения для постоянного улучшения релевантности ответов и результатов выдачи поиска." (договор №494ГРНТИС5/45573 от 11.04.2019)
0.916
ИКРБС
Разработка программного комплекса для интеллектуального поиска по корпоративной документации в различных источниках в целях облегчения доступа сотрудникам к корпоративной информации и предоставления ответов на часто задаваемые вопросы с поддержкой коммуникации на естественном языке, используя технологии семантического анализа для распознавания сущностей в тексте и его структуризации, а также технологии глубокого машинного обучения для постоянного улучшения релевантности ответов и результатов выдачи поиска.
0.911
НИОКТР
Развитие кооперации Российских образовательных организаций высшего образования, государственных научных учреждений и организаций реального сектора экономики в целях реализации комплексных проектов по созданию высокотехнологичных производств
0.909
ИКРБС
Разработка модуля классификации типов документов, обеспечивающий автоматическое определение типа загруженного документа. Разработка модуля поиска именованных сущностей. Разработка модуля семантического анализа текстов.
0.906
ИКРБС
Разработка технологии и реализующего ее программного комплекса для интеллектуальной обработки текстов: понимания входящих запросов на естественном языке и смыслового анализа содержимого документов с целью автоматизации процессов управления знаниями, поиска релевантных данных для ответов и маршрутизации запросов в коммерческих или государственных организациях
0.904
ИКРБС
Разработка лингвистических фреймов, словарей и правил поиска сущностей. Разработка модуля загрузки документов. Разработка модуля отображения данных. Разработка модуля представления результатов анализа, служебного модуля разметки образцов документов для последующей обработки обучающего датасета. Разработка модуля взаимодействия с пользователем.
0.902
ИКРБС
Разработка системы анализа входящих документов с применением технологий обработки естественного языка и онтологий
0.901
ИКРБС
Разработка технологии и реализующего ее программного комплекса для интеллектуальной обработки текстов: понимания входящих запросов на естественном языке и смыслового анализа содержимого документов с целью автоматизации процессов управления знаниями, поиска релевантных данных для ответов и маршрутизации запросов в коммерческих или государственных организациях
0.901
НИОКТР