РИД
№ 623011600444-5

«Программа преобразования файлов офисных приложений в текст»

16.01.2023

Программа предназначена для извлечения текстовой составляющей из файлов в форматах doc, odt, rtf, pdf, xls. Полученный результат может быть оформлен как текстовый файл с сохранением абзацных отступов, так и набор слов, встречающихся в исходном файле. В первом случае результатом работы является текст, свободный от примечаний, истории изменения, личных данных. Результаты работы программы во втором случае могут быть использованы для формирования поискового индекса. Предусмотрено использование стоп-словаря для исключения слов, не представляющих интереса с точки зрения индексации. Модуль извлечения текста оформлен в виде библиотеки, которая может быть встроена в программу внешних разработчиков. Область применения программы: системы обработки текстов.
ГРНТИ
27.47.15 Математическая теория управляющих систем
28.23.15 Распознавание образов. Обработка изображений
20.23.19 Процессы информационного поиска
20.53.19 Средства обработки и поиска информации
Ключевые слова
текст
файл
офисное приложение
Детали

Тип РИД
Программа для ЭВМ
Сферы применения
Область применения программы: системы обработки текстов.
Ожидается
Исполнитель
Исполнители
Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук"
Заказчик
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Похожие документы
«Программа сортировки распознанных многостраничных текстовых документов с гибкой структурой»
0.902
РИД
Программа автоматического извлечения данных из текстов на естественном языке
0.882
РИД
«Программа извлечения множества образов реквизитов из распознанного зашумленного документа»
0.879
РИД
«Программа многозначной классификации распознанной страницы текстового документа с гибкой структурой»
0.877
РИД
«Программа сравнения распознанных текстовых строк»
0.876
РИД
«Программа сравнения образа документа с набором текстовых строк»
0.874
РИД
Программа автоматического переноса форматирования текста между документами в формате XML
0.874
РИД
«Программа извлечения множества реквизитов в распознанном документе»
0.873
РИД
«Программа машинного анализа текстов для выявления ключевых фраз»
0.872
РИД
«Программа оценки достоверности печати текстовых параграфов в образах документов»
0.871
РИД