РИД
№ 621123000053-7«Программа кластеризации массива распознанных слов»
30.12.2021
Программа может быть использована в системах электронных архивов в части ввода оцифрованных документов в компьютер. Целью работы программы является построение кластеров близких слов, извлеченных из отсканированных документов. Особенностями программы является возможность проведения кластерного анализа строк и групп строк документа. Основными функциями программы являются:
- загрузка описания документов в виде совокупностей размещений групп ключевых слов с ограничениями (порядок размещения слов по горизонтали и вертикали, расстояние между словами),
- загрузка одностраничного изображения в виде результатов распознавания слов и символов с альтернативами и оценками распознавания,
- кластеризация массива слов методом ближайшего соседа,
- упорядочивание массива сформированных строк,
- установление соответствия сформированных и эталонных строк,
- устранение конфликтов неоднозначного соответствия.
- сохранение результатов в формате XML для передачи в архив.
ГРНТИ
20.53.19 Средства обработки и поиска информации
20.23.19 Процессы информационного поиска
28.23.15 Распознавание образов. Обработка изображений
27.47.15 Математическая теория управляющих систем
Ключевые слова
ключевое слово
реквизиты
распознавание документов
Детали
Тип РИД
Программа для ЭВМ
Сферы применения
Системы анализа изображений
Ожидается
Исполнитель
Исполнители
Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук"
Заказчик
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Похожие документы
«Программа классификации строк распознанного документа»
0.936
РИД
«Программа машинного анализа текстов для выявления ключевых фраз»
0.934
РИД
«Программа сортировки документов»
0.923
РИД
«Программа поиска соответствия слов распознанного документа и множества ключевых слов»
0.921
РИД
«Программа многозначной классификации распознанной страницы текстового документа с гибкой структурой»
0.917
РИД
«Программа лингвистического дораспознавания полей документа»
0.916
РИД
«Программа сортировки распознанных многостраничных текстовых документов с гибкой структурой»
0.913
РИД
Программная система классификации текстовых данных на основе семантико-онтологического анализа
0.912
РИД
«Программа извлечения множества реквизитов в распознанном документе»
0.911
РИД
«Программа многозначной классификации распознанной страницы многостраничного текстового документов с гибкой структурой в условиях ашумления»
0.906
РИД