РИД
№ 622021600138-3

Document Text Extraction - программа для извлечения текстовых данных на фотографиях документов на основе машинного обучения

16.02.2022

Программа для IBM PC-совместимого компьютера, реализующая в себе алгоритм глубокого машинного обучения в задаче детектирования и извлечения данных текстовых полей на фотографиях структурированных документов. Программный комплекс реализует архитектуру сверточной нейронной сети, которая принимает на вход изображение (фотографию или скан) структурированного документа, а на выходе выдает результат – набор детектированных полей структурированного документа вместе с извлеченной из них текстовой информацией. Результатом работы программы являются предсказания возможного расположения текстовых полей того или иного класса в виде пары координат пикселей левого верхнего и правого нижнего углов, а также набор наиболее вероятных символов, содержащихся внутри детектированных текстовых областей. Объект создан в результате выполнения гранта Старт-ЦТ (159ГС1ЦТНТИС5/64232 от 23.12.2020).
ГРНТИ
28.23.37 Нейронные сети
28.23.25 Модели и системы обучения
28.23.15 Распознавание образов. Обработка изображений
Ключевые слова
Изображения документов
Распознавание текста
Компьютерное зрение
Машинное обучение
Нейронные сети
Детали

Тип РИД
Программа для ЭВМ
Сферы применения
- фронт-офис - бэк-офис - внутрикорпоративный учет - кадровое делопроизводство
Ожидается
Исполнитель
Исполнители
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ДОКВИЖН"
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Похожие документы
Программа OCR по распознаванию целевой информации в изображении документа
0.893
РИД
Программа реализации моделей машинного обучения нейросети для детектирования пространственных координат и ориентации регионов текста на файлах изображений
0.890
РИД
Программный модуль для распознавания атрибутов в документах
0.889
РИД
Программа для обработки документов с помощью компьютерного зрения. Заявка № 2023681525.
0.886
РИД
Программа оптического распознавания технической документации и преобразования графической информации в машиночитаемый вид, доступный для когнитивного анализа
0.883
РИД
Разработка прототипа программного обеспечения для высокоточного извлечения данных из документов на основе нейронных сетей.
0.876
НИОКТР
Оптическое распознавание технической документации и преобразование графической информации в машиночитаемый вид для последующего когнитивного анализа
0.872
РИД
Программа для передачи данных об информационных ресурсах в виде структурированного массива
0.869
РИД
Программа для ЭВМ «Программа распознавания текста на изображениях с использованием технологии искусственного интеллекта Tesseract для Интеллектуальной системы цифровой образовательной среды вуза»
0.866
РИД
ОТЧЕТ о выполнении НИОКР по теме: "Разработка алгоритмов и прототипа кроссплатформенной библиотеки, содержащей алгоритмы автоматического извлечения данных из изображений текстовых документов." (договор 159ГС1ЦТНТИС5/64232 от 23.12.2020) Этап №2 "Разработка алгоритма генерации фона и текста документов с использованием методов компьютерного зрения. Разработка алгоритма генерации искусственных изображений документов с помощью генеративно-состязательных сетей. Проведение обучения и тестирования алгоритма генерации искусственных изображений документов. Исследование параметров генерации генеративно-состязательных сетей. Доработка и оптимизация нейросетевого алгоритма извлечения данных из изображений текстовых документов. Разработка прототипа кроссплатформенной библиотеки, содержащей алгоритмы автоматического извлечения данных из изображений текстовых документов." (заключительный)
0.862
ИКРБС