ИКРБС
№ АААА-Б20-220080390074-5Разработка, тестирование и доработка по результатам тестирования прототипа системы для извлечения данных из неструктурированного текста. Этап 1.
03.08.2020
Объектом исследования является разработка прототипа системы для извлечения данных из неструктурированного текста. Цель первого этапа – разработать ключевые модули прототипа системы, а именно: модуль предобработки текста, модуля векторного представления слов и токенов, модуля классификации страниц; модуль обучения модели извлечения данных и дообучения моделей; модуль применения модели извлечения данных и модуль измерения количественных и качественных характеристик компонент системы. Все запланированные работы по данному этапу выполнены полностью. Разработаны и реализованы программно все необходимые методы. Разработанные модули апробированы на нескольких наборах реальных данных. Таким образом показана их практическая применимость. На следующем этапе НИОКР будет осуществляться компоновка разработанных модулей в прототип единой системы для извлечения данных из неструктурированного текста, а также его тестирование и доработка.
ГРНТИ
20.19.27 Автоматизация знаковой обработки текста
20.53.19 Средства обработки и поиска информации
Ключевые слова
Intelligent Document Processing
Data Capture
автоматизация документооборота
самообучаемые системы
NLP
NER
извлечение сущностей
автообучение
automl
дообучение
классификация текстов
рекуррентные нейронные сети
BI-LSTM
word2vec
FastText
BERT
C
Детали
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "БИТРЕЙН"
Похожие документы
Разработка модуля предобработки текста, модуля векторного представления слов и токенов, модуля классификации страниц. Разработка модуля обучения модели извлечения данных и дообучения моделей. Разработка модуля применения модели извлечения данных и модуля измерения количественных и качественных характеристик компонент системы.
0.971
ИКРБС
Разработка модуля предобработки текста, модуля векторного представления слов и токенов, модуля классификации страниц. Разработка модуля обучения модели извлечения данных и дообучения моделей. Разработка модуля применения модели извлечения данных и модуля измерения количественных и качественных характеристик компонент системы. Компоновка разработанных модулей в прототип системы для извлечения данных из неструктурированного текста и его тестирование. Доработка прототипа системы для извлечения данных из неструктурированного текста и тестирование разработанного прототипа по результатам тестирования. Разработка технической и эксплуатационной документаций к прототипу системы для извлечения данных из неструктурированного текста и тестирование разработанного прототипа.
0.953
ИКРБС
Этап №1 «Исследование и апробация на тестовых выборках методов обработки неструктурированных данных: выявления текстовой информации из входящих файлов, идентификации сущностей (атрибутов), потоковой систематизации входящих материалов, формирования статистических срезов по хранилищу документов. Анализ и разработка функциональной и компонентной архитектуры мультиагентной системы обработки и представления неструктурированных массивов данных. Исследования, выбор, обоснование и апробация технологий реализации программных компонентов системы, согласно компонентной архитектуре.» (промежуточный)
0.927
ИКРБС
Отчет о выполнении НИОКР по теме: «Разработка прототипа интеллектуальной программной платформы семантического анализа текста на естественном языке для решения задачи формирования поручений из распорядительных документов» (договор №152ГС1ИИС12-D7/79676 от 03.10.2022)
Этап №1 «Определение архитектуры прототипа интеллектуальной программной платформы. Определение объема необходимых для реализации проекта понятий. Моделирование структуры понятий. Разработка проектного решения на создание прототипа интеллектуальной программной платформы.»(промежуточный)
0.914
ИКРБС
Этап №1 «Сбор данных по доступному ПО, тестирование доступного ПО с целью определения наилучших программных механизмов, сбор данных по наличию доступных моделей, проведение технических испытаний методов обучения моделей. Формирования видов документов, их количества и количества токенов, извлекаемых из документов. Разработка моделей для предразметки документов и обучение классификаторов. Обогащение размеченного датасета. Обучение модели предразметчика. Предразметка всех документов, имеющихся в прототипе сервиса. Обучение на основе получившего датасета различных классификаторов документов.»
(промежуточный)
0.908
ИКРБС
Этап №1"Разработка архитектуры прототипа интеллектуального модуля менеджмента данных для платформы управления медиа активами (прототип модуля). Исследование и выбор инструментария для разработки прототипа модуля. Разработка принципов работы прототипа модуля. Разработка интерфейса прототипа модуля. Написание программного кода прототипа модуля. Тестирование и отладка прототипа модуля."(промежуточный)
0.908
ИКРБС
Отчет об опытно-конструкторских и технологических работах "Разработка универсальной адаптивной системы разметки текстовых данных с использованием предразметки на базе нейросетевых языковых моделей и активного обучения" по теме Рабочий проект , вторая очередь (промежуточный, этап 5)
0.907
ИКРБС
Отбор, настройка и обучение алгоритмов машинного обучения извлечению данных из бухалтерских документов. Разработка web-интерфейса для работы с прототипом программного обеспечения для ручной корректировки извлеченных данных пользователями. Разработка web-интерфейса главного меню и загрузки документов в прототипе програмнного обеспечения. Разработка базовых программируемых правил для извлечения строго-структурированных данных.
0.907
ИКРБС
Разработка лингвистических фреймов, словарей и правил поиска сущностей. Разработка модуля загрузки документов. Разработка модуля отображения данных. Разработка модуля представления результатов анализа, служебного модуля разметки образцов документов для последующей обработки обучающего датасета. Разработка модуля взаимодействия с пользователем.
0.905
ИКРБС
Разработка и тестирование прототипа информационной системы экспертного и машинного анализа текстовых массивов как цифровой платформы для удаленной командной работы
0.904
ИКРБС