ИКРБС
№ 221093000101-5

Разработка и тестирование прототипа информационной системы экспертного и машинного анализа текстовых массивов как цифровой платформы для удаленной командной работы

28.09.2021

Этап работы посвящен реализации и тестировании прототипа информационной системы экспертного и машинного анализа текстовых массивов как цифровой платформы для удаленной командной работы. Актуальность исследования обусловлена перспективностью направления автоматического семантического анализа текстов в связи с развитием технологий в областях больших данных и машинного обучения. Прототип основан на микросервисной архитектуре, включающей сервисы, обеспечивающие работу информационной системы экспертного и машинного анализа текстовых массивов. Серверная часть прототипа разработана на платформе FastAPI, среда исполнения поддерживает язык программирования Python 3. Клиентская часть выполнена в виде веб-приложения. За второй этап работы были реализованы и протестированы функции и инструменты автоматической обработки данных, которые распределены между основными микросервисами app, solr и store. Созданная цифровая платформа позволяет создавать, размещать и обмениваться информационными продуктами. Это могут быть размеченные корпуса для создания обучающих выборок, словари и/или словники для автоматизированного анализа текстовых массивов, а также приложения созданные с применением методов машинного обучения. Сама платформа для удаленной сетевой контент-аналитической командной проектной работы имеет все возможности планирования и контроля осуществления деятельности от создания команды, сбора контента до аналитики результатов исследования. Разработанная система используется для коллективной удаленной работы с большими объемами текстовой информации. На данный момент система имеет следующие конструктивные, технологические и технико-эксплуатационные характеристики: - полный размер серверной части прототипа составляет 0,8 Гб; - размер микросервиса app — основное веб-приложение 19,3 Мб - максимальный объем одного текста — не менее 10 тыс. слов; - максимальный объем проекта — не менее 10 млн. слов на проект, не менее 300 тыс. текстов; - скорость импорта данных — не менее 50 тыс. текстов в час; - максимальный размер загружаемого файла данных — не менее 100 мб в сжатом виде; - среднее время обработки вычислительного запроса — не более 1 секунды при соблюдении допустимых объемов текстов и проекта; - поддержка одновременной работы пользователей над одним проектом — не менее 10 пользователей; - максимальное количество семантических полей в классификаторе проекта — не менее 1000 полей. Работающий прототип информационной системы позволяет в полной мере использовать машинную обработку языковых массивов с помощью лексических библиотек и методов машинного обучения.
ГРНТИ
16.31.21 Автоматическая обработка текста. Автоматический перевод. Автоматическое распознавание речи
Ключевые слова
цифровая платформа
экспертный анализ текстов
автоматический анализ текстов
машинное обучение
сетевая организация удаленной командной работы
Детали

Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ХЬЮМЕН СЕМАНТИКС"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 1 500 000 ₽
Похожие документы
Техническая реализация и тестирование прототипа информационной системы экспертного и машинного анализа текстовых массивов как цифровой платформы для удаленной командной работы.
0.998
ИКРБС
Разработка ключевых микросервисов прототипа информационной системы экспертного и машинного анализа текстовых массивов как цифровой платформы для удаленной командной работы. Разработка функций и инструментов автоматической обработки данных в прототипе информационной системы экспертного и машинного анализа текстовых массивов как цифровой платформы для удаленной командной работы.
0.949
ИКРБС
Разработка омниканальной системы разговорного искусственного интеллекта для ведения коммуникаций (заключительный)
0.909
ИКРБС
Разработка модуля предобработки текста, модуля векторного представления слов и токенов, модуля классификации страниц. Разработка модуля обучения модели извлечения данных и дообучения моделей. Разработка модуля применения модели извлечения данных и модуля измерения количественных и качественных характеристик компонент системы. Компоновка разработанных модулей в прототип системы для извлечения данных из неструктурированного текста и его тестирование. Доработка прототипа системы для извлечения данных из неструктурированного текста и тестирование разработанного прототипа по результатам тестирования. Разработка технической и эксплуатационной документаций к прототипу системы для извлечения данных из неструктурированного текста и тестирование разработанного прототипа.
0.908
ИКРБС
Разработка и тестирование алгоритмов на основе машинного обучения для семантической обработки текстов на живом языке для автоматизации аналитической деятельности
0.906
ИКРБС
Разработка архитектуры программного комплекса. Разметка дата-сетов для обучения моделей машинного обучения. Проведение исследований в области выбора оптимальных ML-моделей для решения вспомогательных задач, связанных с генерацией оценочных инструментов (поиск взаимосвязей между терминами, выделение смысловых сущностей в тексте, генерация текста и его валидация и прочее). Разработка алгоритмов и ML-моделей для решения задач генерации вопросов по тексту. Обучение каскада ML-моделей. Разработка прототипов пользовательских интерфейсов. Разработка прототипа модуля генерации вопросов. Программная реализация общесистемных компонентов и библиотек. Разработка модуля управления программным комплексом.
0.906
ИКРБС
Разработка системы мониторинга и аналитики информационного ландшафта на основе искусственного интеллекта. Заключительный: разработана компонентная база для системы мониторинга и аналитики информационного ландшафта на основе искусственного интеллекта, разработан пользовательский интерфейс на основе библиотеки компонентов, разработан интерфейс администратора на основе библиотеки компонентов, сформирован набор данных из открытых источников сети Интернет (датасет) и выполнена настройка Системы, разработано ядро системы, а также разработана программа и методика испытаний для REST API системы и аналитики. Разработаны алгоритмы машинного обучения. Разработана подсистема автоматического парсинга. Разработана подсистема семантического анализа. Разработана документация системы. Проведены испытания системы. Доработана система по результатам испытаний. Доработана документация системы по результатам испытаний.
0.905
ИКРБС
Разработка модуля предобработки текста, модуля векторного представления слов и токенов, модуля классификации страниц. Разработка модуля обучения модели извлечения данных и дообучения моделей. Разработка модуля применения модели извлечения данных и модуля измерения количественных и качественных характеристик компонент системы.
0.904
ИКРБС
Разработка, тестирование и доработка по результатам тестирования прототипа системы для извлечения данных из неструктурированного текста. Этап 1.
0.904
ИКРБС
Разработка программного компонента «Управление базой знаний» и обучение нейросетевой модели распознавания русского языка
0.903
ИКРБС