Разработка и тестирование прототипа информационной системы экспертного и машинного анализа текстовых массивов как цифровой платформы для удаленной командной работы

28.09.2021

Этап работы посвящен реализации и тестировании прототипа информационной системы экспертного и машинного анализа текстовых массивов как цифровой платформы для удаленной командной работы. Актуальность исследования обусловлена перспективностью направления автоматического семантического анализа текстов в связи с развитием технологий в областях больших данных и машинного обучения. Прототип основан на микросервисной архитектуре, включающей сервисы, обеспечивающие работу информационной системы экспертного и машинного анализа текстовых массивов. Серверная часть прототипа разработана на платформе FastAPI, среда исполнения поддерживает язык программирования Python 3. Клиентская часть выполнена в виде веб-приложения. За второй этап работы были реализованы и протестированы функции и инструменты автоматической обработки данных, которые распределены между основными микросервисами app, solr и store. Созданная цифровая платформа позволяет создавать, размещать и обмениваться информационными продуктами. Это могут быть размеченные корпуса для создания обучающих выборок, словари и/или словники для автоматизированного анализа текстовых массивов, а также приложения созданные с применением методов машинного обучения. Сама платформа для удаленной сетевой контент-аналитической командной проектной работы имеет все возможности планирования и контроля осуществления деятельности от создания команды, сбора контента до аналитики результатов исследования. Разработанная система используется для коллективной удаленной работы с большими объемами текстовой информации. На данный момент система имеет следующие конструктивные, технологические и технико-эксплуатационные характеристики: - полный размер серверной части прототипа составляет 0,8 Гб; - размер микросервиса app — основное веб-приложение 19,3 Мб - максимальный объем одного текста — не менее 10 тыс. слов; - максимальный объем проекта — не менее 10 млн. слов на проект, не менее 300 тыс. текстов; - скорость импорта данных — не менее 50 тыс. текстов в час; - максимальный размер загружаемого файла данных — не менее 100 мб в сжатом виде; - среднее время обработки вычислительного запроса — не более 1 секунды при соблюдении допустимых объемов текстов и проекта; - поддержка одновременной работы пользователей над одним проектом — не менее 10 пользователей; - максимальное количество семантических полей в классификаторе проекта — не менее 1000 полей. Работающий прототип информационной системы позволяет в полной мере использовать машинную обработку языковых массивов с помощью лексических библиотек и методов машинного обучения.

ГРНТИ

16.31.21 Автоматическая обработка текста. Автоматический перевод. Автоматическое распознавание речи

Ключевые слова

цифровая платформа

экспертный анализ текстов

автоматический анализ текстов

машинное обучение

сетевая организация удаленной командной работы

Детали

НИОКТР

№ АААА-А20-120102390056-1

Заказчик