ИКРБС
№ 225022812275-6

Исследование и выбор методов подготовки, трансформации, интеграции и анализа данных. Разработка архитектуры прототипа интеллектуальной платформы для анализа данных. Разработка компонентов для подключения к различным источникам данных. Разработка no-code конструктора процессов подготовки и трансформации данных. Тестирование подключения к источникам данных, выполнения операций подготовки и трансформации данных и работоспособности no-code конструктора процессов. Анализ результатов тестирования и доработка подключения к источникам данных, выполнения операций подготовки и трансформации данных и работоспособности no-code конструктора процессов.

27.02.2025

Данный промежуточный научно-технический отчёт НИОКР «Создание интеллектуальной платформы для анализа данных» посвящён выполнению первого этапа работ по разработке интеллектуальной системы, объединяющей традиционные методы ETL/ELT и современные подходы на базе искусственного интеллекта и больших языковых моделей (LLM). В отчёте подробно описаны исследования, проектирование, разработка и тестирование ключевых компонентов платформы, а также проведён сравнительный анализ существующих решений. Основные направления работы включают: • Исследование методов обработки данных. Выполнен анализ современных методов подготовки, трансформации, интеграции и анализа данных. Рассмотрены как традиционные подходы (ETL и ELT), так и инновационные технологии, включающие применение алгоритмов машинного обучения, автоматизированного управления процессами, а также LLM для предобработки неструктурированных данных. Особое внимание уделено методам API-интеграций, коннекторам для реляционных и облачных баз, а также инструментам веб-скрейпинга с учётом правовых и технических аспектов. • Разработка архитектуры платформы. Сформирована концепция интеллектуальной платформы, способной гибко настраивать процессы обработки данных. Выбран микросервисный подход, позволяющий обеспечить масштабируемость, отказоустойчивость и безопасность системы. Архитектура предусматривает хранение промежуточных результатов, логирование выполнения операций и интеграцию с различными источниками данных (базы, API, файлы, облачные хранилища). • Создание компонентов подключения и интеграции. Разработаны и протестированы модули для автоматизированного подключения к разнородным источникам данных, включая SQL-базы, REST API, файловые и облачные хранилища. Особое внимание уделено реализации коннекторов, обеспечивающих автоматическое определение схем данных и их маппинг для последующей обработки. • Разработка no-code конструктора ETL-процессов. Важным результатом этапа стало создание визуального конструктора с drag-and-drop интерфейсом, позволяющего пользователям без навыков программирования настраивать процессы очистки, нормализации, фильтрации, дедупликации, агрегации и объединения данных. Конструктор обеспечивает настройку расписания выполнения конвейеров, контроль промежуточных результатов и интеграцию с компонентами платформы. • Тестирование и оптимизация. Проведено комплексное функциональное, интеграционное и UX-тестирование системы. Проверены корректность подключения к источникам, обработка данных, работоспособность API-интеграций, файловой обработки и веб-скрейпинга. В ходе тестирования выявлены и устранены ошибки, оптимизированы алгоритмы обработки, что позволило сократить время выполнения ETL-процессов и повысить надёжность системы. Также реализованы механизмы контроля доступа с аутентификацией и разграничением прав пользователей. • Основные выводы и перспективы дальнейшей разработки. Выполненные работы подтвердили соответствие разработанных модулей требованиям технического задания и календарного плана. Созданная технологическая основа позволяет на следующем этапе интегрировать компоненты машинного обучения, расширить функциональные возможности аналитических процессов и углубить применение LLM для обработки неструктурированных данных. Дальнейшее развитие платформы планируется в направлении автоматизации аналитических процессов, повышения производительности и улучшения пользовательского опыта. Таким образом, этап 1 НИОКР успешно завершён: разработаны и протестированы ключевые компоненты интеллектуальной платформы, обеспечивающие универсальность, масштабируемость и адаптивность системы. Результаты работ создают прочную базу для последующей интеграции продвинутых аналитических и AI-инструментов, что позволит существенно расширить функциональные возможности платформы в будущем.
ГРНТИ
20.53.19 Средства обработки и поиска информации
Ключевые слова
No-code
ETL
обработка данных
трансформация данных
подготовка данных
очистка данных
агрегация данных
фильтрация данных
автоматизация аналитики
большие языковые модели
Детали

НИОКТР
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ЭПСИЛОН МЕТРИКС"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 2 000 000 ₽
Похожие документы
«Разработка системы бизнес-аналитики с конструктором нейросетей» (договор №221ГРЦТС10-D5/76591 от 04.05.2022) (заключительный)
0.918
ИКРБС
Этап №1"Выбор и имплементация серверных мощностей и программных компонентов прототипа платформы. Разработка и настройка аппаратной части прототипа платформы. Разработка и настройка программной части платформы. Разработка первой версии алгоритмов прототипа платформы. Разработка интерфейсов прототипа платформы. Проектирование методологии аналитики прототипа платформы". (промежуточный)
0.913
ИКРБС
Этап №2"Разработка интеграционных компонентов прототипа платформы. Нагрузочное тестирование компонентов прототипа платформы. Интеграционное тестирование компонентов платформы. Устранение дефектов и расширение функционала ядра прототипа платформы. Реализация ролевой модели доступа к прототипу платформы. Реализация мероприятий по отказоусточивости прототипа платформы. Тестирование компонентов прототипа платформы." (заключительный)
0.907
ИКРБС
ОТЧЕТ о выполнении НИОКР по теме: «Разработка и тестирование прототипа цифровой платформы сбора, хранения, обработки и анализа производственных данных.» (договор №4767ГС1/80338 от 01.11.2022) Этап №1 «Исследование и проведение испытаний современных технологий, инструментов разработки и развертывания программного обеспечения, а также протоколов обмена данными, определение оптимальных характеристик по скорости межпроцессного взаимодействия, вычислений и возможностей кластеризации. Исследование актуальных отраслевых стандартов, в частности OPA-S, ISA-95, определение применимости этих стандартов для разработки прототипа платформы. Разработка полигона нагрузочного тестирования. Разработка алгоритмов и средств тестирования для проведения испытаний функции записи и чтения данных. Разработка программного кода для тестирования основных технических решений прототипа платформы с использованием полигона нагрузочного тестирования. Разработка программы и методики испытаний (тестирования) прототипа платформы.»
0.907
ИКРБС
Этап №2 «Написание структуры хранения метаданных системы. Разработка модуля «Генератор SQL объектов». Разработка системы хранения метаданных (Триггеры, Процедуры). Разработка подсистемы нейросетей DATAGURU ML. Разработка подсистемы DATAGURU RPA. Разработка модуля рекомендаций. Разработка модуля по управлению НСИ. Разработка модуля интерфейса RPA. Тестирование модулей рекомендаций, НСИ, ML, RPA. Разработка подсистемы простых отчетов BI. Разработка Web интерфейса для BI хранилища простых отчетов. Разработка библиотеки работы с rest сервисом.» (промежуточный)
0.904
ИКРБС
Разработка и тестирование прототипа сервиса предиктивного анализа технологических трендов и рекомендаций по подбору технологических решений на основе специализированной языковой модели и коннектора данных (заключительный)
0.903
ИКРБС
Доработка интеграционной шины для управления процессами и контроля целостности распределенных транзакций, обеспечения интеграции между системами, содержащими мастер-данные, а также для корреляции событий в отдельных подсистемах платформы в части разработки и технической реализация интеграционного механизма передачи документов от платформы в учетные системы. Разработка и техническая реализация инструментов администрирования и контроля интеграционных потоков. Доработка архитектуры подсистемы электронного архива финансовых первичных документов (ECM), в рамках которого работает автоматическое распознавание документов. Доработка архитектуры подсистемы управления потоком работ (BPM), включающая шаблоны и маршруты, ролевую модель и автоматическую маршрутизацию задач для исполнения программными роботами или сотрудниками с необходимыми навыками и квалификацией. Доработка подсистемы коммуникации (Портал), включая личные кабинеты сотрудников с кадровыми сервисами для сотрудников, личные кабинеты руководителей̆ с online- дашбордами, включающими оперативную кадровую и финансовую статистику по организации, базы знаний для сотрудников по всем вопросам, связанным с их взаимодействием с кадровыми и бухгалтерскими службами и процессами. Доработка подсистемы взаимодействия с операторами ЭДО и УЦ для организации подписания документов электронной̆ подписью. (промежуточный)
0.903
ИКРБС
Этап №1 «Проектирование и разработка оптимальной архитектуры, прототипирование, разработка, функциональное описание интерфейсов. Разработка и программирование модулей связей и обновлений прототипа договорной платформы с использованием облачной серверной инфраструктуры провайдера. Разметка базы данных, структурирование и разметка данных для рекомендательных модулей ML, сборка структуры прототипа договорной платформы. Структурирование базы данных, разработка административных интерфейсов, пользовательской структуры, внешних интерфейсов, системы регистрации, договорного калькулятора, системы формирование договора, ввода основных шаблонов, разработка модуля CRM и алгоритмов работы со сделкой.» (промежуточный)
0.903
ИКРБС
«Разработка модуля подключения системы к ресурсам вычислительной инфраструктуры для сбора журналов событий средствами API-подключения. Сбор реального датасета для наполнения векторного хранилища с инфраструктуры, используемой в продуктивном режиме. Разработка модуля автоматизации использования векторного хранилища RAG для работы LLM на реальных данных. Тестирование опытного образца на ресурсах базовой инфраструктуры в составе: кластер виртуализации/VDI.» (промежуточный)
0.902
ИКРБС
Разработка прототипа программного комплекса сквозной бизнес-аналитики на основе массивов больших данных (версии для крупного бизнеса и рекламных агентств)
0.902
ИКРБС