ИКРБС
№ 222122900014-5

Проектирование платформы для аналитики корпоративных данных Финансового университета FINDATALAKE

13.07.2022

Data Lake (Озеро данных) – это метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах. Используются blob-объект (binary large object) или файл. Идея озера данных в том, чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных, которые используются для различных задач: отчеты, визуализация, аналитика и машинное обучение. Data Lake (озеро данных) включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, лог файлы, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf) и бинарные данные (видео, аудио, графические файлы). Data Lake (озеро данных), кроме методов хранения и описания данных, предполагает определение источников и методов пополнения данных. Цель создания FinDataLake: создание платформы для аналитики корпоративных данных Финансового университета, обеспечивающей интеграцию данных для решения задач прогнозирования и аналитики с применением технологий машинного обучения в едином хранилище на основе технологий больших данных и семантических технологий Основные задачи FinDataLake:  Публикация данных для общего использования данных в аналитических и прогнозных моделях.  Кооперативный доступ к данным: возможность с минимальными административными ограничениями манипулировать данными, в том числе выполнять их преобразование.  Использование открытой онтологии данных для их разметки и интеграции и возможности самостоятельно расширять набор типов данных онтологии.  Облегчение информационно-аналитического поиска в рамках всех видов данных внутри хранилища, в том числе поиск по типам информационных объектов.  Возможность построения сложных аналитических и прогнозных моделей на основе интегрированных данных хранилища FINDATALAKE.  Возможность интеграции данных из FINDATALAKE c FINDATAHUB. Для реализации поставленной цели должны быть выполнены следующие работы:  Разработать архитектуру физического уровня FINDATALAKE в составе: серверное оборудование, коммутационное оборудование, локальные хранилища данных, облачные хранилища данных. Архитектура должна включать схему администрирования и управления, коммутационную схему, схему сетевого взаимодействия на уровнях интранет и интернет.  Разработать архитектуру функционального уровня FINDATALAKE реализующего распределенное хранение больших данных в составе экосистемы Hadoop. Архитектура должна включать структурную схему хранилища объектов, функциональную схему взаимодействия компонентов экосистемы Hadoop.  Разработать проектную документацию на создание интерфейса ввода (записи) объектов.  Разработать проектную документацию на создание интерфейса мониторинга и учета объектов.  Разработать политики разграничения прав доступа к данным.  Разработать проектную документацию на создание интерфейса чтения объектов.
ГРНТИ
20.17.15 Виды источников информации
20.23.21 Информационно-поисковые системы. Банки данных
20.23.25 Информационные системы с базами знаний
Ключевые слова
ELT (extract
load
transform)
ETL (extract
transform
load)
Data Mart
Data Engineering
MapReduce
Data Warehouse
Data Lake
HDFS
Hadoop
Big Data
Детали

НИОКТР
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "ФИНАНСОВЫЙ УНИВЕРСИТЕТ ПРИ ПРАВИТЕЛЬСТВЕ РОССИЙСКОЙ ФЕДЕРАЦИИ"
Исполнитель
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "ФИНАНСОВЫЙ УНИВЕРСИТЕТ ПРИ ПРАВИТЕЛЬСТВЕ РОССИЙСКОЙ ФЕДЕРАЦИИ"
Бюджет
Собственные средства организаций: 1 000 000 ₽
Похожие документы
Проектирование платформы для аналитики корпоративных данных Финансового университета FINDATALAKE
1.000
НИОКТР
Развитие технологий и платформ для решения задач цифровой экономики и научных проектов класса мегасайенс на основе синтеза технологий Больших данных, суперкомпьютерных технологий, озер данных и машинного обучения (этап 2020 года)
0.859
ИКРБС
Разработка дедуктивной базы знаний «Deductive Lake House (KaaS)»
0.841
НИОКТР
Развитие технологий и платформ для решения задач цифровой экономики и научных проектов класса мегасайенс на основе синтеза технологий Больших данных, суперкомпьютерных технологий, озер данных и машинного обучения (этап 2019 года)
0.840
ИКРБС
DATAREON PLATFORM. Механизмы хранения данных
0.834
РИД
«Разработка дедуктивной базы знаний «Deductive Lake House (KaaS)»» (договор No243ГРЦТС10-D5/76588 от 30.05.2022) (заключительный)
0.831
ИКРБС
ОТЧЕТ о выполнении НИОКР по теме: "Разработка дедуктивной базы знаний «Deductive Lake House (KaaS)» Этап No1"Разработка адаптеров для интеграции с источниками данных, проектирование, реализация каталога данных и правил нормализации/гармонизации/стандартизации данных: Разработка технической архитектуры продукта; Разработка и проектирование API для push / pull запросов; Тестирование API для push / pull запросов; Прием CDC потоков данных; Проектирование и разработка API регистрации потоков на основании правил нормализации / гармонизации / стандартизации данных; Формирование родословной данных; Проектирование и описание методологии data governance (крупноблочно); Создание функциональной архитектуры продукта; Создание прототипа пользовательского интерфейса работы с моделями данных; Проектирование и разработка API регистрации логических слоев данных и правил трансформации; Тестирование API для регистрации логических слоев и правил трансормации данных; Тестирование функциональности 1-го этапа (интеграционное): API, прием потоков данных, пользовательского интерфейса" (промежуточный).
0.829
ИКРБС
Совершенствование методов моделирования и организации систем управления информацией для реализации требований экономики данных
0.829
ИКРБС
Разработка прототипа ядра интеллектуальной поисково-аналитической платформы, разработка прототипа веб-интерфейса взаимодействия пользователя с ядром платформы
0.824
ИКРБС
Разработка интеллектуального кэша данных, самомасштабируемой сервис-ориентированной архитектуры и экспериментального образца аналитической системы (BI) для обработки сверхбольших объемов данных. Обобщение и оценка результатов исследований
0.822
ИКРБС