ИКРБС
№ 221052400090-5

Развитие технологий и платформ для решения задач цифровой экономики и научных проектов класса мегасайенс на основе синтеза технологий Больших данных, суперкомпьютерных технологий, озер данных и машинного обучения (этап 2020 года)

15.12.2020

Для поддержки физических экспериментов класса мегасайнс разработан прототип автоматизированной системы обработки данных в распределенной гетерогенной вычислительной среде, реализующей концепцию высокопоточной обработки данных. Развернуты и итегрированны базовые системы и сервисы: сервис управления нагрузкой PanDA, информационная система CRIC, сервис передачи данных FTS, система управления данными в распределенной среде Rucio. Системы и сервисы интегрированы между собой общими протоколами аутентификации и авторизации, с использованием единой системы аутентификации и авторизации ОИЯИ. Выбрана программная платформа и разработан прототип высокоуровневой системы управления процессом обработки данных в распределений вычислительной среде, произведена интеграция разработанного прототип c сервисом аутентификации и авторизации ОИЯИ, системой управления нагрузкой PanDA и информационной системой CRIC. В рамках исследования современного рынка труда и разработки количественной оценки его взаимосвязи с социально-экономическими факторами в регионах страны был проведен анализ отечественных и зарубежных источников по исследуемой проблеме, сформирована система показателей, оказывающих влияние на занятость и безработицу в РФ, затем были построены следующие модели: множественная регрессионная модель, определяющая зависимость уровня занятости в регионах РФ от основных макроэкономических показателей, регрессионная модель на главных компонентах, модели бинарного выбора – логит-модель. Было получено пространственное и структурное распределение регионов РФ: проведен иерархический и итерационный кластерный анализ на факторных и объектных данных. Далее был применен бикластерный подход к анализу занятости по видам экономической деятельности, рассмотрены три основных метода: xMotifs, BiMax, OPSM и их результативность для изучения закономерностей на рынке труда. Проведено исследование по формированию критериев выбора современных систем бизнес-аналитики, позволяющих решать социально-экономические задачи в стыковке с системами аналитики Больших данных. Разработаны методы обработки больших объемов данных в задачах распознавания аудиосигналов и речи применительно к технологии речевой подписи. Предложен подход, позволяющий использовать унифицированные методические и программные средства для одновременного решения задач распознавания графических и акустических образов, речевой подписи. Предложенный подход основывается на преобразовании акустической информации в графическую за счет использования 2D-изображений динамических сонограмм и использования технологии Виолы-Джонса. “Озера научных данных” - это концепция построения распределенных систем хранения на основе ресурсов научных групп и институтов участников. На данный момент организация унифицированных, крупных распределенных систем хранения приобретает всё больший интерес для научных сообществ. В данном подходе все ресурсы хранения консолидируется при помощи той или иной технологии и представляются как единая интеллектуальная система хранения, предоставляющая достаточный объем и скоростные характеристики для всех необходимых данных посредством их оптимального расположение на физических носителях для дальнейшей обработки и долговременного хранения. Технологические особенности реализации при этом скрыты от пользователей наличием общих протоколов и сервисов доступа к данным. Таким образом, сегмент распределенной вычислительной инфраструктуры может быть описан как набор вычислительных компонент (сайтов) подключенных к общей системе хранения. Работы по тематике создание прототипа “озера научных данных” проходили в рамках следующих направлений: - Развитие системы управления потоками данных для обработки и анализа информации в эксабайтном диапазоне; - Развитие методов и средств для проведения автоматизированного тестирования систем управления потоками данных; - Разработка и апробация сценария подключения к «озеру данных» вычислительного центра в зависимости от характеристик его ресурсов и особенностей каналов связи; - Разработка методик для определения популярности (востребованности) научных данных и методов управления данными; Наиболее значимые результаты по создание прототипа “озера научных данных”: - Расширение и развитие инфраструктуры прототипа озера данных, в том числе включение в инфраструктуру серверов вычислительного центра РЭУ имени Г.В.Плеханова. Исследование различных сценариев кэширования и буферизации данных данных. - Разработка методологии автоматизации тестирования технологических решений применяемых при построении “озера данных" и создание специализированных систем контроля компонент инфраструктуры (мониторинг системы). Был разработан и внедрен пакет синтетических тестов и тестов, использующих реальные программы, применяемые в области физики элементарных частиц. - Разработка модели “карусели данных”. “Карусель данных” предполагает автоматическую миграцию данных между различными типами носителей, в зависимости от востребованности данных. Реализация данной модели потребовали разработки новых подходов для систем обработки и управления данными. “Карусель данных” была продемонстрирована для эксперимента АTLAS на БАК для обработки более 20 петабайт данных, храящихся на магнитных лентах, при этом размер дискового кэша данных составил 3 петабайта. Данная модель была рекомендована к применению всеми экспериментами на БАК для этапа работы коллайдера в режиме “высокой светимости” (2027/2036 гг). • Исследование популярности и жизненного цикла научных данных физического эксперимента. Определение наиболее популярных данных среди ученых и увеличение эффективности физического анализа за счет гранулярного подхода к информации. Это тема была признана настолько актуальной, что в сентябре 2020 года была создана рабочая группа, в которую вошли участники проекта и сотрудники ЦЕРН для совместного исследования популярности научных данных. Исследования проводились в сотрудничестве с российскими научными центрами (ПИЯФ НИЦ КИ, НИВЦ МГУ), Университетами (МГУ, СПбГУ, НИЯУ МИФИ), международными научными центрами (ЦЕРН, ОИЯИ, Лаборатория физики частиц (LAPP, Франция)).
ГРНТИ
06.01.29 Информационная деятельность в области экономических наук
20.15.05 Информационные службы, сети, системы в целом
20.53.19 Средства обработки и поиска информации
20.53.17 Средства хранения информации
20.51.23 Эффективность информационного обслуживания
Ключевые слова
ОЗЕРА ДАННЫХ
ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ
БОЛЬШИЕ ДАННЫЕ И МАШИННОЕ ОБУЧЕНИЕ
ПРОЕКТЫ "МЕГАСАЙЕНС"
ЦИФРОВАЯ ЭКОНОМИКА
Детали

Заказчик
Российский научный фонд
Исполнитель
федеральное государственное бюджетное образовательное учреждение высшего образования "Российский экономический университет имени Г.В. Плеханова"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 28 000 000 ₽
Похожие документы
Развитие технологий и платформ для решения задач цифровой экономики и научных проектов класса мегасайенс на основе синтеза технологий Больших данных, суперкомпьютерных технологий, озер данных и машинного обучения (этап 2019 года)
0.946
ИКРБС
РАЗРАБОТКА И ВНЕДРЕНИЕ СРЕДСТВ И МЕТОДОВ ДОСТУПА, АНАЛИЗА И ДОЛГОВРЕМЕННОГО ХРАНЕНИЯ РАСПРЕДЕЛЁННЫХ КОЛЛЕКЦИЙ ЭКСПЕРИМЕНТАЛЬНЫХ BIG DATA
0.888
ИКРБС
Методы и технологии облачной сервис-ориентированной цифровой платформы сбора, хранения и обработки больших объёмов разноформатных междисциплинарных данных и знаний, основанные на применении искусственного интеллекта, модельно-управляемого подхода и машинного обучения
0.874
ИКРБС
РАЗРАБОТКА И ВНЕДРЕНИЕ СРЕДСТВ И МЕТОДОВ ДОСТУПА, АНАЛИЗА И ДОЛГОВРЕМЕННОГО ХРАНЕНИЯ РАСПРЕДЕЛЁННЫХ КОЛЛЕКЦИЙ ЭКСПЕРИМЕНТАЛЬНЫХ BIG DATA
0.874
ИКРБС
Методы и технологии облачной сервис-ориентированной цифровой платформы сбора, хранения и обработки больших объёмов разноформатных междисциплинарных данных и знаний, основанные на применении искусственного интеллекта, модельно-управляемого подхода и машинного обучения
0.873
ИКРБС
Методы и технологии облачной сервис-ориентированной цифровой платформы сбора, хранения и обработки больших объёмов разноформатных междисциплинарных данных и знаний, основанные на применении искусственного интеллекта, модельно-управляемого подхода и машинного обучения
0.873
ИКРБС
Методы и технологии облачной сервис-ориентированной цифровой платформы сбора, хранения и обработки больших объёмов разноформатных междисциплинарных данных и знаний, основанные на применении искусственного интеллекта, модельно-управляемого подхода и машинного обучения
0.873
ИКРБС
по комплексной теме: 6Ф-СИ.1 "Исследование, разработка и развитие методов и средств организации высокопроизводительных вычислений, интеграции информационных ресурсов различного вида, формирования цифрового пространства научных знаний и интегрированной инфраструктуры научных, образовательных и ведомственных информационных сетей" (FNEF-2024-0014) (промежуточный, этап 2024 г.)
0.873
ИКРБС
ИССЛЕДОВАНИЕ, РАЗРАБОТКА И РАЗВИТИЕ МЕТОДОВ И СРЕДСТВ ОРГАНИЗАЦИИ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛЕНИЙ, ИНТЕГРАЦИИ ИНФОРМАЦИОННЫХ РЕСУРСОВ РАЗЛИЧНОГО ВИДА, ФОРМИРОВАНИЯ ЦИФРОВОГО ПРОСТРАНСТВА НАУЧНЫХ ЗНАНИЙ И ИНТЕГРИРОВАННОЙ ИНФРАСТРУКТУРЫ НАУЧНЫХ, ОБРАЗОВАТЕЛЬНЫХ И ВЕДОМСТВЕННЫХ ИНФОРМАЦИОННЫХ СЕТЕЙ
0.872
ИКРБС
Отчет о научно-исследовательской работе Исследование технологий обработки больших объемов данных с применением инструментов и методов автоматической обработки структурированной и неструктурированной информации (заключительный)
0.869
ИКРБС