ИКРБС
№ АААА-Б20-220120290089-3Разработка сервиса для авторов саммари для организации сбора данных, оптимизации и автоматизации процессов. Анализ и подготовка данных для автоматизации процесса автореферирования текста. Разработка, тестирование и интеграция гипотез алгоритмов для оптимизации и автоматизации процессов работы сервиса. Генерация контента до 100 шт.: текст саммари, аудио, видео (промежуточный)
01.12.2020
Объектом исследования являются модели нейросетевого алгоритма для абстрактного автореферирования текста. Целью работы является разработка прототипа программного обеспечения для генерации контента на основе сокращенного текста, создание онлайн-библиотеки кратких изложений (саммари) на книги. С помощью нашей системы, которая постоянно обучается и обновляется, можно находить идеи из нон-фикшн книг в необходимом формате за нужное время. Пользователь может выбрать, сколько у него есть времени, и получить краткое изложение в формате текста, аудио или видео. Изучив его, он понимает основные идеи из книги.Решение задачи делится на 5 частей: генерирование уникального текста, иллюстраций, анимации, озвучки, саундтрека.В процессе работы по 1 этапу выполнены следующие работы:- разработка сервиса для авторов саммари для организации сбора данных, оптимизации и автоматизации процессов;- анализ и подготовка данных для автоматизации процесса автореферирования текста;- разработка, тестирование и интеграция гипотез алгоритмов для оптимизации и автоматизации процессов работы сервиса; - генерация контента до 100 шт.: текст саммари, аудио, видео.Предлагаемый инновационный проект, основывается на нескольких видах нейросетевых технологий, а именно:Абстрактная саммаризация (автореферирование) текстов книг (в частности, нехудожественной литературы) является одной из ключевых задач обработки естественного языка (NLP).Генерирование иллюстраций на основе текста книги, которая решается посредством применения архитектур нейронных сетей GAN (генеративно-состязательных нейронных сетей) и pix2pix. Несмотря на то, что использование глубокого обучения позволило совершить качественный скачок в этих областях, технологии всё ещё остаются неидеальными. Все исследования и решения, которые существуют на данный момент, практически применимы лишь в лабораторных условиях (за исключением новостных изданий, которые используют алгоритмы для сокращения своих новостных статей).В рамках создаваемого проекта предлагается оптимизация, доработка и создание принципиально новых алгоритмов для автореферирования текста, которые работают максимально эффективно при обработке текстов нехудожественной литературы. Кроме того, весь генерируемый текст является уникальным, что решает все потенциальные проблемы с авторскими правами на текст книг. Патентный анализ был проведен. Прямых аналогов выявлено не было.В качестве Proof-of-Concept был взят кейс компании RomanSergeevCom. У компании канал на YouTube (https://www.youtube.com/c/RomanSergeevCom), который занимается производством саммари (краткое изложение) на книги по бизнесу, психологии и личной эффективности в формате анимационных роликов.С помощью нейронных сетей планируется: - Увеличить скорость производства анимационных образовательных роликов с 42 дней до 1-3 дней;- При этом снизить их стоимость на 70%;- Также это решит проблему масштабирования: канал сможет генерировать необходимое количество графического видео контента.В результате выполненных работ будет разработан прототип программного обеспечения для генерации контента на основе сокращенного текста, создание онлайн-библиотеки кратких изложений (саммари) на книги - онлайн-библиотека кратких изложений книг на основе нейросетей для автореферирования и генерации контента. Разрабатываемое решение подлежит внедрению в экосистему нейросетевых технологий, сделавших в последнее время огромный шаг в жизни общества. Одним из его направлений является создание инструментов для упрощения жизни активных современных людей, находящихся в очень динамичном и постоянно меняющемся ритме жизни. На основе результатов выполнения проекта могут быть осуществлены научно-исследовательские и опытно-конструкторские работы в областях, смежных с тематикой настоящего исследования, например, саммари научных статей, медицинской информации и проч. Наша система сможет:1.Генерировать уникальное краткое изложение книги;2.Генерировать иллюстрации на основе текстового описания;3.Генерировать музыкальное сопровождение на основе текстового описания. Это позволит расширить возможности когнитивного воздействия на пользователей.Работы по этапу выполнены в полном объеме в соответствии с календарным планом и техническим заданием.
ГРНТИ
20.19.19 Аннотирование и реферирование
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНЫЕ НЕЙРОННЫЕ СЕТИ
ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
ГЕНЕРАЦИЯ ЕСТЕСТВЕННОГО ЯЗЫКА
ГЕНЕРИРОВАНИЕ ИЗОБРАЖЕНИЙ
ЛИНГВИСТИКА
Детали
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "РоманСергеевКом"
Похожие документы
Разработка прототипа программного обеспечения для генерации контента на основе сокращенного текста с использованием модели нейросетевого алгоритма для абстрактного автореферирования текста (заключительный)
0.986
ИКРБС
Разработка прототипа программного обеспечения для генерации контента на основе сокращенного текста с использованием модели нейросетевого алгоритма для абстрактного автореферирования текста
0.921
НИОКТР
Программа для автоматической генерации и монтажа видео на основе текста
0.897
РИД
СБОР ДАННЫХ И ПОДГОТОВКА КОРПУСА ДАННЫХ ДЛЯ ОБУЧЕНИЯ НЕЙРОСЕТЕВОЙ МОДЕЛИ. ПРОВЕДЕНИЕ ИССЛЕДОВАНИЯ АРХИТЕКТУР ЛИНГВИСТИЧЕСКИХ И НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ. РАЗРАБОТКА МОДУЛЯ ВЗАИМОДЕЙСТВИЯ С ПОЛЬЗОВАТЕЛЕМ (АУТЕНТИФИКАЦИЯ, НАВИГАЦИЯ, ЭЛЕМЕНТЫ ВЗАИМОДЕЙСТВИЯ). РАЗРАБОТКА МОДУЛЯ ГЕНЕРАЦИИ
0.879
ИКРБС
РАЗРАБОТКА ПРОТОТИПА СЕРВИСА ПО ГЕНЕРАЦИИ ОПИСАНИЙ ТОВАРОВ ДЛЯ ИНТЕРНЕТ-МАГАЗИНОЙ С ПОМОЩЬЮ ИСКУССТВЕННОГО ИНТЕЛЕКТА
0.874
ИКРБС
Разработка алгоритмов семантического анализа и кластеризации для тематической группировки текстов (произведений) по популярным жанрам для прототипа программного обеспечения. Разработка алгоритма контент-ориентированной фильтрации данных. Разработка обеспечивающих сервисов прототипа программного обеспечения АСАП. Разработка баз данных прототипа программного обеспечения
0.866
ИКРБС
ЗАКЛЮЧИТЕЛЬНЫЙ НАУЧНО-ТЕХНИЧЕСКИЙ ОТЧЁТ о выполнении НИОКР по теме: «Разработка и тестирование прототипа платформы адаптированного обучения на основе искусственного интеллекта для автоматического формирования материалов, базирующаяся на применении мнемонической техники и автоматического подбора обучающих материалов исходя из персональных качеств и предпочтений пользователя»
0.866
ИКРБС
Разработка и тестирование алгоритмов на основе машинного обучения для семантической обработки текстов на живом языке для автоматизации аналитической деятельности
0.865
ИКРБС
Сбор и разметка крупного набора данных.
Проведение экспериментов с обучением нейронной сети на собранном датасете и открытых датасетах для улучшения качества компоненты выделения ключевой информации и суммаризации.
Проведение экспериментов с обучением нейронной сети на собранном датасете и открытых датасетах для улучшения качества алгоритмов диаризации и распознавания речи.
Проведение функциональных испытаний качества работы продукта и его соответствия необходимым техническим характеристикам.
(промежуточный)
0.863
ИКРБС
Разработка массивов данных. Подбор математического аппарата для решения задач классификации текстов на примерах массивов данных. Проектирование архитектуры прототипа системы. Разработка протокола обмена данными между прототипом системы и системами для автоматизации обработки информации. Разработка компонента анализа визуальной и текстовой информации. Обучение нейросетевой модели распознавания русского языка. Извлечение промта с каждой из картинок через Focus. Анализ данных с помощью YOLO. (промежуточный).
0.861
ИКРБС