ИКРБС
№ 221021000410-1Разработка прототипа программного обеспечения для генерации контента на основе сокращенного текста с использованием модели нейросетевого алгоритма для абстрактного автореферирования текста (заключительный)
21.01.2021
Объектом исследования являются модели нейросетевого алгоритма для абстрактного автореферирования текста.
Цель работы - разработка прототипа программного обеспечения для генерации контента на основе сокращенного текста, создание онлайн-библиотеки кратких изложений (саммари) на книги. С помощью нашей системы, которая постоянно обучается и обновляется, можно находить идеи из нон-фикшн книг в необходимом формате за нужное время. Пользователь может выбрать, сколько у него есть времени, и получить краткое изложение в формате текста, аудио или видео. Изучив его, он понимает основные идеи из книги.
Решение основной задачи делится на 5 частей: генерирование уникального текста, иллюстраций, анимации, озвучки, саундтрека.
В процессе реализации проекта решены следующие задачи:
• разработка сервиса для авторов саммари для организации сбора данных, оптимизации и автоматизации процессов;
• анализ и подготовка данных для автоматизации процесса автореферирования текста;
• разработка, тестирование и интеграция гипотез алгоритмов для оптимизации и автоматизации процессов работы сервиса;
• генерация контента до 100 шт.: текст саммари, аудио, видео;
• доработка сервиса авторов саммари для материалов научных исследований;
• разработка, тестирование и интеграция гипотез алгоритмов для оптимизации и автоматизации процессов работы сервиса;
• тестирование основных модулей сервиса, тестирование производственного функционала онлайн-библиотеки;
• доработка основных модулей сервиса по результатам тестирования;
• анализ собранных данных для отладки процессов автоматизации сервиса.
Методология проведения работы: проект основывается на нескольких видах нейросетевых технологий, а именно:
Абстрактная саммаризация (автореферирование) текстов книг (в частности, нехудожественной литературы) является одной из ключевых задач обработки естественного языка (NLP).
Генерирование иллюстраций на основе текста книги, которая решается посредством применения архитектур нейронных сетей GAN (генеративно-состязательных нейронных сетей) и pix2pix.
Несмотря на то, что использование глубокого обучения позволило совершить качественный скачок в этих областях, технологии всё ещё остаются неидеальными. Все исследования и решения, которые существуют на данный момент, практически применимы лишь в лабораторных условиях (за исключением новостных изданий, которые используют алгоритмы для сокращения своих новостных статей).
В рамках проекта проводится оптимизация, доработка и создание принципиально новых алгоритмов для автореферирования текста, которые работают максимально эффективно при обработке текстов нехудожественной литературы. Кроме того, весь генерируемый текст является уникальным, что решает все потенциальные проблемы с авторскими правами на текст книг. Патентный анализ был проведен. Прямых аналогов выявлено не было.
В качестве Proof-of-Concept был взят кейс компании RomanSergeevCom. У компании канал на YouTube (https://www.youtube.com/c/RomanSergeevCom), который занимается производством саммари (краткое изложение) на книги по бизнесу, психологии и личной эффективности в формате анимационных роликов.
С помощью нейронных сетей достигаются следующие показатели:
- увеличение скорости производства анимационных образовательных роликов с 42 дней до 1-3 дней;
- при этом снижается их стоимость на 70%;
- решается проблема масштабирования: канал генерирует необходимое количество графического видео контента.
В результате выполненных работ разработан прототип программного обеспечения для генерации контента на основе сокращенного текста, создана онлайн-библиотека кратких изложений (саммари) на книги - онлайн-библиотека кратких изложений книг на основе нейросетей для автореферирования и генерации контента.
ГРНТИ
20.19.19 Аннотирование и реферирование
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНЫЕ НЕЙРОННЫЕ СЕТИ
САММАРИ
ГЕНЕРАЦИЯ ЕСТЕСТВЕННОГО ЯЗЫКА
ГЕНЕРИРОВАНИЕ ИЗОБРАЖЕНИЙ
ЛИНГВИСТИКА
Детали
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "РоманСергеевКом"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 3 000 000 ₽
Похожие документы
Разработка сервиса для авторов саммари для организации сбора данных, оптимизации и автоматизации процессов. Анализ и подготовка данных для автоматизации процесса автореферирования текста. Разработка, тестирование и интеграция гипотез алгоритмов для оптимизации и автоматизации процессов работы сервиса. Генерация контента до 100 шт.: текст саммари, аудио, видео (промежуточный)
0.986
ИКРБС
Разработка прототипа программного обеспечения для генерации контента на основе сокращенного текста с использованием модели нейросетевого алгоритма для абстрактного автореферирования текста
0.931
НИОКТР
Программа для автоматической генерации и монтажа видео на основе текста
0.902
РИД
СБОР ДАННЫХ И ПОДГОТОВКА КОРПУСА ДАННЫХ ДЛЯ ОБУЧЕНИЯ НЕЙРОСЕТЕВОЙ МОДЕЛИ. ПРОВЕДЕНИЕ ИССЛЕДОВАНИЯ АРХИТЕКТУР ЛИНГВИСТИЧЕСКИХ И НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ. РАЗРАБОТКА МОДУЛЯ ВЗАИМОДЕЙСТВИЯ С ПОЛЬЗОВАТЕЛЕМ (АУТЕНТИФИКАЦИЯ, НАВИГАЦИЯ, ЭЛЕМЕНТЫ ВЗАИМОДЕЙСТВИЯ). РАЗРАБОТКА МОДУЛЯ ГЕНЕРАЦИИ
0.873
ИКРБС
Разработка и тестирование алгоритмов на основе машинного обучения для семантической обработки текстов на живом языке для автоматизации аналитической деятельности
0.871
ИКРБС
Разработка алгоритмов семантического анализа и кластеризации для тематической группировки текстов (произведений) по популярным жанрам для прототипа программного обеспечения. Разработка алгоритма контент-ориентированной фильтрации данных. Разработка обеспечивающих сервисов прототипа программного обеспечения АСАП. Разработка баз данных прототипа программного обеспечения
0.870
ИКРБС
РАЗРАБОТКА ПРОТОТИПА СЕРВИСА ПО ГЕНЕРАЦИИ ОПИСАНИЙ ТОВАРОВ ДЛЯ ИНТЕРНЕТ-МАГАЗИНОЙ С ПОМОЩЬЮ ИСКУССТВЕННОГО ИНТЕЛЕКТА
0.869
ИКРБС
ЗАКЛЮЧИТЕЛЬНЫЙ НАУЧНО-ТЕХНИЧЕСКИЙ ОТЧЁТ о выполнении НИОКР по теме: «Разработка и тестирование прототипа платформы адаптированного обучения на основе искусственного интеллекта для автоматического формирования материалов, базирующаяся на применении мнемонической техники и автоматического подбора обучающих материалов исходя из персональных качеств и предпочтений пользователя»
0.869
ИКРБС
Разработка и исследование метода управляемой
генерации текстов по сюжетной линии
0.868
НИОКТР
Отчет об опытно-конструкторских и технологических работах Разработка универсальной адаптивной системы разметки текстовых данных с использованием предразметки на базе нейросетевых языковых моделей и активного обучения по теме ТЕХНИЧЕСКОЕ ПРЕДЛОЖЕНИЕ (промежуточный) этап 1
0.864
ИКРБС