СБОР ДАННЫХ И ПОДГОТОВКА КОРПУСА ДАННЫХ ДЛЯ ОБУЧЕНИЯ НЕЙРОСЕТЕВОЙ МОДЕЛИ. ПРОВЕДЕНИЕ ИССЛЕДОВАНИЯ АРХИТЕКТУР ЛИНГВИСТИЧЕСКИХ И НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ. РАЗРАБОТКА МОДУЛЯ ВЗАИМОДЕЙСТВИЯ С ПОЛЬЗОВАТЕЛЕМ (АУТЕНТИФИКАЦИЯ, НАВИГАЦИЯ, ЭЛЕМЕНТЫ ВЗАИМОДЕЙСТВИЯ). РАЗРАБОТКА МОДУЛЯ ГЕНЕРАЦИИ

03.02.2022

Цели работы: 1) Провести исследование актуальных моделей и подходов для задачи генерации текста, 2) Собрать набор данных для обучения и тестирования моделей, 3) Реализовать алгоритм генерации продуктовых описаний на основе языковых моделей, 4) Реализовать прототип системы состоящей из модуля генерации и модуля взаимодействия с пользователем. Объектом исследования являлся процесс генерации продуктовых описаний, с использованием языковой модели для получения вероятностных распределений слов. Этап 1. Проведение исследования архитектур лингвистических и нейросетевых моделей. В качестве метода исследования был выбран метод экспериментов. Был проведен анализ литературы и исследованы методы двух типов: ● Методы на основе шаблонов, ● Методы на основе языкового моделирования. В результате исследования актуальных подходов и оценки их плюсов и минусов, была выбрана нейросетевая модель GPT, как одна из наилучших генеративных моделей на данный момент. GPT представляет собой трансформер-декодер вместе с полносвязным слоем для предсказания следующего слоя. Модель обучается на задаче языкового моделирования, то есть предсказывает следующее слово, на основании предыдущих, тем самым формируя вероятностное распределение . Этап 2. Сбор данных и подготовка корпуса данных для обучения нейросетевой модели. Для того, чтобы обучить GPT на продуктовых описаниях было собрано два набора данных для английского и русского языка размером в 100 тысяч описаний каждый. Для этого был реализован собственный краулер и парсер. Для того, чтобы отобрать только качественные описания, была использована технология активного обучения, основанная на использовании части человеческого труда для разметки. Описания размечались на хорошие, плохие и промежуточный вариант. На основе разметки итерационно обучался классификатор оценки качества, который и был использован в дальнейшем. Был также реализован алгоритм выделения значимых характеристик из текстов на основе статистических распределений и совстречаемости слов в корпусе. Используя данный алгоритм, из каждого описания были извлечены характеристики, которые, вместе с названием продукта формирует контрольный префикс для языковой модели. При обучении GPT на наборе наборе пар контрольный префикс и описание подготовленным специальным образом, модель обучается обуславливаться на данные в контрольном префиксе, таким образом, выучивая условное распределение, где C — это характеристики описания, выраженные словами. В результате обучения модели GPT на сформированных наборах данных были получены две модели, которые можно использовать для генерации описаний. С помощью аннотаторов было произведено сравнения качества генерации в двух постановках: только на основании названия и на основании сформированного префикса характеристик. Результаты оценки показали, что предложенный подход превосходит вариант на основе названий. Этап 3. Разработка модуля взаимодействия с пользователем Был реализован интерфейс взаимодействия с пользователем, который позволяет многопользовательский режим работы с системой. Интерфейс разрабатывался на стеке технологий HTML5, css и javascript. Реализован метод регистрации и аутентификации пользователей, а также навигация по продуктам в каталогах. Пользователь может, используя специальный поля, создать запрос к серверу с целью получить генерацию на основе технических описаний. Пользовательский интерфейс позволяет как добавлять новые характеристики, так и удалять старые или изменять их. Взаимодействие с сервером происходит через механизм AWS очередей, а стандартное время ответа составляет около 10-20 секунд. Этап 4. Разработка модуля генерации. В качестве НИОКР был реализован модуль обучения генеративных моделей GPT, а также модуль генерации на основе обученных моделей. Модули реализованы на языке python с использованием библиотеки pytorch и технологий AWS. В модуле генерации также были реализованы некоторые методы фильтрации, рекомендации тегов, валидации входных и выходных данных. Поверх модуля генерации был реализован модуль взаимодействия с пользователем, используя язык python и java script, который позволяет пользователям регистрироваться в системе, формировать запросы к модулю генерации и копировать себе подходящее описание. Отдельно необходимо отметить, что разработанное решение является уникальным на русском языке для сферы электронной коммерции. Единственный аналог разработан компанией Яндекс и используется для генерации других типов текста. Сервис компании Яндекс доступен на сайте https://yandex.ru/lab/yalm. Сервис доступен для следующих типов контента: Новогодние открытки, Без стиля, рекламные сообщения, Теории заговора, ТВ-репортажи, Тосты, Народные мудрости, Пацанские цитаты, Короткие истории, Подписи в instagram, Гороскоп. Таким образом, разработанный прототип является уникальным решением в России. Текущие средние эксплуатационные значения: ● Среднее время генерации одного описания - 6 секунд ● Среднее время генерации ста описаний - 3 минуты, 12 секунд Различия во времени генерации разного количества описаний появляются из-за алгоритмов батчевания входных данных для модели генерации. Требуются улучшения для поддержания ожидаемого уровня качества для покрытия всех возможных категорий товаров в электронной коммерции. Особенно для низкочастотных и редких категорий товаров. Предлагаемое развитие НИОКР связано с улучшением качества генераций и поддержанием большего количества генерируемых категорий товаров. Кроме того, необходимо реализовать модуль отвечающий за пост-процессинг результатов генерации в разрезе подставления несуществующих характеристик и автоматического осуществления форматирования сгенерированного текста.

ГРНТИ

20.53.21 Средства выдачи информации

20.53.19 Средства обработки и поиска информации

20.53.15 Средства ввода информации

Ключевые слова

электронная коммерция

продуктовые описания

Детали

НИОКТР

№ 121092300044-6

Заказчик

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"