ИКРБС
№ 222051700007-2СБОР ДАННЫХ И ПОДГОТОВКА КОРПУСА ДАННЫХ ДЛЯ ОБУЧЕНИЯ НЕЙРОСЕТЕВОЙ МОДЕЛИ. ПРОВЕДЕНИЕ ИССЛЕДОВАНИЯ АРХИТЕКТУР ЛИНГВИСТИЧЕСКИХ И НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ. РАЗРАБОТКА МОДУЛЯ ВЗАИМОДЕЙСТВИЯ С ПОЛЬЗОВАТЕЛЕМ (АУТЕНТИФИКАЦИЯ, НАВИГАЦИЯ, ЭЛЕМЕНТЫ ВЗАИМОДЕЙСТВИЯ). РАЗРАБОТКА МОДУЛЯ ГЕНЕРАЦИИ
03.02.2022
Цели работы:
1) Провести исследование актуальных моделей и подходов для задачи генерации текста,
2) Собрать набор данных для обучения и тестирования моделей,
3) Реализовать алгоритм генерации продуктовых описаний на основе языковых моделей,
4) Реализовать прототип системы состоящей из модуля генерации и модуля взаимодействия с пользователем.
Объектом исследования являлся процесс генерации продуктовых описаний, с использованием языковой модели для получения вероятностных распределений слов.
Этап 1. Проведение исследования архитектур лингвистических и нейросетевых моделей.
В качестве метода исследования был выбран метод экспериментов. Был проведен анализ литературы и исследованы методы двух типов:
● Методы на основе шаблонов,
● Методы на основе языкового моделирования.
В результате исследования актуальных подходов и оценки их плюсов и минусов, была выбрана нейросетевая модель GPT, как одна из наилучших генеративных моделей на данный момент. GPT представляет собой трансформер-декодер вместе с полносвязным слоем для предсказания следующего слоя. Модель обучается на задаче языкового моделирования, то есть предсказывает следующее слово, на основании предыдущих, тем самым формируя вероятностное распределение .
Этап 2. Сбор данных и подготовка корпуса данных для обучения нейросетевой модели.
Для того, чтобы обучить GPT на продуктовых описаниях было собрано два набора данных для английского и русского языка размером в 100 тысяч описаний каждый. Для этого был реализован собственный краулер и парсер. Для того, чтобы отобрать только качественные описания, была использована технология активного обучения, основанная на использовании части человеческого труда для разметки. Описания размечались на хорошие, плохие и промежуточный вариант. На основе разметки итерационно обучался классификатор оценки качества, который и был использован в дальнейшем.
Был также реализован алгоритм выделения значимых характеристик из текстов на основе статистических распределений и совстречаемости слов в корпусе. Используя данный алгоритм, из каждого описания были извлечены характеристики, которые, вместе с названием продукта формирует контрольный префикс для языковой модели.
При обучении GPT на наборе наборе пар контрольный префикс и описание подготовленным специальным образом, модель обучается обуславливаться на данные в контрольном префиксе, таким образом, выучивая условное распределение, где C — это характеристики описания, выраженные словами.
В результате обучения модели GPT на сформированных наборах данных были получены две модели, которые можно использовать для генерации описаний. С помощью аннотаторов было произведено сравнения качества генерации в двух постановках: только на основании названия и на основании сформированного префикса характеристик. Результаты оценки показали, что предложенный подход превосходит вариант на основе названий.
Этап 3. Разработка модуля взаимодействия с пользователем
Был реализован интерфейс взаимодействия с пользователем, который позволяет многопользовательский режим работы с системой. Интерфейс разрабатывался на стеке технологий HTML5, css и javascript. Реализован метод регистрации и аутентификации пользователей, а также навигация по продуктам в каталогах.
Пользователь может, используя специальный поля, создать запрос к серверу с целью получить генерацию на основе технических описаний. Пользовательский интерфейс позволяет как добавлять новые характеристики, так и удалять старые или изменять их. Взаимодействие с сервером происходит через механизм AWS очередей, а стандартное время ответа составляет около 10-20 секунд.
Этап 4. Разработка модуля генерации.
В качестве НИОКР был реализован модуль обучения генеративных моделей GPT, а также модуль генерации на основе обученных моделей. Модули реализованы на языке python с использованием библиотеки pytorch и технологий AWS.
В модуле генерации также были реализованы некоторые методы фильтрации, рекомендации тегов, валидации входных и выходных данных.
Поверх модуля генерации был реализован модуль взаимодействия с пользователем, используя язык python и java script, который позволяет пользователям регистрироваться в системе, формировать запросы к модулю генерации и копировать себе подходящее описание.
Отдельно необходимо отметить, что разработанное решение является уникальным на русском языке для сферы электронной коммерции. Единственный аналог разработан компанией Яндекс и используется для генерации других типов текста. Сервис компании Яндекс доступен на сайте https://yandex.ru/lab/yalm. Сервис доступен для следующих типов контента: Новогодние открытки, Без стиля, рекламные сообщения, Теории заговора, ТВ-репортажи, Тосты, Народные мудрости, Пацанские цитаты, Короткие истории, Подписи в instagram, Гороскоп.
Таким образом, разработанный прототип является уникальным решением в России.
Текущие средние эксплуатационные значения:
● Среднее время генерации одного описания - 6 секунд
● Среднее время генерации ста описаний - 3 минуты, 12 секунд
Различия во времени генерации разного количества описаний появляются из-за алгоритмов батчевания входных данных для модели генерации.
Требуются улучшения для поддержания ожидаемого уровня качества для покрытия всех возможных категорий товаров в электронной коммерции. Особенно для низкочастотных и редких категорий товаров.
Предлагаемое развитие НИОКР связано с улучшением качества генераций и поддержанием большего количества генерируемых категорий товаров. Кроме того, необходимо реализовать модуль отвечающий за пост-процессинг результатов генерации в разрезе подставления несуществующих характеристик и автоматического осуществления форматирования сгенерированного текста.
ГРНТИ
20.53.21 Средства выдачи информации
20.53.19 Средства обработки и поиска информации
20.53.15 Средства ввода информации
Ключевые слова
электронная коммерция
продуктовые описания
Детали
НИОКТР
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "СТУРТУП"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 1 000 000 ₽
Похожие документы
Сбор данных и файнтьюнинг модели искусственного интеллекта для генерации описаний товаров в интернет-магазинах
0.956
ИКРБС
РАЗРАБОТКА ПРОТОТИПА СЕРВИСА ПО ГЕНЕРАЦИИ ОПИСАНИЙ ТОВАРОВ ДЛЯ ИНТЕРНЕТ-МАГАЗИНОЙ С ПОМОЩЬЮ ИСКУССТВЕННОГО ИНТЕЛЕКТА
0.937
ИКРБС
Разработка массивов данных. Подбор математического аппарата для решения задач классификации текстов на примерах массивов данных. Проектирование архитектуры прототипа системы. Разработка протокола обмена данными между прототипом системы и системами для автоматизации обработки информации. Разработка компонента анализа визуальной и текстовой информации. Обучение нейросетевой модели распознавания русского языка. Извлечение промта с каждой из картинок через Focus. Анализ данных с помощью YOLO. (промежуточный).
0.915
ИКРБС
Разработка механизма генерации маркетинговых материалов для прототипа веб-платформы. Разработка Back-End архитектуры прототипа веб-платформы. Разработка модуля сбора данных прототипа веб-платформы. Разработка UI/UX прототипа веб-платформы (промежуточный).
0.914
ИКРБС
Разработка омниканальной системы разговорного искусственного интеллекта для ведения коммуникаций (заключительный)
0.912
ИКРБС
Разработка и тестирование прототипа системы для анализа графического и текстового материала при помощи искусственного интеллекта (заключительный)
0.905
ИКРБС
Разработка программного компонента «Управление базой знаний» и обучение нейросетевой модели распознавания русского языка
0.901
ИКРБС
Разработка сервиса на основе искусственного интеллекта по подбору ключевых фраз для карточек товаров и поисковых запросов для автоматизации рекламных кампаний (заключительный)
0.896
ИКРБС
Разработка и испытания прототипа цифровой платформы для генерации аудио и видео контента с использованием искусственного интеллекта (заключительный)
0.895
ИКРБС
Разработка прототипа системы интеллектуального поиска и генерации изображений на основе текстового описания на русском и других языках”
0.892
ИКРБС