ИКРБС
№ 222101200002-4Отчет об опытно-конструкторских и технологических работах Разработка универсальной адаптивной системы разметки текстовых данных с использованием предразметки на базе нейросетевых языковых моделей и активного обучения по теме ТЕХНИЧЕСКОЕ ПРЕДЛОЖЕНИЕ (промежуточный) этап 1
30.06.2022
Во многих приложениях машинного обучения используется большое количество неразмеченных данных, однако зачастую для их использования в технологиях обучения с учителем возникает задача создания разметки (аннотации), подразумевая под разметкой метаданные в виде списка комментариев/тегов/гиперссылок и т.п. Наиболее часто данный процесс связан с реализацией экспертной ручной или полуавтоматической разметки, что влечет за собой значительные временные и, соответственно, финансовые затраты. Кроме того, при наличии ограниченного времени на разметку полная разметка коллекции данных практически неосуществима. Один из способов, призванных преодолеть данные проблемы, заключается в многоплановом анализе текстового материала, с последующим использованием полученной информации для автоматизации системы разметки данных. В ходе настоящего проекта планируется разработать модернизированную платформу интеллектуализации с сервисом адаптивной разметки документов; в качестве основы данного сервиса предлагается использовать подход активного обучения, направленный на сокращение объема данных, аннотируемых экспертом. В ходе циклического процесса модель активного обучения производит отбор текстовых образцов, с последующей
экспертной разметкой и обучением модели на основе вновь размеченных данных. При аннотировании текста составляющие предложений или структуры текста выделяются по определенным критериям для подготовки наборов данных для использования в моделях машинного обучения. Перечень возможных приложений подобных моделей, наряду с их потенциальными возможностями, продолжает расширяться; существует возможность внедрения модернизированной платформы в любую сферу деятельности, подразумевающую интенсивный документооборот и необходимость обрабатывать текстовые данные, например, анализ договорной документации (проверка на соответствие текущему законодательству, поиск сомнительных требований и отклонений от стандартов, распознавание сущностей, классификация документов и др.). С учетом текущих оригинальных результатов (касающихся, в том числе, оптимизации языковой модели глубокого обучения, лежащей в основе сервисов интеллектуализации, и методов контроля обучения на промежуточных стадиях), присутствует оптимизм в отношении дальнейшего развития функциональных возможностей платформы.
ГРНТИ
28.23.29 Программная реализация интеллектуальных систем
Ключевые слова
МИКРОСЕРВИС
РАЗМЕТКА ДАННЫХ
АКТИВНОЕ ОБУЧЕНИЕ
СИНТАКСИЧЕСКИЙ АНАЛИЗ
РАСПОЗНАВАНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ
СЕМАНТИЧЕСКИЙ ПОИСК
ЯЗЫКОВАЯ МОДЕЛЬ
Детали
НИОКТР
Заказчик
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ЭМБЕДИКА"
Исполнитель
Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский технологический университет "МИСиС"
Бюджет
Средства хозяйствующих субъектов: 9 650 000 ₽
Похожие документы
Отчет о опытно-конструкторских и технологических работах Разработка универсальной адаптивной системы разметки данных с использованием предразметки на базе нейросетевых языковых моделей и активного обучения ТЕХНИЧЕСКИЙ ПРОЕКТ (промежуточный) Этап 3
0.956
ИКРБС
ОТЧЕТ ОБ ОПЫТНО-КОНСТРУКТОРСКИХ И ТЕХНОЛОГИЧЕСКИХ РАБОТАХ Разработка универсальной адаптивной системы разметки данных с использованием предразметки на базе нейросетевых языковых моделей и активного обучения по теме РАБОЧИЙ ПРОЕКТ (1 ОЧЕРЕДЬ), промежуточный, этап 4
0.948
ИКРБС
ОТЧЕТ ОБ ОПЫТНО-КОНСТРУКТОРСКИХ И ТЕХНОЛОГИЧЕСКИХ РАБОТАХ Разработка универсальной адаптивной системы разметки данных с использованием предразметки
на базе нейросетевых языковых моделей и активного обучения по теме ЭСКИЗНЫЙ ПРОЕКТ (промежуточный) Этап 2
0.948
ИКРБС
Отчет об опытно-конструкторских и технологических работах "Разработка универсальной адаптивной системы разметки текстовых данных с использованием предразметки на базе нейросетевых языковых моделей и активного обучения" по теме Рабочий проект , вторая очередь (промежуточный, этап 5)
0.937
ИКРБС
Разработка универсальной адаптивной системы разметки данных с использованием предразметки на базе нейросетевых языковых моделей и активного обучения
0.922
НИОКТР
Разработка универсальной адаптивной системы разметки текстовых данных с использованием предразметки на базе нейросетевых языковых моделей и активного обучения
0.906
НИОКТР
Разработка программного компонента «Управление базой знаний» и обучение нейросетевой модели распознавания русского языка
0.904
ИКРБС
Разработка и тестирование алгоритмов на основе машинного обучения для семантической обработки текстов на живом языке для автоматизации аналитической деятельности
0.902
ИКРБС
Доработка прототипа программного обеспечения локальной версии системы автоматизации разметки массивов изображений для обучения систем искусственного интеллекта
0.901
НИОКТР
Исследование и разработка методов автоматического анализа слабоструктурированной информации
0.899
НИОКТР