ИКРБС
№ 223053100016-3«Разработка и тестирование прототипа платформы для поиска актуального тематического новостного контента в Интернет с применением технологии искусственного интеллекта.» (договор №129ГС1ИИС12-D7/76683 от 14.06.2022).
30.05.2023
Отчет на 155 страницах, 8 ч., 19 рис., 6 табл., 3 прил.
Разработка и тестирование прототипа платформы для поиска актуального тематического новостного контента в Интернет с применением технологии искусственного интеллекта
Перечень ключевых слов: мониторинг СМИ, выявление актуального контента, выявление инфоповодов, обработка естественного языка, NLP, тематическая классификация текстов, кластеризация публикаций, прогнозирование охвата публикаций, моделирование информационного пространства
Целью данного этапа работы: разработка и проведение тестирования прототипа платформы для поиска актуального тематического новостного контента в Интернет с применением технологии искусственного интеллекта.
Методы проведения работы: метод моделирования информационного пространства для определения актуальности публикаций из СМИ и социальных медиа; метод нейросетевой обработки текстов публикаций СМИ и социальных медиа для автоматизированного извлечения необходимой информации из текстов публикаций; программные языки Python и React для разработки бэкенд и фронтенд частей онлайн-сервиса.
Результаты работы. В ходе данного этапа работы были достигнуты следующие результаты:
Проведено исследование прогнозирования актуальности новостного контента из СМИ и социальных медиа. В частности, были изучены наиболее распространенные методы определения актуальности тем публикаций, а также адаптирован математический аппарат (модели и алгоритмы) наиболее эффективного метода для его последующей программной реализации.
Разработана бэкенд-архитектура прототипа онлайн-сервиса оценки актуальности новостных публикаций.
Разработан Парсер публикаций из Телеграм для обеспечения системы достаточным количеством данных для анализа и обработки.
Разработаны ключевые элементы пользовательского интерфейса онлайн-сервиса – произведена верстка и программирование фронтенд-части системы на языке программирования React.
Проведено тестирование разработанных модулей прототипа платформа на предмет их корректного функционирования.
Произведен выбор, техническое внедрение и оптимизация моделей типа BERT для первичной обработки входящих текстов и обучение модели выявления именованных сущностей.
Был проведен сбор датасета публикаций по заданным тематикам для последующего обучения модели классификации публикаций прототипа платформы для поиска актуального тематического новостного контента.
Была проведена разработка бэкенда платформа согласно представленной на первом этапе архитектуре, а также произведена интеграция компонентов системы.
Была разработана программная реализация алгоритма прогноза потенциального охвата публикаций, а также проведено тестирование качества работы алгоритма.
Были достигнуты основные конструктивные, технологические и технико-эксплуатационные характеристики, заявленные в техническом задании: обработка не менее 200 тыс. публикаций в сутки; выделение именованных сущностей по 4-м ключевым категориям (Pers, Loc, Org, Num) - с точностью не менее 0,75 (по основным типам сущностей точность достигает выше 0,9); поддерживаемые языки – русский, английский; точность классификации публикаций не ниже 0.7 при полноте не менее 0.5 (благодаря двухфакторной системе удалось добиться точности выше 0,9); достоверность прогнозирования показателя потенциального охвата не ниже 0,7 (фактическая точность в ходе тестов составила выше 0,8)
Объекты интеллектуальной собственности, полученные в результате выполнения работы: зарегистрирована Программа для ЭВМ, свидетельство № 2023614138 от 18.02.2023 года.
Экономическая эффективность или значимость работы: разработанный в ходе работы прототип сервиса представляет значительный интерес для будущей коммерциализации - согласно разработанному бизнес-плану проекта расходы на его реализацию (включая последующий второй этап разработки) должны окупиться за 3 года функционирования публичного сервиса.
Оценка успешности выполнения работы: все поставленные задачи этапа были успешно выполнены в установленные сроки согласно Техническому Заданию и Календарному плану.
Прогнозные предположения о развитии объекта исследования.
Дальнейшие исследования и реализация проекта на предполагают реализацию продакшен-версии платформы и запуск продукта на рынок. Дополнительные исследовательские работы предполагают кроме тем публикаций реализовать формирование развивающихся во времени сюжетов, и следить за параллельным развитие различных новостных сюжетов. Кроме того, предполагается добавить в функционал платформы возможность публикации подборок постов, а также генерации собственных постов на основе наиболее передовых моделей генерации тестов. Это требует анализа и кастомизации генеративных моделей типа GPT-3, LLaMA или им подобных. Кроме того, будет реализована возможность добавления индикаторов оценки тем и тематик на основе тональности упоминания значимых именованных сущностей, что позволит пользователям быстро оценить информационную обстановку по интересующим их тематикам.
ГРНТИ
20.19.27 Автоматизация знаковой обработки текста
Ключевые слова
моделирование информационного пространства
прогнозирование охвата публикаций
кластеризация публикаций
тематическая классификация текстов
NLP
обработка естественного языка
выявление инфоповодов
выявление актуального контента
мониторинг СМИ
Детали
НИОКТР
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "МАЙ ТЕХ"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 2 000 000 ₽
Похожие документы
«Разработка и тестирование прототипа платформы для поиска актуального тематического новостного контента в Интернет с применением технологии искусственного интеллекта.» (договор №129ГС1ИИС12-D7/76683 от 14.06.2022).
Этап №1 «Исследование прогнозирования актуальности новостного контента из СМИ и социальных медиа по набору косвенных признаков. Разработка бэкенд-архитектуры онлайн-сервиса и парсера публикаций из Telegram. Разработка ключевых элементов пользовательского интерфейса прототипа платформы для поиска актуального тематического новостного контента. Тестирование разработанных модулей прототипа платформы для поиска актуального тематического новостного контента.»
0.971
ИКРБС
Разработка системы мониторинга и аналитики информационного ландшафта на основе искусственного интеллекта. Заключительный: разработана компонентная база для системы мониторинга и аналитики информационного ландшафта на основе искусственного интеллекта, разработан пользовательский интерфейс на основе библиотеки компонентов, разработан интерфейс администратора на основе библиотеки компонентов, сформирован набор данных из открытых источников сети Интернет (датасет) и выполнена настройка Системы, разработано ядро системы, а также разработана программа и методика испытаний для REST API системы и аналитики. Разработаны алгоритмы машинного обучения. Разработана подсистема автоматического парсинга. Разработана подсистема семантического анализа. Разработана документация системы. Проведены испытания системы. Доработана система по результатам испытаний. Доработана документация системы по результатам испытаний.
0.924
ИКРБС
Разработка интеллектуальной системы анализа и управления общественным мнением на основе алгоритмов обработки естественного языка и предиктивных моделей искусственного интеллекта (Система Predicto) (Договор №104ГРЦЭИИС12-D7/82645 от 23.12.2022) (заключительный)
0.921
ИКРБС
Разработка и тестирование прототипа веб-платформы для монетизации контента блогеров, посредством объединения их с рекламодателями с использованием алгоритмов ранжирования на основе машинного обучения. Договор №4744ГС1/79589 от 14.10.2022 (Заключительный)
0.917
ИКРБС
Разработка и испытания прототипа цифровой платформы для генерации аудио и видео контента с использованием искусственного интеллекта (заключительный)
0.917
ИКРБС
Развертывание серверной инфраструктуры и структуры БД. Разработка UX/UI интерфейса Личного кабинета клиента. Разработка структуры аналитики. Настройка парсинга СМИ и социальных медиа. Описание алгоритма работы инструмента. Сбор датасета для обучения нейросетей. Начало обучения нейросетей распознаванию тональности, кластеризации событий. Разработка внутреннего кабинета сотрудника. Сборка Личного кабинета клиента базового варианта.
0.916
ИКРБС
Разработка системы мониторинга и аналитики информационного ландшафта на основе искусственного интеллекта.Этап №1 "Разработка компонентной базы для системы мониторинга и аналитики информационного ландшафта на основе искусственного интеллекта. Разработка пользовательского интерфейса на основе библиотеки компонентов. Разработка интерфейса администратора на основе библиотеки компонентов. Формирование набора данных из открытых источников сети Интернет (датасет), настройка и администрирование Системы. Разработка ядра системы. Разработка программы и методики испытаний для rest api системы и аналитики."
0.915
ИКРБС
Разработка и тестирование прототипа платформы для поиска актуального тематического новостного контента в Интернет с применением технологии искусственного интеллекта.
0.913
НИОКТР
Разработка базы данных прототипа цифровой платформы книжной торговли. Обучение интеллектуальной рекомендательной системы прототипа цифровой платформы. Разработка структуры прототипа цифровой платформы книжной торговли. Разработка и тестирование модуля рекомендательной системы.
0.911
ИКРБС
«Разработка и тестирование прототипа сервиса автоматического анализа и модерации профилей пользователей с использованием искусственного интеллекта» (договор №4740ГС1/79602 от 11.10.2022) (заключительный)
0.910
ИКРБС