РИД
№ 625112000118-3Программа реализации алгоритма выявления именованных сущностей типа "технология" в научно-технических текстах на английском языке
20.11.2025
Программа предназначена для извлечения информации из машиночитаемых текстов, выявления технологий, библиометрического и патентного анализа, научно-технологического прогнозирования, а также иных задач, связанных с поиском информации, и может использоваться для выявления именованных сущностей (NER) типа "технология" из научно-технических текстов на английском языке. В основе алгоритма лежит мультиязычная модель BERT, предварительное обучение которой осуществлялось на данных на более чем 104 языках. Для извлечения именованных сущностей типа "технология" была проведена тонкая настройка (fine-tuning) мультиязычной модели на научно-техническом корпусе англоязычных текстов, сформированном с помощью большой языковой модели (LLM)
ГРНТИ
16.31.21 Автоматическая обработка текста. Автоматический перевод. Автоматическое распознавание речи
Ключевые слова
именованные сущности
NER
английский язык
BERT
Детали
НИОКТР
Тип РИД
Программа для ЭВМ
Сферы применения
Автоматическое извлечение узкоспециализированной информации на английском языке по технологиям в сфере науки и инноваций без использования лексических шаблонов может быть использовано при провидении междисциплинарных исследований, формировании корпусов и датасетов, суммаризации и аннотировании технических статей, работе с технической документацией, а также внутри поисковых систем и компьютерных приложений
Ожидается
Исполнитель
Исполнители
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ "ВЫСШАЯ ШКОЛА ЭКОНОМИКИ"
Заказчик
Правительство Российской Федерации
Похожие документы
Программа реализации алгоритма выявления именованных сущностей типа "технология" в научно-технических текстах на русском языке
0.965
РИД
Рекомендательный сервис для автоматизации аналитических процессов научно-технической деятельности
0.839
ИКРБС
Выделение ключевой метаинформации для документов с целью её последующей систематизации и использования при реализации функций рекомендательных сервисов
0.837
РИД
РАЗРАБОТКА АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ОБРАБОТКИ ЕСТЕСТВЕННОГО РУССКОГО ЯЗЫКА ДЛЯ ПОИСКА И РАСПОЗНАВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
0.831
ИКРБС
Естественно-языковой эксплоративный поиск (трендов, технологий, продуктов, рынков и т.д.)
0.829
РИД
Программа для обучения моделей классификации имён биологических объектов в размеченных текстах (ЭНДТрэин) / The program for training of classification models for the classification of names of biological entities in the pre-mapped texts (ANDTrain)
0.827
РИД
Система автоматического извлечения терминов из научных текстов «Term Extractor»
0.826
РИД
«Модульная платформа на базе нейронных сетей и нейросетевых технологий, включающая разработку модуля для платформы «Семантический анализ текста с выделением семантически значимых сущностей»
0.820
РИД
Система определения мнений из открытых источников
0.819
РИД
Разметка датасета по уникальным категориям. Выбор модели архитектуры Bert с оптимальными значениями. Обучение модели архитектуры Bert по созданному датасету текстовых описаний. Тестирование модели. (промежуточный)
0.819
ИКРБС