РИД
№ АААА-Г20-620012890096-9«Программа вычисления оптимального словаря псевдоморфем»
28.01.2020
Программа предназначена для использования в системах распознавания речи. Функция заключается в вычислении массива фрагментов слов (машиных или псевдоморфем, ПМ) заданного размера, который затем используется для кодирования текстовой и речевой информации. Состав ПМ оптимален в смысле минимизции количества ПМ при кодировании текста. Входной информацией является текстовый массив либо частотный словарь, а также количество ПМ. Выходной информацией - является список ПМ и кодированный с помощью ПМ текст. Преимущество программы заключается в том, что использование ПМ позволяет моделировать речевой поток полностью, без незнакомых слов, тем самым повышая эффективность распознавания речи.
ГРНТИ
20.53.19 Средства обработки и поиска информации
28.23.15 Распознавание образов. Обработка изображений
20.23.19 Процессы информационного поиска
27.47.15 Математическая теория управляющих систем
Ключевые слова
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ
СКВОЗНЫЕ (END-TO-END) МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧИ
СТАТИСТИЧЕСКИЕ МОДЕЛИ ЯЗЫКА
МОДЕЛИРОВАНИЕ НЕ-СЛОВАРНЫХ (OUT-OF-VOCABULARY) СЛОВ.
Детали
Тип РИД
Программа для ЭВМ
Сферы применения
Программа предназначена для использования в системах распознаванияестественной устной речи и также может быть использована в системахавтоматического перевода текстов. По заданному текстовому корпусу вычисляется оптимальный (минимизирующий число вхождений для покрытия всего текста)по составу массив фрагментов слов (морфов) заданного размера,который затем используется как словарь для кодирования произвольной текстовойили речевой информации. Использование словаря морфов позволяет кодировать речевой поток полностью,что снимает проблемы, связанные с наличием не-словарных (out-of-vocabulary) слов. Кроме этого, размер алфавита морфов на порядки меньше словарей, используемых в системах распознавания произвольной речи.
Ожидается
Исполнитель
Исполнители
Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук"
Заказчик
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Похожие документы
«Программа вычисления вероятности появления мультиграмм слов в русской речи»
0.908
РИД
Программная система для автоматизированного формирования признакового пространства при векторизации текстов на основе самоконфигурируемого генетического алгоритма
0.871
РИД
«Программа вычисления уровня пословных ошибок автоматического распознавания речи»
0.870
РИД
Программа подбора проекционной матрицы для векторных представлений слов
0.866
РИД
«Программа поиска соответствия слов распознанного документа и множества ключевых слов»
0.863
РИД
Программная система для автоматизированного формирования состава опорного словаря при векторизации текста с помощью самоконфигурируемого многокритериального генетического алгоритма
0.862
РИД
Программный модуль оптимизации извлечения ключевых слов при обработке лингвистической экспертной информации
0.861
РИД
«Декодер для поиска несловарных ключевых слов с использованием фонемных постериограммных вероятностей» (FastOOVDecoder)
0.859
РИД
«Программа сравнения распознанных текстов с помощью n-грамм»
0.858
РИД
«Программа для лексического анализа текста»
0.854
РИД