РИД
№ 622041200138-5Кроссплатформенный обработчик серийных данных в формате docxtocsv
12.04.2022
Программа ЭВМ предназначена для самостоятельного конвертирования данных в удобных формат для их анализа. С помощью прикладных библиотек, запросов и функции из текста удаляются ненужные частицы и предлоги - слова, которые не являются ключевыми. Текст полностью переводится в именительный падеж. Концепция обработчика в том, что он способен за несколько секунд преобразовать документ формата «docx» в «csv» (удобный формат для работы любой нейронной сети в NLP). Дополнительно выделяя ключевые слова и удаляя ненужные частицы и предлоги. Стоит уточнить, что обработчик может работать с любыми документами docx и не требует дополнительных настроек. Принцип работы заключается в преобразовании формата «docx» в «csv», далее происходит очистка текста в виде БД, с помощью преобразования окончаний слов мы получаем начальную форму слова, что значительно упрощает машинное обучение. Соответствующие технологии уже внедряются и позволяют повысить точность обучения нейронных сетей.
ГРНТИ
16.21.51 Семантика
50.41.25 Прикладное программное обеспечение
28.23.13 Инженерия знаний.
Ключевые слова
анализ
нейронные сети
конвертирование данных
Детали
Тип РИД
Программа для ЭВМ
Сферы применения
Программа предназначена для предобработки текста
Ожидается
Исполнитель
Исполнители
Федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский государственный университет аэрокосмического приборостроения"
Заказчик
Федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский государственный университет аэрокосмического приборостроения"
Похожие документы
Конвертирование электронной таблицы в JSON-формат
0.854
РИД
Модуль автоматического парсинга данных и формирования датасетов
0.847
РИД
Программное обеспечение для перевода электронных таблиц в различные форматы хранения данных
0.846
РИД
Программный модуль для 1С по преобразованию файлов конфигурации в формат *docx
0.843
РИД
Модуль очистки данных
0.839
РИД
Программа для обработки и унификации файлов с данными
0.829
РИД
2024683889_Программа для выполнения токенизации пользовательских текстов
0.827
РИД
Библиотека ДокуМентор для интеллектуальной автоматизации парсинга, семантического разбора и выделения структуры в текстовых данных
0.827
РИД
«Программа преобразования файлов офисных приложений в текст»
0.822
РИД
Программный модуль распознавания структуры таблиц и извлечения табличных данных для машиночитаемых PDF-документов
0.821
РИД