НИОКТР
№ АААА-А18-118022590003-9

Исследование и разработка методов и алгоритмов оценки межъязыкового семантического подобия текстов для анализа их идеологического влияния

25.02.2018

Проект направлен на решение фундаментальной научной проблемы семантического моделирования, в рамках которой разрабатывается методика оценки семантического подобия текстов на различных языках. Исследование основано на гипотезе о том, что близость векторных представлений терминов в семантическом пространстве можно интерпретировать как семантическое сходство в межъязыковой среде. Индекс семантического текстового сходства (ИСТС) будет строиться с учетом наличия терминов и идей с близким семантическим представлением. Каждому тексту будет сопоставлен вектор в едином многоязыковом семантическом векторном пространстве, мера семантического подобия текстов будет определяться мерой близости соответствующих векторов. Для построения векторов будут использованы технологии Word2Vec, NASARI, использующие многоязыковые лингвистические ресурсы, такие, как WordNet, Wikipedia, BabelNet и др. Для автоматического выявления сходных фраз и семантических эквивалентов используются разработанный и развиваемый коллективом авторов лингвистический процессор, методы тематического анализа (LDA, LSA, ARTM), метод построения ассоциативного портрета предметной области (АППО), основанный на методах статистики и дистрибутивной семантики. Разрабатывается методика построения динамически пополняемой многоязычной коллекции документов из опубликованных в сети текстовых документов с помощью методов дистрибутивной семантики (АППО). Мы предлагаем количественный показатель, который измеряет степень семантического подобия разноязыковых текстов (Индекс Семантического Текстового Сходства) на основании выявленных межъязыковых семантических неявных связей. Расчет ИСТС производится с помощью введенного авторами показателя – меры подобия двух произвольных текстов, настройка параметров которой основана на корреляции с наличием формальной ссылки между ними. Мера семантического подобия выражает наличие двух общих терминов, фраз. Оптимальные параметры алгоритма выявления неявных связей подбираются на тематической коллекции путем максимизации корреляции явных и неявных связей. Авторами предложена и частично апробирована гипотеза о близости оптимальных параметров алгоритма расчета неявных ссылок в различных текстовых корпусах. На основании результатов обработки многоязыковой коллекции текстов в определенной предметной области будут найдены оптимальные параметры для алгоритма расчета ИСТС, затем этот алгоритм будет применен для текстов разной тематики с экспертным уточнением оптимальных параметров. С помощью предлагаемого индекса ИСТС будет возможным уточнение информационного поиска значимых текстов и первоисточников; автоматическое извлечение документов из интернет-среды исключит трудоемкость ручной оценки значимости текстов. Межъязыковое определение семантического текстового подобия является важным шагом для обнаружения и оценки межъязыкового плагиата, исследования в данном направлении редки. Методология была частично апробирована участниками проекта при создании и анализе коллекции научных статей по компьютерной графике и представлена на конференции CyberWorlds 2017 (Великобритания). Методология также была частично апробирована участниками проекта в энциклопедии ключевых понятий KEYWEN, осуществляющей направленное извлечение энциклопедической информации из Интернет. Проект опи-рается на созданную и развиваемую заявителями инструментальную среду ДЕКЛ, применяемую при построении логико-аналитических систем (ДИЕС, Криминал, Резюме, Антитеррор) и семантико-ориентированных систем извлечения знаний (Semantix и др.).

ГРНТИ
20.51.17 Информационные потребности и запросы
Ключевые слова
СЕМАНТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
ДИСТРИБУТИВНАЯ СЕМАНТИКА
ТЕКСТОВОЕ ПОДОБИЕ
МАШИННЫЙ ПЕРЕВОД
Детали

Начало
01.01.2018
Окончание
31.12.2020
№ контракта
18-07-00909 А
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "РОССИЙСКИЙ ФОНД ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ"
Исполнитель
Автономная некоммерческая организация "ИНСТИТУТ ФИЗИКО-ТЕХНИЧЕСКОЙ ИНФОРМАТИКИ"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 700 000 ₽
Похожие документы
Исследование и разработка лингво-статистических методов и алгоритмов автоматического формирования многоязычного ассоциативно-иерархического портрета предметной области для дополнения онтологий, определения значимых документов и перспективных направлений
0.912
НИОКТР
Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов
0.905
НИОКТР
Итоговый отчёт по проекту № 19-01-00006 А “Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов” Российского фонда фундаментальных исследований.
0.897
ИКРБС
Разработка методов, моделей и алгоритмов выделения единиц знаний из тематического текстового корпуса для распознавания ситуаций смысловой близости текстов
0.892
НИОКТР
Автоматический анализ текстов
0.889
НИОКТР
Автоматический анализ текстов
0.889
НИОКТР
Разработка и исследование метода и алгоритмов семантического сравнения научных текстов
0.888
Диссертация
Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя
0.887
НИОКТР
Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя
0.887
НИОКТР
Итоговый отчёт по проекту № 16-01-00004 А “Разработка методов, моделей и алгоритмов выделения единиц знаний из тематического текстового корпуса для распознавания ситуаций смысловой близости текстов” Российского фонда фундаментальных исследований.
0.885
ИКРБС