8 (495) 987 43 74 доб. 3304 Прием заявок на рассмотрение статей E-mail: evlasova@synergy.ru

Мы в соцсетях -              
Рус   |   Eng

Авторы

Бутенко Ю. И.

Ученая степень
канд. техн. наук, доцент, кафедра Теоретической информатики и компьютерных технологий, Московский государственный технический университет им. Н. Э. Баумана
E-mail
iubutenko@bmstu.ru
Местоположение
г. Москва, Россия
Статьи автора

Метод разрешения лексической многозначности поискового запроса на основе онтологий

Одним из факторов, влияющих на релевантность результатов информационного поиска, является многозначность поискового запроса, выраженная лексическими средствами естественного языка. Отмечено, что практически каждое слово естественного языка, кроме строго однозначных терминов, особенно принадлежащее общеупотребительной лексике, многозначно, его зависит от контекста употребления слова. Многозначность лексической единицы проявляется на этапе поискового запроса. Предлагается метод разрешения многозначности лексических единиц в поисковом запросе, основанный на онтологиях. Обосновано, что онтологии позволяют достаточно точно передавать семантическую составляющую данных, относящихся к предметной области. Предлагаемый метод лексического многовариантного разрешения может быть описан следующим образом. Поисковый запрос пользователя поступает на вход поисковой системы. Поисковая система связывается с библиотекой онтологий, чтобы найти поисковый запрос пользователя. Если лексическая единица из поискового запроса многозначна, то поисковая система предложит пользователю список предметных областей, в которых была найдена лексическая единица из поискового запроса. Часто пользователь заранее ищет результат из конкретной предметной области. Когда предметная область определена, поисковая система определяет ближайшие элементы в структуре онтологии, а при ранжировании результатов поиска система будет руководствоваться их наличием или отсутствием. Использование онтологий также позволяет добавлять в поисковый запрос синонимы и аббревиатуры, означающие одно и то же понятие разными лексическими средствами. Предлагаемый подход позволит решить проблему лексической многозначности и существенно разгрузить поисковую выдачу, оставив только предметную область, представляющую интерес для пользователя. Читать дальше...

Метод извлечения русскоязычных многокомпонентных терминов из научно-технических текстов

В статье представлен метод извлечения русскоязычных многокомпонентных терминов из научно-технических текстов на основе структурных моделей терминологических словосочетаний. Описаны существующие подходы к извлечению терминов на основе метода извлечения устойчивых словосочетаний, статистических и гибридных методов, а также отмечены лингвистические аспекты терминоведения, не охваченные перечисленными методами. Охарактеризован лексический состав научно-технических текстов, приведена классификация специальной лексики в научно-технических текстах. Изучены структурные особенности терминологической лексики. Представлены наиболее продуктивные модели многокомпонентных терминологических словосочетаний в русском языке. Предложен метод извлечения русскоязычных многокомпонентных терминов из научно-технических текстов, а также описаны его этапы. Показано, что на первом этапе проводится морфолого- синтаксический анализ текста путем приписывания каждому слову его грамматических характеристик. Затем происходит исключение частей речи, которые не могут входить в состав русскоязычных многокомпонентных терминов, а также стоп-слов, которые вместе с термином образуют свободные словосочетания. Полученные цепочки слов далее соотносятся с шаблонами терминологических словосочетаний, имеющихся в базе структурных моделей терминов, а также с терминологическим словарем на предмет наличия исследуемого термина-кандидата. Обоснована необходимость привлечения терминолога для разрешения неоднозначных случаев. Каждый этап метода извлечения русскоязычных многокомпонентных терминов из научно-технических текстов проиллюстрирован примерами. Перечислены перспективы исследования, а также обоснована необходимость усложнения методов извлечения терминов путем дальнейшей классификации терминологической лексики по формальной и семантической структурам, видам антропоморфных терминов, номенклатурным названиям, нормативности/ненормативности терминологических единиц. Читать дальше...