8 (495) 987 43 74 доб. 3304 Прием заявок на рассмотрение статей E-mail: evlasova@synergy.ru

Мы в соцсетях -              
Рус   |   Eng

Купить статью

Авторы: Бутенко  Ю. И., Сапожков А. М., Строганов А. В.     Опубликовано в № 6(96) 24 декабря 2021 года
Рубрика: Модели и методики

Метод извлечения русскоязычных многокомпонентных терминов из научно-технических текстов

В статье представлен метод извлечения русскоязычных многокомпонентных терминов из научно-технических текстов на основе структурных моделей терминологических словосочетаний. Описаны существующие подходы к извлечению терминов на основе метода извлечения устойчивых словосочетаний, статистических и гибридных методов, а также отмечены лингвистические аспекты терминоведения, не охваченные перечисленными методами. Охарактеризован лексический состав научно-технических текстов, приведена классификация специальной лексики в научно-технических текстах. Изучены структурные особенности терминологической лексики. Представлены наиболее продуктивные модели многокомпонентных терминологических словосочетаний в русском языке. Предложен метод извлечения русскоязычных многокомпонентных терминов из научно-технических текстов, а также описаны его этапы. Показано, что на первом этапе проводится морфолого- синтаксический анализ текста путем приписывания каждому слову его грамматических характеристик. Затем происходит исключение частей речи, которые не могут входить в состав русскоязычных многокомпонентных терминов, а также стоп-слов, которые вместе с термином образуют свободные словосочетания. Полученные цепочки слов далее соотносятся с шаблонами терминологических словосочетаний, имеющихся в базе структурных моделей терминов, а также с терминологическим словарем на предмет наличия исследуемого термина-кандидата. Обоснована необходимость привлечения терминолога для разрешения неоднозначных случаев. Каждый этап метода извлечения русскоязычных многокомпонентных терминов из научно-технических текстов проиллюстрирован примерами. Перечислены перспективы исследования, а также обоснована необходимость усложнения методов извлечения терминов путем дальнейшей классификации терминологической лексики по формальной и семантической структурам, видам антропоморфных терминов, номенклатурным названиям, нормативности/ненормативности терминологических единиц.

Ключевые слова

корпус текстов, научно-технические тексты, извлечение терминов, структура научно- технического текста, многокомпонентный термин

Автор статьи:

Бутенко  Ю. И.

Ученая степень:

канд. техн. наук, доцент, кафедра Теоретической информатики и компьютерных технологий, Московский государственный технический университет им. Н. Э. Баумана

Местоположение:

г. Москва, Россия

Автор статьи:

Сапожков А. М.

Ученая степень:

студент, кафедра программного обеспечения ЭВМ и информационных технологий, Московский государственный технический университет им. Н. Э. Баумана

Местоположение:

г. Москва, Россия

Автор статьи: