8 (495) 987 43 74 доб. 3304 Прием заявок на рассмотрение статей E-mail: evlasova@synergy.ru

Мы в соцсетях -              
Рус   |   Eng

Купить статью

Авторы: Миронов В. В., Гусаренко А. С., Юсупова Н. И.     Опубликовано в № 6(96) 24 декабря 2021 года
Рубрика: Программная инженерия

Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода

В статье рассмотрены вопросы применения ситуационно-ориентированного подхода для программной обработки word-документов. Рассматриваемые документы подготавливаются пользователем в среде текстового процессора Microsoft Word или его аналогов и используются в дальнейшем как источники данных. Открытость форматов Office Open XML и Open Document Format позволила применить концепцию виртуальных документов, отображаемых на ZIP-архивы, для программного доступа к XML- компонентам word-документов в ситуационно-ориентированной среде. Обоснована важность выработки предварительных соглашений относительно размещения информации в документе для последующего поиска и извлечения, например, с помощью заранее подготовленных шаблонов-заготовок. Для форматов DOCX и ODT рассмотрено использование ключевых фраз, закладок, элементов управления контентом, пользовательских XML-компонентов для организации извлечения введенных данных. Для каждого варианта построены древовидные модели доступа к извлекаемым данным, а также соответствующие XPath-выражения. Отмечено, что использование того или иного варианта зависит от функциональных возможностей и ограничений текстового процессора и характеризуется различной сложностью разработки шаблона-заготовки, внесения данных пользователем и программирования извлечения данных. Рассмотрен практический пример обработки метаданных научной статьи, подготовленной в среде Microsoft Word для публикации в научном журнале. Примененное решение основано на занесении метаданных в статью с помощью размещенных в шаблоне-заготовке элементов управления контентом, привязанных к элементам пользовательского XML- компонента. Разработанная иерархическая ситуационная модель HSM обеспечивает извлечение XML-компонента, загрузку его в DOM-объект и XSLT-преобразования для получения результирующих данных: отчета об ошибках и JavaScript-кода для последующего использования извлеченных метаданных.

Ключевые слова

ситуационно-ориентированная база данных, иерархическая ситуационная модель, виртуальный документ, открытый текстовый формат, метаданные научной статьи, Open Journal System, DOCX, ODT

Автор статьи:

Миронов В. В.

Ученая степень:

докт. техн. наук, ФГБОУ ВО «Уфимский государственный авиационный технический университет» (УГАТУ)

Местоположение:

г. Уфа

Автор статьи:

Гусаренко А. С.

Ученая степень:

канд. техн. наук, ФГБОУ ВПО «Уфимский государственный авиационный технический университет» (УГАТУ)

Местоположение:

г. Уфа

Автор статьи:

Юсупова Н. И.

Ученая степень:

докт. техн. наук, ФГБОУ ВО «Уфимский государственный авиационный технический университет» (УГАТУ)

Местоположение:

г. Уфа