8 (495) 987 43 74 доб. 3304 Прием заявок на рассмотрение статей E-mail: evlasova@synergy.ru

Мы в соцсетях -              
Рус   |   Eng

Купить статью

Авторы: Еремеев В. В., Ивашко А. Г., Цыганова М. С.     Опубликовано в № 5(95) 31 октября 2021 года
Рубрика: Эффективные алгоритмы

Система классификации документов с маркшейдерскими данными

Все предприятия, осуществляющие геологоразведочные работы на территории РФ, сталкиваются с необходимостью формирования задач для маркшейдерской службы и контроля выполнения поставленных задач. Это отражается в процессах документооборота предприятий. В данной связи существует проблема организации эффективной обработки документов в системах электронного документооборота – своевременного выявления документов, содержащих маркшейдерские данные. В статье представлено возможное решение указанной проблемы – автоматизированная система классификации документов в СЭД в виде рекомендательной надстройки над системой 1С:Документооборот. В рамках создания системы классификации был разработан и реализован сценарий предварительной обработки первичных текстов документов, включающий очистку, лемматизацию и удаление стоп-слов, а также подготовку входных признаков для классификатора. Исследована применимость различных алгоритмов машинного обучения к решению рассматриваемой задачи классификации, определены значения гиперпараметров, обеспечивающие наибольшее значение метрики ROC AUC. Выполнена оценка качества всех полученных моделей с использованием метрик Precision, Recall и F-меры, исследована устойчивость качества классификации к изменению входных данных. Выявленная проблема нестабильности результатов классификации решалась путем построения модели машинного обучения в виде ансамбля классификаторов. Обученная модель (ансамбль классификаторов) тестировалась на наборе реальных документов ООО «Газпром недра»; качество классификации на тестовой выборке по метрике ROC AUC составило 0,91. Кроме собственно модуля классификации разработанная система включает базу данных хранения результатов обучения, библиотеку функций для организации работы с базой данных, а также API-интерфейсы, позволяющие обрабатывать запросы на классификацию, приходящие из внешних систем. В API- интерфейсах, в частности, реализованы возможности загрузки сохраненных обученных моделей, валидации данных, приходящих из внешних систем, предварительной обработки входных текстовых документов, обучения новых моделей и оценки их качества, сохранение как обученных моделей, так и результатов их тестирования. Реализована возможность дообучения сохраненных моделей на новых данных.

Ключевые слова

система классификации, классификация документов, маркшейдерские данные, предварительная обработка текста, машинное обучение, ансамбль классификаторов

Автор статьи:

Еремеев В. В.

Ученая степень:

магистрант, кафедра программной и системной инженерии, Институт математики и компьютерных наук, Тюменский государственный университет,

Местоположение:

Тюмень, Россия

Автор статьи:

Ивашко А. Г.

Ученая степень:

докт. техн. наук, профессор, заведующий кафедрой программной и системной инженерии, Институт математики и компьютерных наук, Тюменский государственный университет

Местоположение:

Тюмень, Россия

Автор статьи:

Цыганова М. С.

Ученая степень:

канд. техн. наук, доцент, кафедра программной и системной инженерии, Институт математики и компьютерных наук, Тюменский государственный университет

Местоположение:

Тюмень, Россия