8 (495) 987 43 74 доб. 3304 Прием заявок на рассмотрение статей E-mail: evlasova@synergy.ru

Мы в соцсетях -              
Рус   |   Eng

Авторы

Цыганова М. С.

Ученая степень
канд. техн. наук, доцент, кафедра программной и системной инженерии, Институт математики и компьютерных наук, Тюменский государственный университет
E-mail
m.s.cyganova@utmn.ru
Местоположение
Тюмень, Россия
Статьи автора

Система классификации документов с маркшейдерскими данными

Все предприятия, осуществляющие геологоразведочные работы на территории РФ, сталкиваются с необходимостью формирования задач для маркшейдерской службы и контроля выполнения поставленных задач. Это отражается в процессах документооборота предприятий. В данной связи существует проблема организации эффективной обработки документов в системах электронного документооборота – своевременного выявления документов, содержащих маркшейдерские данные. В статье представлено возможное решение указанной проблемы – автоматизированная система классификации документов в СЭД в виде рекомендательной надстройки над системой 1С:Документооборот. В рамках создания системы классификации был разработан и реализован сценарий предварительной обработки первичных текстов документов, включающий очистку, лемматизацию и удаление стоп-слов, а также подготовку входных признаков для классификатора. Исследована применимость различных алгоритмов машинного обучения к решению рассматриваемой задачи классификации, определены значения гиперпараметров, обеспечивающие наибольшее значение метрики ROC AUC. Выполнена оценка качества всех полученных моделей с использованием метрик Precision, Recall и F-меры, исследована устойчивость качества классификации к изменению входных данных. Выявленная проблема нестабильности результатов классификации решалась путем построения модели машинного обучения в виде ансамбля классификаторов. Обученная модель (ансамбль классификаторов) тестировалась на наборе реальных документов ООО «Газпром недра»; качество классификации на тестовой выборке по метрике ROC AUC составило 0,91. Кроме собственно модуля классификации разработанная система включает базу данных хранения результатов обучения, библиотеку функций для организации работы с базой данных, а также API-интерфейсы, позволяющие обрабатывать запросы на классификацию, приходящие из внешних систем. В API- интерфейсах, в частности, реализованы возможности загрузки сохраненных обученных моделей, валидации данных, приходящих из внешних систем, предварительной обработки входных текстовых документов, обучения новых моделей и оценки их качества, сохранение как обученных моделей, так и результатов их тестирования. Реализована возможность дообучения сохраненных моделей на новых данных. Читать дальше...

Прогнозирование ухудшения состояния здоровья пациентов с сердечно-сосудистыми заболеваниями на основе методов машинного обучения

Настоящее исследование выполнялось в рамках проекта по разработке подсистемы прогнозирования ухудшения состояния пациентов с сердечно-сосудистыми заболеваниями на платформе медицинской информационной системы «1С:Медицина.Больница». Актуальность поставленной задачи обусловлена особенно высокой опасностью данной группы заболеваний и необходимостью принятия своевременных решений о госпитализации или назначении лечения при возникновении риска ухудшения состояния пациента. Целью данной работы было создание инструмента, позволяющего лечащему врачу оперативно получать обоснованную оценку риска ухудшения состояния пациентов на основе имеющихся медицинских показателей. В рамках данного исследования был выполнен анализ более 30 тыс. записей, содержащих показатели здоровья пациентов, выгруженных из региональной медицинской информационной системы. Набор данных был размечен в соответствии с имеющейся в системе информацией о принятых врачебных решениях (лечащими врачами поликлиники и стационара). Отсутствие стандартизированного ввода значений показателей здоровья в используемой медицинской системе потребовало значительного объема работы по предварительной обработке входных данных и их подготовке для целей моделирования. Подготовленные данные использовались для построения предсказательной модели с применением методов машинного обучения. По результатам проведенных вычислительных экспериментов в качестве алгоритма обучения был выбран градиентный бустинг, подобраны оптимальные параметры этого алгоритма. Качество прогнозирования обученных моделей проверялось на данных размеченного набора, не участвовавших в процессе обучения. Показатели качества лучшей модели на тестовых данных составили precision = 0,87; recall = 0,96; ­ AUC-­ROC = 0,97. Реализована интеграция обученных моделей с автоматизированным рабочим местом лечащего врача в системе «1С:Медицина. Больница». Таким образом, разработан алгоритм обработки показателей здоровья пациента от выгрузки первичных данных из медицинской учетной системы до получения прогноза, учитывающий особенности хранения данных в используемой системе и позволяющий врачу оперативно получать информацию о выявленных случаях риска после каждого обновления значений показателей в системе. Показано, что стандартизация значений вводимых в систему результатов медицинских исследований поможет повысить качество прогнозирования за счет повышения устойчивости модели к изменениям входных данных. Читать дальше...