8 (495) 987 43 74 доб. 3304 Прием заявок на рассмотрение статей E-mail: evlasova@synergy.ru

Мы в соцсетях -              
Рус   |   Eng

Авторы

Ивашко А. Г.

Ученая степень
докт. техн. наук, профессор, заведующий кафедрой программной и системной инженерии, Институт математики и компьютерных наук, Тюменский государственный университет
E-mail
a.g.ivashko@utmn.ru
Местоположение
Тюмень, Россия
Статьи автора

Система классификации документов с маркшейдерскими данными

Все предприятия, осуществляющие геологоразведочные работы на территории РФ, сталкиваются с необходимостью формирования задач для маркшейдерской службы и контроля выполнения поставленных задач. Это отражается в процессах документооборота предприятий. В данной связи существует проблема организации эффективной обработки документов в системах электронного документооборота – своевременного выявления документов, содержащих маркшейдерские данные. В статье представлено возможное решение указанной проблемы – автоматизированная система классификации документов в СЭД в виде рекомендательной надстройки над системой 1С:Документооборот. В рамках создания системы классификации был разработан и реализован сценарий предварительной обработки первичных текстов документов, включающий очистку, лемматизацию и удаление стоп-слов, а также подготовку входных признаков для классификатора. Исследована применимость различных алгоритмов машинного обучения к решению рассматриваемой задачи классификации, определены значения гиперпараметров, обеспечивающие наибольшее значение метрики ROC AUC. Выполнена оценка качества всех полученных моделей с использованием метрик Precision, Recall и F-меры, исследована устойчивость качества классификации к изменению входных данных. Выявленная проблема нестабильности результатов классификации решалась путем построения модели машинного обучения в виде ансамбля классификаторов. Обученная модель (ансамбль классификаторов) тестировалась на наборе реальных документов ООО «Газпром недра»; качество классификации на тестовой выборке по метрике ROC AUC составило 0,91. Кроме собственно модуля классификации разработанная система включает базу данных хранения результатов обучения, библиотеку функций для организации работы с базой данных, а также API-интерфейсы, позволяющие обрабатывать запросы на классификацию, приходящие из внешних систем. В API- интерфейсах, в частности, реализованы возможности загрузки сохраненных обученных моделей, валидации данных, приходящих из внешних систем, предварительной обработки входных текстовых документов, обучения новых моделей и оценки их качества, сохранение как обученных моделей, так и результатов их тестирования. Реализована возможность дообучения сохраненных моделей на новых данных. Читать дальше...

Математическое моделирование оценки доверия к сообщению в социальных сетях на русском языке

Проблема недостоверной информации на данный момент является наиболее критичной в области распространения информации в сети Интернет. Глобальный переход информационных источников в интернет привел к тому, что информация распространяется слишком быстро и проверить ее достоверность довольно сложно. Данная тема поднимается, когда заходит разговор о СМИ, социальных сетях, блогах и других источниках информации. Передача информации перестала быть делом только СМИ. Любой пользователь интернета может быть источником информации. Развитие свободных источников информации и цифровизация источников привели к потере доверия к официальным СМИ. Следствием этого является развитие методов автоматического определения ложной информации. Задачи данной работы состоят в изучении возможности построения модели для автоматического определения уровня доверия к сообщению в социальной сети на русском языке и определении наиболее влиятельных параметров. Рассматриваемый метод направлен на многосторонний анализ поста, включающий параметры, полученные из текста сообщения, данных пользователя и распространения сообщения в социальной сети. Для работы с методами машинного обучения была собрана и размечена выборка данных, на которой были обучены модели машинного обучения. Выборка данных прошла процесс балансировки для получения стабильных результатов. После обучения моделей было получено пять моделей, обученных как на сбалансированной, так и на обычной выборке данных. Были получены результаты для моделей с ограничением на параметры для выявления наиболее влиятельных параметров. Результатами стали модели машинного обучения с высокими показаниями значений метрик на тестовых данных и выявлены наиболее влиятельные параметры, в которые были включены параметры, характерные только для русского языка. Читать дальше...

Разработка системы подсчета посетителей в ретейле с использованием машинного зрения

Информация о посещаемости торговой точки имеет огромную ценность для бизнеса. Она позволяет оценить эффективность проведения маркетинговых акций и оптимизировать график работы персонала. Более того, данные о количестве посетителей могут быть косвенно использованы для анализа конкурентной среды. Несмотря на существование разнообразных технологических подходов к решению задачи по подсчету посетителей, каждый из них обладает рядом своих существенных недостатков. Цель исследования – разработать программную систему подсчета посетителей на основе применения технологий машинного зрения к видеопотоку. Для этого предложено разбить задачу подсчета на две подзадачи: обнаружение и отслеживание перемещения посетителей в кадре, каждая из которых решалась с использованием сверточных нейронных сетей. Обучение и валидация нейронных сетей проводились на данных, собранных в реальных условиях исключительно с камер заказчика системы. В совокупности с выдвинутым алгоритмом подсчета система стала способна: а) исключать из подсчета сотрудников торговой сети, носящих корпоративную униформу; б) правильно обрабатывать сложные и непредсказуемые траектории движения посетителей в сцене видеонаблюдения; в) без ущерба для точности подсчета корректно обрабатывать ошибки декодирования видеопотока, следствием которых является пропуск кадров. Оценка качества работы системы проводилась на 504 тестовых видео, на которых суммарно вошли в торговую точку и вышли из нее 739 посетителей. При обработке каждого кадра итоговая ошибка подсчета составила 3 %. В ходе ряда экспериментов было установлено, что при обработке только каждого 4-го кадра (нагрузка на систему в этом случае снижалась в 4 раза) ошибка подсчета повысилась лишь на 1 %. Читать дальше...