8 (495) 987 43 74 доб. 3304 Прием заявок на рассмотрение статей E-mail: evlasova@synergy.ru

Мы в соцсетях -              
Рус   |   Eng

Купить статью

Авторы: Ясницкий  Л. Н., Плотникова Е. Г.     Опубликовано в № 5(113) 30 октября 2024 года
Рубрика: Эффективные алгоритмы

Нейросетевой алгоритм выявления и удаления выбросов в зашумленных наборах данных

Выбросы в статистических данных, являющиеся результатом ошибочно собранной информации, часто становятся препятствием для успешного применения метода моделирования, основанного на машинном обучении, во многих предметных областях. Наличие выбросов в наборах данных снижает точность моделей машинного обучения, а в некоторых случаях делает применение этих методов невозможным. Существующие в настоящее время методы выявления выбросов ненадежны. Они принципиально не способны выявлять некоторые типы выбросов, тогда как наблюдения, не являющиеся выбросами, эти методы нередко классифицируют как выбросы. Недавно появившиеся нейросетевые методы выявления выбросов лишены указанного недостатка, однако они не универсальны, поскольку способность нейросетей выявлять выбросы зависит как от архитектуры самой нейросети, так и от решаемой задачи. Цель настоящего исследования состоит в разработке алгоритма создания и применения нейронных сетей, способных правильно выявлять выбросы вне зависимости от решаемой задачи. Эта цель достигается благодаря использованию свойства некоторых, специально созданных нейронных сетей демонстрировать наибольшие ошибки обучения на тех наблюдениях, которые являются выбросами. Использование этого свойства, а также выполнение серии вычислительных экспериментов и обобщение их результатов с помощью математической формулы, являющейся модификацией следствия из теоремы Арнольда – Колмогорова – Хехт-Нильсена, позволили достичь поставленной цели. Применение разработанного алгоритма оказалось особенно эффективным при решении задач прогнозирования и управления взаимозависимыми теплофизическими и химико-энерготехнологическими процессами обработки рудного сырья, происходящими на действующих серийных металлургических предприятиях, где присутствие выбросов в статистических данных практически неизбежно, а без их выявления и исключения построение приемлемых по точности моделей машинного обучения вообще невозможно.

Ключевые слова

выброс в данных, теорема Арнольда – Колмогорова – Хехт-Нильсена, теплофизический и химико-энерготехнологический процессы, обработка рудного сырья, нейронная сеть, ошибка обучения

Автор статьи:

Ясницкий  Л. Н.

Ученая степень:

докт. техн. наук, профессор, профессор кафедры прикладной математики и информатики, Пермский государственный национальный исследовательский университет; профессор кафедры информационных технологий в бизнесе, Национальный исследовательский университет «Высшая школа экономики» в Перми

Местоположение:

Пермь, Россия

Автор статьи:

Плотникова Е. Г.

Ученая степень:

докт. пед. наук, профессор, заведующая кафедрой информационных технологий в бизнесе, Национальный исследовательский университет «Высшая школа экономики»

Местоположение:

Пермь, Россия