Выбросы в статистических данных, являющиеся результатом ошибочно собранной информации, часто становятся препятствием для успешного применения метода моделирования, основанного на машинном обучении, во многих предметных областях. Наличие выбросов в наборах данных снижает точность моделей машинного обучения, а в некоторых случаях делает применение этих методов невозможным. Существующие в настоящее время методы выявления выбросов ненадежны. Они принципиально не способны выявлять некоторые типы выбросов, тогда как наблюдения, не являющиеся выбросами, эти методы нередко классифицируют как выбросы. Недавно появившиеся нейросетевые методы выявления выбросов лишены указанного недостатка, однако они не универсальны, поскольку способность нейросетей выявлять выбросы зависит как от архитектуры самой нейросети, так и от решаемой задачи. Цель настоящего исследования состоит в разработке алгоритма создания и применения нейронных сетей, способных правильно выявлять выбросы вне зависимости от решаемой задачи. Эта цель достигается благодаря использованию свойства некоторых, специально созданных нейронных сетей демонстрировать наибольшие ошибки обучения на тех наблюдениях, которые являются выбросами. Использование этого свойства, а также выполнение серии вычислительных экспериментов и обобщение их результатов с помощью математической формулы, являющейся модификацией следствия из теоремы Арнольда – Колмогорова – Хехт-Нильсена, позволили достичь поставленной цели. Применение разработанного алгоритма оказалось особенно эффективным при решении задач прогнозирования и управления взаимозависимыми теплофизическими и химико-энерготехнологическими процессами обработки рудного сырья, происходящими на действующих серийных металлургических предприятиях, где присутствие выбросов в статистических данных практически неизбежно, а без их выявления и исключения построение приемлемых по точности моделей машинного обучения вообще невозможно.
Ключевые слова
выброс в данных, теорема Арнольда – Колмогорова – Хехт-Нильсена, теплофизический и химико-энерготехнологический процессы, обработка рудного сырья, нейронная сеть, ошибка обучения