Актуальность рассматриваемой в статье темы состоит в решении проблемных вопросов идентификации редких событий в условиях дисбаланса обучающих множеств. Цель исследования – анализ возможностей ансамбля классификаторов, обученных на разных подмножествах разбалансированных данных. Обозначены предпосылки возникновения несбалансированных данных при формировании обучающих выборок. Предложено решение, основанное на применении ансамбля классификаторов, обученных на различных обучающих выборках, в которых имеется дисбаланс классифицируемых событий. Приведен анализ возможности применения несбалансированных тренировочных множеств для ансамбля классификаторов, где усреднение ошибок происходит за счет процедуры коллективного голосования. Осуществлена оценка распределений значений признаков в тестовых и тренировочных подмножествах. Исследована разбалансировка, заключающаяся в нарушении соотношений количества событий определенного вида внутри одного класса в обучающих подмножествах данных. Отсутствие данных в обучающей выборке приводит к увеличению эффекта разброса ответов, который усредняется увеличением сложности модели, включением в ее состав различных классифицирующих алгоритмов. В дальнейшем, в ходе функционирования возможно вносить изменения в состав классифицирующих алгоритмов, что позволяет повышать показатели точности идентификации потенциального деструктивного воздействия.
Ключевые слова
классификация, выявление аномалий, паразитный трафик, информационная безопасность