Ученая степень
|
студент (магистрант), кафедра информационных технологий в экономике и управлении, филиал Национального исследовательского университета «МЭИ» в г. Смоленске
|
E-mail
|
shurykins@mail.ru
|
Местоположение
|
г. Смоленск, Россия
|
Статьи автора
|
В настоящий момент «грязные» данные, то есть данные низкого качества, становятся одной из главных проблем эффективного решения задач Data Mining. Так как исходные данные аккумулируются из самых разных источников, то вероятность попадания «грязных» данных весьма высока. В связи с этим одной из важнейших задач, которую приходиться решать в ходе реализации Data Mining-процесса, является первоначальная обработка (очистка) данных, то есть препроцессинг. Необходимо заметить, что препроцессинг календарных данных является достаточно трудоемкой процедурой, которая может занимать до половины всего времени реализации технологии Data Mining. Сокращения времени, затрачиваемого на процедуру очистки данных, можно достичь, автоматизировав процесс с помощью специально разработанных инструментов (алгоритмов и программ). При этом следует помнить, что применение вышеуказанных элементов не гарантирует стопроцентную очистку «грязных» данных, а в некоторых случаях даже может приводить к появлению дополнительных ошибок в исходных данных. Авторами разработана модель автоматизированного препроцессинга календарных данных на основе синтаксического анализа и регулярных выражений. Предлагаемый алгоритм отличается гибкой настройкой параметров препроцессинга, достаточно простой реализуемостью и высокой интерпретируемостью результатов, что в свою очередь дает дополнительные возможности при анализе неудачных результатов применения технологии Data Mining. Несмотря на то, что предлагаемый алгоритм не является инструментом очистки абсолютно всех типов «грязных» календарных данных, он успешно функционирует в значительной части реальных практических ситуаций. Читать дальше...
|