8 (495) 987 43 74 доб. 3304
Мы в соцсетях -              
Рус   |   Eng

Купить статью

Авторы: Борисов  В. В., Булыгина О. В., Дли М. И., Козлов П. Ю.     Опубликовано в № 3(87) 06 июня 2020 года
Рубрика: Эффективные алгоритмы

Рубрицирование текстовых документов на основе нечетких отношений различия

Одним из ключевых направлений информатизации деятельности органов государственной власти является разработка и внедрение систем автоматизированной обработки электронных обращений (заявлений, жалоб, предложений) физических и юридических лиц, поступающих на официальные веб-сайты и порталы органов власти федеральных округов, администраций областей и других территориальных образований. Важную роль при решении данной задачи играет рубрицирование, которое заключается в распределении обращений по тематическим рубрикам, определяющих направления деятельности департаментов, осуществляющих их обработку и подготовку соответствующего ответа. Результаты анализа специфических особенности таких текстовых сообщений (небольшой размер, отсутствие разметки, наличие ошибок, нестационарность тезауруса и т. п.) подтвердили невозможность применения традиционных подходов к рубрицированию и обосновали целесообразность применения методов интеллектуального анализа данных. В статье предложен новый подход к анализу и рубрицированию электронных неструктурированных текстовых документов, поступающих на официальные веб-сайты и порталы органов государственной власти. Он предполагает формирование древовидной структуры рубричного поля, основанной на нечетких отношениях различия между синтаксическими характеристиками документов. Анализ основывается на определении нечеткого соответствия этих документов по синтаксическим характеристикам со значениями центров кластеров, проводимого последовательно от корня к листьям построенного нечеткого дерева решений. Предлагаемый метод рубрицирования программно реализован и апробирован при автоматизированной обработке и анализе обращений (заявлений, жалоб и предложений) граждан, поступающих в Администрацию Смоленской области. Это позволило обеспечить оперативную и качественную актуализацию рубрик и анализ документов в условиях нестационарности состава тезауруса и значимости слов рубрик.

Ключевые слова

рубрицирование, электронный неструктурированный документ, синтаксическая характеристика, нечеткое различие, иерархическая кластеризация, нечеткое соответствие

Автор статьи:

Борисов  В. В.

Ученая степень:

докт.техн.наук, профессор, кафедра Вычислительной техники, Филиал национального исследовательского университета «МЭИ» в г. Смоленске

Местоположение:

г. Смоленск, Россия

Автор статьи:

Булыгина О. В.

Ученая степень:

канд.экон.наук, доцент, кафедра Информационных технологий в экономике и управлении, Филиал Национального исследовательского университета «МЭИ» в г. Смоленске

Местоположение:

г. Смоленск

Автор статьи:

Дли М. И.

Ученая степень:

докт. техн. н., профессор заместитель директора Филиала НИУ «МЭИ» в Смоленске кафедра Высшей математики и естественно-научных дисциплин Московского финансово-промышленного университета «Синергия

Местоположение:

г. Смоленск

Автор статьи:

Козлов П. Ю.

Ученая степень:

канд. техн. наук, ассистент филиала Национального исследовательского университета «МЭИ» в г. Смоленске

Местоположение:

Смоленск