8 (495) 987 43 74
Мы в соцсетях -              
Рус   |   Eng

Авторы

Козлов П. Ю.

Ученая степень
канд. техн. наук, ассистент филиала Национального исследовательского университета «МЭИ» в г. Смоленске
E-mail
originaldod@gmail.com
Местоположение
Смоленск
Статьи автора

Формирование структуры интеллектуальной системы анализа и рубрицирования неструктурированной текстовой информации в различных ситуациях

Анализ электронных текстовых документов, написанных на естественном языке, является одной из важнейших задач, реализуемых в системах автоматизированного анализа лингвистической информации. Известно, что такие документы могут характеризоваться различными параметрами: размер, наличие структуры, частота упоминания ключевых слов и т. п. Проведенный анализ показал невозможность построения единой модели для рубрицирования неструктурированных текстовых документов в различных ситуациях. Для решения указанной проблемы предложен мультимодельный подход к рубрицированию, отличающийся комбинированным использованием интеллектуальных и вероятностностатистических методов анализа текстовых документов. Конкретная модель выбирается с использованием нечетко-логических алгоритмов на основе предложенных характеристик. Его применение позволит повысить точность отнесения электронных текстовых документов к конкретным рубрикам с учетом их специфики и различных целей практического применения в организации.
Читать дальше...

Разработка экономической информационной системы автоматизированного анализа неструктированных текстовых документов

Проведено исследование задач и методов автоматизированного рубрицирования текстов и оценены их перспективы для анализа неструктурированных электронных текстовых документов с учетом особенностей обращений граждан, поступающих в органы власти. Разработана архитектура информационной системы автоматизированного анализа таких документов, реализующая предложенный мультимодельный подход к рубрицированию, основанный на комплексном использовании интеллектуальных и вероятностно-статистических методов. Приведена процедура обработки обращений, поступающих в органы власти, с использованием системы документооборота и разработанной информационной системы.
Читать дальше...

Применение нечетких деревьев решений для рубрицирования неструктурированных текстовых документов небольшого размера

Ежедневно на Интернет-порталы органов государственной власти поступает большое количество электронных обращений (заявлений, предложений или жалоб), представленных в неструктурированном текстовом виде. Качество и скорость автоматической обработки указанных сообщений напрямую зависит от правильности их классификации (отнесения к конкретной предметной области), в основе которой лежат их отличительные особенности. Однако специфика таких сообщений (небольшой размер, наличие ошибок, отсутствие четкой структуры и т.д.) не позволяет использовать известные методы рубрицирования текстовых документов. Авторами разработана модель рубрицирования электронных неструктурированных текстовых документов с учетом синтаксических связей и ролей слов в предложениях на основе нечеткого дерева решений. Построение дерева решений основано на анализе степени пересечений словарей рубрик, а также расстояний между рубриками в n-мерном пространстве признаков. Данная модель позволяет более точно рубрицировать электронные неструктурированные текстовые документы в условиях взаимосвязанных рубрик, а также повысить оперативность обработки поступивших документов.
Читать дальше...

Анализ коротких неструктурированных документов с использованием нечетких весов значимости и особых процедур интеграции экономической информации

В статье предложен новый подход к автоматическому анализу коротких сообщений, поступающих на Интернет-порталы и электронную почту органов государственной власти. Разработанная модель позволяет выполнять классификацию коротких неструктурированных текстовых документов при недостатке статистической информации и слабой степени пересечения тематических рубрик. Входными данными для алгоритма построения модели является множество рубрик и обучающая выборка, а его результатом являются нечеткие весовые коэффициенты значимых слов тезаурусов рубрик, что обеспечивает корректное представление характеристик документа и работу алгоритма рубрицирования (классификации).
Читать дальше...