Статьи автора
|
В работе излагается авторский подход к решению задачи анализа тональности русскоязычных сообщений в сети Интернет о деятельности банков. Материалами исследования выступают отзывы клиентов о банках в целом, о продуктах, сервисах и качестве обслуживания, размещенные на портале Банки.ру. В работе задача анализа тональности текстов рассматривается как задача бинарной классификации на множестве позитивных и негативных отзывов. Для представления собранных и предварительно обработанных текстов использовалась векторная модель со схемой взвешивания tf-idf. Поиск решения задачи бинарной классификации осуществлялся следующими алгоритмами с подбором оптимальных параметров на сетке: наивный байесовский классификатор, метод опорных векторов, логистическая регрессия, случайный лес и градиентный бустинг. Для оценки качества решения задачи классификации применялись стандартные статистические метрики – точность, полнота и F-мера. По указанным метрикам наилучшие результаты получены на классификационной модели, построенной с помощью метода опорных векторов. С целью выделения наиболее характерных тем сообщений клиентов рассматривалась также задача тематического моделирования текстов. Для ее решения применялся метод латентного размещения Дирихле. В результате установлено, что наиболее популярными темами сообщений являются «Карты» и «Качество облуживания». Полученные результаты работы могут использоваться в деятельности банка для автоматизации мониторинга его репутации в медиапространстве и при маршрутизации клиентских запросов по решению различных проблем. При решении задач активно применялись возможности языка программирования Python, а именно библиотеки для веб-скрейпинга, машинного обучения, обработки естественного языка. Читать дальше...
Эвристические алгоритмы часто используются в качестве альтернативы при решении задач высокой вычислительной сложности или не имеющих точного решения, позволяя быстро получить требуемый результат. Как правило, они не имеют строгого математического обоснования, но их применение оправдано с точки зрения практической целесообразности. Формально к эвристическим можно отнести алгоритмы, в которых используются приближенные методы. Однако их применение часто порождает проблему отсутствия детерминированности, что не всегда позволяет оценить точность полученного решения. В статье рассмотрен методический подход к оценке точности эвристических алгоритмов, разработанных для определения формы и параметров полезного сигнала на фоне сильной шумовой составляющей. Он базируется на методе аналогии и состоит в моделировании искусственного сигнала с заданными параметрами, а также фоновой шумовой помехи, сходной по своим характеристикам с аддитивным белым гауссовским шумом. При этом шумовая составляющая формируется программными средствами с помощью генератора псевдослучайной последовательности чисел. Такие генераторы входят в пакеты встроенных функций практически всех языков программирования высокого уровня. Представлен сравнительный анализ характеристик реального и искусственного шума, показавший возможность решения задачи путем численного моделирования. Получены результаты оценки точности определения параметров искусственного сигнала, отделенного от шумовой составляющей с помощью эвристических алгоритмов кусочно-линейной аппроксимации и усреднения. Также рассмотрена задача сглаживания эмпирических данных путем эквивалентной замены дискретного сигнала набором квадратичных функций, параметры которых обеспечивают кусочно-параболическую аппроксимацию его формы. Эта процедура устраняет остаточный дребезг сигнала, который неизбежно возникает в результате линеаризации и позволяет в дальнейшем записать его с любой частотой дискретизации. Таким образом, предложенный подход дает возможность количественной оценки точности эвристических алгоритмов, применяемых при определении параметров ожидаемого сигнала.
Читать дальше...
|