8 (495) 987 43 74 доб. 3304 Прием заявок на рассмотрение статей E-mail: evlasova@synergy.ru

Мы в соцсетях -              
Рус   |   Eng

Материалы в свободном доступе

№ 6(90) 28 декабря 2020 года
Рубрика: Модели и методики
Авторы: Окунев  Б. В., Шурыкин А. С.

Скачать статью

В настоящий момент «грязные» данные, то есть данные низкого качества, становятся одной из главных проблем эффективного решения задач Data Mining. Так как исходные данные аккумулируются из самых разных источников, то вероятность попадания «грязных» данных весьма высока. В связи с этим одной из важнейших задач, которую приходиться решать в ходе реализации Data Mining-процесса, является первоначальная обработка (очистка) данных, то есть препроцессинг. Необходимо заметить, что препроцессинг календарных данных является достаточно трудоемкой процедурой, которая может занимать до половины всего времени реализации технологии Data Mining. Сокращения времени, затрачиваемого на процедуру очистки данных, можно достичь, автоматизировав процесс с помощью специально разработанных инструментов (алгоритмов и программ). При этом следует помнить, что применение вышеуказанных элементов не гарантирует стопроцентную очистку «грязных» данных, а в некоторых случаях даже может приводить к появлению дополнительных ошибок в исходных данных. Авторами разработана модель автоматизированного препроцессинга календарных данных на основе синтаксического анализа и регулярных выражений. Предлагаемый алгоритм отличается гибкой настройкой параметров препроцессинга, достаточно простой реализуемостью и высокой интерпретируемостью результатов, что в свою очередь дает дополнительные возможности при анализе неудачных результатов применения технологии Data Mining. Несмотря на то, что предлагаемый алгоритм не является инструментом очистки абсолютно всех типов «грязных» календарных данных, он успешно функционирует в значительной части реальных практических ситуаций. Продолжение...

№ 6(90) 28 декабря 2020 года
Рубрика: Эффективные алгоритмы
Автор статьи: Кузнецова  А. А.

Скачать статью

Средняя точность (AP) как площадь под кривой Precision – Recall является стандартом де-факто для сравнения качества алгоритмов классификации, информационного поиска, обнаружения объектов и др. При этом традиционные кривые Precision – Recall обычно имеют зигзагообразную форму, что затрудняет вычисление средней точности и сравнение алгоритмов. В данной работе предлагается статистический подход к построению кривых Precision – Recall при анализе качества алгоритмов обнаружения объектов на изображениях. Этот подход основан на расчете статистической точности и статистической полноты. Вместо традиционного уровня уверенности для каждого изображения рассчитывается статистический уровень уверенности как доля обнаруженных объектов. Для каждого порогового значения статистического уровня уверенности определяется суммарное число корректно распознанных объектов на всех изображениях (Integral TP) и суммарное число фоновых объектов на всех изображениях, ошибочно отнесенных алгоритмом к одному из классов (Integral FP). Далее вычисляются значения точности и полноты. Статистические кривые Precision – Recall, в отличие от традиционных, гарантированно являются монотонно невозрастающими. При этом статистическая средняя точность алгоритмов обнаружения объектов на маленьких тестовых наборах данных оказывается меньше, чем традиционная средняя точность, а на относительно больших тестовых наборах изображений эти различия сглаживаются. Приведено сравнение использования традиционных и статистических кривых Precision – Recall на конкретном примере. Продолжение...

№ 6(90) 28 декабря 2020 года
Рубрика: Эффективные алгоритмы
Авторы: Федорова Е. А., Афанасьев  Д. О., Демин И. С., Лазарев А. М., Нерсесян  Р. Г., Пыльцин  И. В.

Скачать статью

Цель исследования – разработка общедоступного тонально-тематического словаря на русском языке, позволяющего выявлять смысловую направленность по группам экономических текстов, а также определять их сентиментные (тональные) характеристики. В статье описаны основные этапы составления словаря с применением методов машинного обучения (кластеризация, выделения частотности слов, построение коррелограмм) и экспертной оценки определения тональности и расширение словаря за счет включения терминов из аналогичных зарубежных словарей. Эмпирическая база исследования включала в себя: годовые отчеты компаний, новости министерств и ЦБ РФ, финансовые твиты компаний и новостные статьи РБК по направлению «Экономика, финансы, деньги и бизнес». Составленный словарь отличается от предыдущих по следующим направлениям: 1) является одним из первых словарей, позволяющих оценивать тональность экономических и финансовых текстов на русском языке по пяти степеням тональности; 2) позволяет оценить тональность и смысловую направленность текста по 12 экономическим темам (например, макроэкономика, монетарная политика, фондовые и товарные рынки и т. д.); 3) итоговый словарь EcSentiThemeLex включен в программный пакет (библиотеку) rulexicon для среды программирования R1 и Python2. Приведены пошаговые примеры использования разработанной библиотеки в среде R, позволяющие оценить тональность и тематическую направленность экономического или финансового текста на основе лаконичного кода. Структура библиотеки позволяет использовать оригинальные тексты для их оценки без предварительной лемматизации (приведения к начальным формам). Составленный в данной работе тонально-тематический словарь EcSentiThemeLex со всеми словоформами позволит упростить решение прикладных задач текстового анализа в финансово-экономической сфере, а также потенциально сможет послужить базисом для наращивания числа соответствующих исследований в российской литературе. Продолжение...

1 2 3 4 5 6 .. 386