8 (495) 987 43 74
Мы в соцсетях -              
Рус   |   Eng

Авторы

Демин И. С.

Ученая степень
докт. экон. наук, профессор департамента анализа данных и принятия решений, Финансовый университет при Правительстве РФ
E-mail
ig.demin@gmail.com
Телефон
Местоположение
г. Москва
Статьи автора

Применение словарей тональности для текстового анализа

В данной статье оценивается применимость словарей тональности AFINN, NRC и Loughran and McDonald Word List для определения влияния тональности новостей на состояние фондового и валютного рынков России. Эмпирическую базу исследования составляют 2,5 млн новостей о России из различных источников, аккредитованных агентством Thomson Reuters. На основе метода текстового анализа, известного как «мешок слов», проведена оценка тональности каждой из статей по всем исследуемым словарям, определено, насколько колебания каждого из показателей коррелируют с основными индикаторами рынков. Доказано, что тональность новостей о России имеет заметное влияние на состояние рынков. Выявлено, что наилучшие результаты при оценке такого влияния показывает словарь NRC.
Читать дальше...

Разработка тонально-тематического словаря EcSentiThemeLex для анализа экономических текстов на русском языке

Цель исследования – разработка общедоступного тонально-тематического словаря на русском языке, позволяющего выявлять смысловую направленность по группам экономических текстов, а также определять их сентиментные (тональные) характеристики. В статье описаны основные этапы составления словаря с применением методов машинного обучения (кластеризация, выделения частотности слов, построение коррелограмм) и экспертной оценки определения тональности и расширение словаря за счет включения терминов из аналогичных зарубежных словарей. Эмпирическая база исследования включала в себя: годовые отчеты компаний, новости министерств и ЦБ РФ, финансовые твиты компаний и новостные статьи РБК по направлению «Экономика, финансы, деньги и бизнес». Составленный словарь отличается от предыдущих по следующим направлениям: 1) является одним из первых словарей, позволяющих оценивать тональность экономических и финансовых текстов на русском языке по пяти степеням тональности; 2) позволяет оценить тональность и смысловую направленность текста по 12 экономическим темам (например, макроэкономика, монетарная политика, фондовые и товарные рынки и т. д.); 3) итоговый словарь EcSentiThemeLex включен в программный пакет (библиотеку) rulexicon для среды программирования R1 и Python2. Приведены пошаговые примеры использования разработанной библиотеки в среде R, позволяющие оценить тональность и тематическую направленность экономического или финансового текста на основе лаконичного кода. Структура библиотеки позволяет использовать оригинальные тексты для их оценки без предварительной лемматизации (приведения к начальным формам). Составленный в данной работе тонально-тематический словарь EcSentiThemeLex со всеми словоформами позволит упростить решение прикладных задач текстового анализа в финансово-экономической сфере, а также потенциально сможет послужить базисом для наращивания числа соответствующих исследований в российской литературе. Читать дальше...