8 (495) 987 43 74 доб. 3304 Прием заявок на рассмотрение статей E-mail: evlasova@synergy.ru

Мы в соцсетях -              
Рус   |   Eng

Авторы

Нерсесян Роман Генрихович

Ученая степень
инженер по аналитическим данным ООО «Цифра»,
E-mail
romkasb@gmail.com
Местоположение
г. Москва, Россия
Статьи автора

Разработка тонально-тематического словаря EcSentiThemeLex для анализа экономических текстов на русском языке

Цель исследования – разработка общедоступного тонально-тематического словаря на русском языке, позволяющего выявлять смысловую направленность по группам экономических текстов, а также определять их сентиментные (тональные) характеристики. В статье описаны основные этапы составления словаря с применением методов машинного обучения (кластеризация, выделения частотности слов, построение коррелограмм) и экспертной оценки определения тональности и расширение словаря за счет включения терминов из аналогичных зарубежных словарей. Эмпирическая база исследования включала в себя: годовые отчеты компаний, новости министерств и ЦБ РФ, финансовые твиты компаний и новостные статьи РБК по направлению «Экономика, финансы, деньги и бизнес». Составленный словарь отличается от предыдущих по следующим направлениям: 1) является одним из первых словарей, позволяющих оценивать тональность экономических и финансовых текстов на русском языке по пяти степеням тональности; 2) позволяет оценить тональность и смысловую направленность текста по 12 экономическим темам (например, макроэкономика, монетарная политика, фондовые и товарные рынки и т. д.); 3) итоговый словарь EcSentiThemeLex включен в программный пакет (библиотеку) rulexicon для среды программирования R1 и Python2. Приведены пошаговые примеры использования разработанной библиотеки в среде R, позволяющие оценить тональность и тематическую направленность экономического или финансового текста на основе лаконичного кода. Структура библиотеки позволяет использовать оригинальные тексты для их оценки без предварительной лемматизации (приведения к начальным формам). Составленный в данной работе тонально-тематический словарь EcSentiThemeLex со всеми словоформами позволит упростить решение прикладных задач текстового анализа в финансово-экономической сфере, а также потенциально сможет послужить базисом для наращивания числа соответствующих исследований в российской литературе. Читать дальше...