E-mail
|
dmafanasyev@gmail.com
|
Местоположение
|
г. Москва, Россия
|
Статьи автора
|
Цель исследования – разработка общедоступного тонально-тематического словаря на русском языке, позволяющего выявлять смысловую направленность по группам экономических текстов, а также определять их сентиментные (тональные) характеристики. В статье описаны основные этапы составления словаря с применением методов машинного обучения (кластеризация, выделения частотности слов, построение коррелограмм) и экспертной оценки определения тональности и расширение словаря за счет включения терминов из аналогичных зарубежных словарей. Эмпирическая база исследования включала в себя: годовые отчеты компаний, новости министерств и ЦБ РФ, финансовые твиты компаний и новостные статьи РБК по направлению «Экономика, финансы, деньги и бизнес». Составленный словарь отличается от предыдущих по следующим направлениям: 1) является одним из первых словарей, позволяющих оценивать тональность экономических и финансовых текстов на русском языке по пяти степеням тональности; 2) позволяет оценить тональность и смысловую направленность текста по 12 экономическим темам (например, макроэкономика, монетарная политика, фондовые и товарные рынки и т. д.); 3) итоговый словарь EcSentiThemeLex включен в программный пакет (библиотеку) rulexicon для среды программирования R1 и Python2. Приведены пошаговые примеры использования разработанной библиотеки в среде R, позволяющие оценить тональность и тематическую направленность экономического или финансового текста на основе лаконичного кода. Структура библиотеки позволяет использовать оригинальные тексты для их оценки без предварительной лемматизации (приведения к начальным формам). Составленный в данной работе тонально-тематический словарь EcSentiThemeLex со всеми словоформами позволит упростить решение прикладных задач текстового анализа в финансово-экономической сфере, а также потенциально сможет послужить базисом для наращивания числа соответствующих исследований в российской литературе. Читать дальше...
|