В преподавательский портфель |
|
Разработка ИТ-инструментария |
|
|
Актуальность рассматриваемой в статье темы состоит в решении проблем проектирования экспертных систем промышленных предприятий на основе технологии больших данных. Цель исследования – проанализировать применяемые методологии на стадии проектирования информационной системы предприятия, разработать алгоритмы работы экспертной системы с большими данными. Краткая постановка задачи состоит в анализе имеющихся на рынке технологий работы с большими данными и возможности их использования для экспертных систем, выявлении основных стадий работы с большими данными для промышленных предприятий. В современном мире проблема использования больших данных (Big Data) стала чрезвычайно актуальной. Компании, фирмы и корпорации, являющиеся лидерами в области информационных технологий и ведения бизнеса, заняты поиском оптимальных решений для управления огромным количеством постоянно поступающей информации и ее глубокого анализа. Они ищут пути извлечения прибыли из данных, находящихся в их распоряжении, пытаются получить новые данные из уже существующих. Разработка собственной экспертной системы является экономически более рентабельной. Используемые методы – методы анализа и проектирования IDEF0, DFD, IDEF1, IDEF3, методы функционального (структурного) проектирования, методы объектно- ориентированного проектирования. Полученные результаты – разработана методика использования больших данных для создания экспертной системы промышленного предприятия. Реализация подобной экспертной системы собственными силами оказывается значительно дешевле, чем приобретение готовых программных комплексов.
|
---|---|
ИТ и образование |
|
Образовательное пространство |
|
|
Успешное достижение целей обучения обусловлено целым рядом факторов. К числу наиболее значимых из них следует отнести максимально точно отражающий задачи и дидактические единицы изучаемого курса план проведения практических занятий и лабораторных работ, а также соответствующий уровень методической и инструментальной обеспеченности лабораторных практикумов. Решения относительно выбора всех этих элементов зависят от ряда условий, таких как правила и стандарты, действующие в конкретной образовательной среде, формат обучения, студенческий контингент и другие. В предлагаемой вниманию читателя статье не ставится задача дать примеры конкретных практических заданий, в ней представлен рамочный обобщенный план проведения лабораторных занятий по курсам моделирования и имитационного моделирования, на основе которого можно провести выборку и настройку применительно к конкретной учебной программе с учетом специфики условий. В основу плана положен набор предпосылок и принципов, которые обусловливают состав выполняемых в практикумах заданий и применяемый в них программный инструментарий. Дана краткая характеристика целей каждой практической задачи обобщенного плана, постановка задач и программные средства, используемые для их решения. Идеи и принципы, представленные в статье, могут быть полезны преподавателям для составления программ практических занятий по моделированию и имитационному моделированию, а также для разработки средств их методической и инструментальной поддержки.
|
Инструментальные средства |
|
Эффективные алгоритмы |
|
|
Цель исследования – разработка общедоступного тонально-тематического словаря на русском языке, позволяющего выявлять смысловую направленность по группам экономических текстов, а также определять их сентиментные (тональные) характеристики. В статье описаны основные этапы составления словаря с применением методов машинного обучения (кластеризация, выделения частотности слов, построение коррелограмм) и экспертной оценки определения тональности и расширение словаря за счет включения терминов из аналогичных зарубежных словарей. Эмпирическая база исследования включала в себя: годовые отчеты компаний, новости министерств и ЦБ РФ, финансовые твиты компаний и новостные статьи РБК по направлению «Экономика, финансы, деньги и бизнес». Составленный словарь отличается от предыдущих по следующим направлениям: 1) является одним из первых словарей, позволяющих оценивать тональность экономических и финансовых текстов на русском языке по пяти степеням тональности; 2) позволяет оценить тональность и смысловую направленность текста по 12 экономическим темам (например, макроэкономика, монетарная политика, фондовые и товарные рынки и т. д.); 3) итоговый словарь EcSentiThemeLex включен в программный пакет (библиотеку) rulexicon для среды программирования R1 и Python2. Приведены пошаговые примеры использования разработанной библиотеки в среде R, позволяющие оценить тональность и тематическую направленность экономического или финансового текста на основе лаконичного кода. Структура библиотеки позволяет использовать оригинальные тексты для их оценки без предварительной лемматизации (приведения к начальным формам). Составленный в данной работе тонально-тематический словарь EcSentiThemeLex со всеми словоформами позволит упростить решение прикладных задач текстового анализа в финансово-экономической сфере, а также потенциально сможет послужить базисом для наращивания числа соответствующих исследований в российской литературе.
|
|
Средняя точность (AP) как площадь под кривой Precision – Recall является стандартом де-факто для сравнения качества алгоритмов классификации, информационного поиска, обнаружения объектов и др. При этом традиционные кривые Precision – Recall обычно имеют зигзагообразную форму, что затрудняет вычисление средней точности и сравнение алгоритмов. В данной работе предлагается статистический подход к построению кривых Precision – Recall при анализе качества алгоритмов обнаружения объектов на изображениях. Этот подход основан на расчете статистической точности и статистической полноты. Вместо традиционного уровня уверенности для каждого изображения рассчитывается статистический уровень уверенности как доля обнаруженных объектов. Для каждого порогового значения статистического уровня уверенности определяется суммарное число корректно распознанных объектов на всех изображениях (Integral TP) и суммарное число фоновых объектов на всех изображениях, ошибочно отнесенных алгоритмом к одному из классов (Integral FP). Далее вычисляются значения точности и полноты. Статистические кривые Precision – Recall, в отличие от традиционных, гарантированно являются монотонно невозрастающими. При этом статистическая средняя точность алгоритмов обнаружения объектов на маленьких тестовых наборах данных оказывается меньше, чем традиционная средняя точность, а на относительно больших тестовых наборах изображений эти различия сглаживаются. Приведено сравнение использования традиционных и статистических кривых Precision – Recall на конкретном примере.
|
Информационная безопасность |
|
Модели и методики | |
|
В настоящий момент «грязные» данные, то есть данные низкого качества, становятся одной из главных проблем эффективного решения задач Data Mining. Так как исходные данные аккумулируются из самых разных источников, то вероятность попадания «грязных» данных весьма высока. В связи с этим одной из важнейших задач, которую приходиться решать в ходе реализации Data Mining-процесса, является первоначальная обработка (очистка) данных, то есть препроцессинг. Необходимо заметить, что препроцессинг календарных данных является достаточно трудоемкой процедурой, которая может занимать до половины всего времени реализации технологии Data Mining. Сокращения времени, затрачиваемого на процедуру очистки данных, можно достичь, автоматизировав процесс с помощью специально разработанных инструментов (алгоритмов и программ). При этом следует помнить, что применение вышеуказанных элементов не гарантирует стопроцентную очистку «грязных» данных, а в некоторых случаях даже может приводить к появлению дополнительных ошибок в исходных данных. Авторами разработана модель автоматизированного препроцессинга календарных данных на основе синтаксического анализа и регулярных выражений. Предлагаемый алгоритм отличается гибкой настройкой параметров препроцессинга, достаточно простой реализуемостью и высокой интерпретируемостью результатов, что в свою очередь дает дополнительные возможности при анализе неудачных результатов применения технологии Data Mining. Несмотря на то, что предлагаемый алгоритм не является инструментом очистки абсолютно всех типов «грязных» календарных данных, он успешно функционирует в значительной части реальных практических ситуаций.
|
Моделирование процессов и систем |
|
|
Демографические показатели являются важными параметрами государственных программ по развитию России, а оперативный мониторинг демографического развития – залог успешной реализации программ. Очень часто данные государственной статистики публикуются с задержкой, что не позволяет использовать их при оперативном мониторинге и планировании. В настоящей работе рассматривается подход, позволяющий оперативно оценивать демографические процессы в области формирования семьи и прогнозировать демографические тенденции в краткосрочном будущем на основе данных статистики запросов из Google Trends. Взаимосвязи между данными поисковых запросов и демографическими показателями анализируются с помощью корреляции Пирсона. Для анализа используются годовые (коэффициенты рождаемости, количество абортов на 100 рождений, количество абортов на 1000 женщин, количество браков и разводов на 1000 населения) и месячные данные (число родившихся, количество браков и разводов) по рождениям, бракам и абортам с лагом и без. Анализ проводится на данных по России в целом и для восьми самых населенных регионов: Москва, Московская область, Краснодарский край, Санкт-Петербург, Ростовская область, Свердловская область, Республика Татарстан, Республика Башкортостан. Используя временные ряды, доступные в Google Trends с 2004 года, авторы демонстрируют, что некоторые демографические показатели могут быть спрогнозированы на основе данных родственных запросов к поисковому алгоритму Google с использованием модели ARIMA. Таким образом, возможно использовать данные поисковых запросов в качестве хорошего дополнения к данным демографических показателей, при построении моделей множественной регрессии для демографических расчетов или использовать в качестве прокси-переменных.
|
|
Цель работы – описание нового метода моделирования объектов в виде комплекса информационных задач, включающего симплициальный анализ когнитивной структуры объекта исследования. Метод реализуется в несколько этапов. На первом этапе выявляется совокупность базисных факторов, влияющих на объект исследования со стороны внешней и внутренней среды, их попарное сравнение и формирование когнитивной модели в виде матрицы смежности 1-го уровня иерархии. Затем проводится группировка факторов для формирования 2-го уровня иерархии. Далее осуществляется объединение компонентов в когнитивную структуру 3-го уровня иерархии. На 4-м уровне представляется детализация компонентов 3-го уровня иерархии. Для проверки устойчивости сформированной детализированной структуры когнитивной модели проводится серия имитационных экспериментов. Неявные взаимосвязи между факторами исследуются с применением симплициального анализа. Апробация метода проведена на примере когнитивной модели «образ жизни» студенческой молодежи. Группирование факторов на втором уровне иерархии осуществлено по компонентам
«бытовые условия», «когнитивный диссонанс» и «результативность деятельности». При проведении имитационного эксперимента установлено наличие импульсного резонанса в сформированной детализированной структуре 4-го уровня иерархии. Проведение имитационного эксперимента после проведения симплициального анализа детализированной структуры с целью упорядочения элементов матрицы смежности показало отсутствие импульсного резонанса, что соответствует теоретическим разработкам. Установлено влияние на «образ жизни» студенческой молодежи фактора «когнитивный диссонанс» личности, на который, в свою очередь, влияет фактор «досуг». Экспертное выражение «чем лучше "досуг", тем меньше "когнитивный диссонанс"» соответствует логике рассуждений. Возможное применение метода состоит в научно-обоснованном выявлении совокупности существенных факторов, влияющих на объект исследования, с целью обнаружения скрытых тенденций и реализации соответствующих мер социального управления.
|
Лаборатория |
|
Модели и методики |
|
|
При проектировании современных средств вычислительной техники и цифровой электроники огромная роль отводится использованию имитационных моделей, которые позволяют выявлять ошибки на самых разных стадиях разработки изделия. Вначале для этого широко использовались монолитные модели. Но они хорошо работали только тогда, когда их размеры были относительно небольшими. Поэтому разработчики постепенно стали отказываться от использования монолитных моделей и переходить к использованию распределенных моделей, позволяющих повысить их быстродействие и расширить границы допустимых размеров. При этом особое внимание начали уделять иерархическим распределенным моделям, которые обеспечивают возможность исследовать поведение создаваемых устройств на разных уровнях детализации. Подобные модели позволили заметно раздвинуть допустимые границы их размеров и увеличить скорость работы. Однако такие распределенные модели обладают тем недостатком, что их эффективность заметно зависит не только от количества компонент, входящих в их состав, но и от размеров этих компонент. В работе приведены результаты исследования влияния введения дополнительного верхнего иерархического уровня на рабочие характеристики распределенных моделей на основе сетей Петри. Показано, что применение такого способа модификации распределенных моделей приводит к повышению их быстродействия в широком диапазоне изменения размеров. При этом наиболее значимый эффект достигается в распределенных моделях, содержащих большое количество компонент небольшого размера. Максимальное быстродействие модифицированных таким образом моделей может быть на порядок выше, чем у немодифицированных. В результате кроме общего увеличения эффективности модифицированных иерархических распределенных моделей это привело еще и к существенному выравниванию рабочих характеристик модифицированных распределенных моделей с подчиненными компонентами разного размера.
|
IT-МЕНЕДЖМЕНТ |
|
Управление эффективностью |
|
|
Исследование эффективности ремонтных работ оборудования имеет большое практическое и экономическое значение. Это подтверждается множеством публикаций о средствах мониторинга и диагностике различного оборудования. Данная работа посвящена моделированию ремонтных работ технологического оборудования различного назначения, функционирующего в условиях неопределенности и риска. В предлагаемом исследовании рекомендована технология, использующая страховой фонд, который выполняет две функции: 1) накапливает платежи с различной периодичностью для выполнения ремонтных работ: текущих, аварийных, капитальных; 2) по мере необходимости оплачивает эти работы. Математическое описание организации ремонтных работ оборудования предлагается провести на основе случайного процесса риска, который в нашем случае описывает состояние страхового фонда. Для моделирования этого процесса предложено использовать имитационный подход, предполагающий создание моделирующей программы, которая создает выборочные значения специального вида. Эти значения затем обрабатываются с целью получения показателей эффективности ремонтных работ. В качестве показателей предложены ресурсно-затратный и финансовый риски, для оценки которых создано математическое обеспечение. Вычислительные эксперименты с помощью моделирующей программы позволили получить оценки предложенных показателей рисков и сделать вывод о том, что с точки зрения их уменьшения периодичность платежей в страховой фонд должна быть различной, зависящей от вида ремонтных работ. Введение страхового фонда, описание его состояния случайным процессом риска, математическое описание показателей риска для оценки эффективности ремонтных работ, создание моделирующей программы на основе событийного подхода являются научной новизной данной работы.
|