Л. В. Щавелёв
Ивановский государственный энергетический университет
Оперативная аналитическая обработка данных для поддержки принятия управленческих решений
(Создание и развитие информационной среды вуза: состояние и перспективы. Сб. ст. к конф. / Иван. гос. архитектурно-строит. акад. - Иваново, 1997)
Управление любой сложной социально-экономической системой от организации или предприятия до региона или государства весьма затруднительно без обратной связи, которая заключается в отслеживании и анализе данных, отражающих состояние этой системы и ситуацию вокруг нее. Постоянная доступность актуальной информации дает возможность оценить текущее положение дел, а обзор изменения конкретных характеристик во времени позволяет обнаружить тенденции развития системы и сделать выводы о том, что ожидает ее в будущем. Таким образом, обладая всей полнотой сведений о состоянии системы и ее элементов в статике и динамике, управляющий персонал может принимать грамотные решения по применению мер регулирования. Такое управление основано на знании и потому более эффективно, чем принятие важных решений вслепую.
Если управляемый объект невелик и несложен, всю необходимую для осмысления информацию легко извлечь из разрозненных документов. Для более крупных объектов данные могут эффективно использоваться только тогда, когда они структурированы в базах данных информационных систем. Такие системы функционируют повсеместно - на уровне всего объекта управления, его подсистем, а также во внешних по отношению к объекту информационных источниках, сведения которых жизненно важны для работы управленческого персонала. Но и это решение не окончательно - появляется проблема несвязанности и несогласованности информации таких источников, вследствие чего возникает парадокс: вся необходимая руководству информация где-то есть (возможно, она хранится даже в нескольких местах одновременно), но найти ее, а тем более связать с информацией других источников, очень трудно.
Кроме того, большинство информационных систем, из которых черпаются данные, ориентированы на обработку текущей информации, и исторические данные из них по ходу времени удаляются, в лучшем случае сохраняясь в архивах. Поэтому теряется возможность отслеживания динамики процессов, что особенно важно для поддержки принятия решений.
Таким образом, выкристаллизовываются две проблемы:
-
интеграция, актуализация и согласование оперативных данных из разнородных источников для формирования единого непротиворечивого взгляда на объект управления;
-
создание или адаптация программных средств для поиска, извлечения, исследования и обогащения потребной информации из сформированного источника для обеспечения информационной поддержки процесса управления.
Рассмотрим современные методы разрешения этих проблем и примеры реализации этих методов.
Подход к решению первой проблемы был предложен Б. Инмоном и получил наименование концепции Хранилищ Данных (Data Warehouse, DW) [2, 3]. По определению автора, Хранилища Данных - это "предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные с целью поддержки управления", призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и поддержки принятия решений.
По заданному регламенту в хранилище собираются данные из различных источников - баз систем оперативной обработки данных (СОД). В отличие от СОД, на основе единого хранилища данных строятся системы поддержки принятия решений (СППР - Decision Support Systems, DSS), поэтому в хранилище должна поддерживаться хронология: наравне с текущими следует хранить исторические данные с указанием времени, к которому они относятся. В результате необходимые доступные данные об объекте управления собираются в одном месте, приводятся к единому формату, согласовываются и, в ряде случаев, агрегируются до минимально требуемого уровня обобщения.
Альтернативным по отношению к Хранилищам Данных способом создания единого взгляда на корпоративные данные является создание виртуального источника, опирающегося на распределенные базы данных различных СОД. При этом каждый запрос к такому источнику динамически транслируется в запросы к исходным базам данных, а полученные результаты на лету согласовываются, связываются, агрегируются и возвращаются к пользователю. При внешней элегантности, такой способ обладает рядом существенных недостатков: непременным требованием постоянной связи всех источников данных в сети; малой надежностью; более долгим временем обработки запросов. Главным же недостатком следует признать практическую невозможность обзора длительных исторических последовательностей, ибо при физическом отсутствии центрального хранилища доступны только те данные, которые на момент запроса есть в реальных базах связанных СОД.
Таким образом, концепция Хранилищ Данных описывает механизм подготовки материала для последующего анализа и осмысления.
Для решения второй проблемы - непосредственной реализации анализа данных на базе собранного материала - идеолог реляционных СУБД Э. Кодд предложил концепцию оперативной аналитической обработки (On-Line Analytical Processing, OLAP) [1, 4]. В основу концепции положен принцип многомерного представления данных. На базе многомерной модели могут, во-первых, строиться произвольные запросы, а во-вторых, выполняться процедуры обработки данных для извлечения полезной вторичной информации.
До недавнего времени единственным механизмом анализа данных для поддержки принятия решений было использование заранее запрограммированных запросов с генерацией стандартных отчетов. Такие системы получили название Статических СППР [1]. При возникновении дополнительных вопросов аналитик должен был обращаться к разработчику системы с заказом на создание новой процедуры анализа, что могло занимать достаточно длительное время. При долгом использовании такие системы разрастались до огромных наборов жестко заданных запросов. Необходимость универсализации определения запросов и способов обработки данных вызвала формирование идеологии интерактивного динамического анализа, воплощением которой стала концепция OLAP с ее многомерными моделями.
В отличие от классической реляционной модели, оперирующей произвольно отсортированными табличными записями, в многомерной модели данные помещаются в ячейки, расположенные в пространстве измерений. Такой взгляд на информацию интуитивно прост и удобен для аналитика. Например, простая плоская таблица успеваемости студентов группы, где по горизонтали перечислены их фамилии, по вертикали - названия предметов, а в ячейках присутствуют экзаменационные оценки - вариант многомерного представления данных с количеством измерений, равным двум. Набор таких таблиц за несколько семестров определяет третье измерение - время - с периодичностью в полгода. В общем случае количество измерений может быть любым.
На основе концепций Хранилищ Данных и Оперативной аналитической обработки информации в ИГЭУ разработана Информационно-аналитическая система для поддержки принятия решений "ИнфоВизор". Первоначально созданная для решения задач региональной информатизации, она может применяться везде, где требуется анализ результатов экономического положения, обработка данных социологических опросов и маркетинговых исследований, изучение демографических, социальных и других процессов. Многомерные гиперкубические структуры данных, сформированные по результатам нерегламентированных запросов, могут использоваться для анализа статики и динамики. Динамическое добавление к гиперкубу новых граней, состоящих из расчетных показателей, может производиться по выбору пользователя по заранее заданным или произвольно составленным на макроязыке функциональным зависимостям. Более сложные виды анализа (корреляционно-регрессионный, корреляция рядов динамики и другие) выполняются с помощью отдельных динамически подключаемых модулей, интерфейс обмена информацией которых с ядром аналитической системы предварительно согласован. Визуализация результатов информационного поиска и анализа может производиться с помощью динамически настраиваемых таблиц, диаграмм и расцвечиваемых географических карт.
В настоящее время система "ИнфоВизор" используется в Администрации Ивановской области.
Список литературы
- E. F. Codd, S. B. Codd, C. T. Salley. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. E. F. Codd & Associates - 1993 (http://www.arborsoft.com/essbase/wht_ppr/coddTOC.html).
- А. А. Сахаров. Концепции построения и реализации информационных систем, ориентированных на анализ данных. - СУБД, N 4, 1996.- С. 55-70 (http://www.osp.ru/dbms/db_4_96/source/55.htm).
- Data Warehousing. Delivering Decision Support to the Many. Business Objects S. A. - 1996 (http://www.businessobjects.com/product/dataware/dataware.htm).
- OLAP for the Masses. - Business Objects S. A. - 1996 (http://www.businessobjects.com/product/olap/olap.htm).