Визуализация данных. Построение аналитических моделей в памяти

04.04.2019 Мониторы

Меня зовут Анна Пономарева, я Game Analyst в Plarium Kharkiv. В этом году наш департамент запустил мобильный RPG-проект Stormfall: Saga of Survival и теперь занимается его поддержкой. Моя задача в проекте - оперативно анализировать игровые процессы и предоставлять отчеты для корректной настройки баланса.

Визуализация - один из самых эффективных инструментов презентации данных. Она позволяет наглядно отследить основные тенденции, зависимости, распределения и отклонения исследуемых признаков, найти корреляцию показателей, оценить изменения, помочь принять правильные бизнес-решения.

Важно не просто показать информацию, а сделать это максимально понятно и прозрачно для заказчика, выделив ключевые показатели. Как именно это сделать, я и постараюсь рассказать в статье.

Как не надо делать

Часто в попытке выжать из имеющейся информации всё мы можем получить нечто несуразное и пугающее.

Или еще хуже.

Помните, что много не значит хорошо. При этом, глядя на дашборд, пользователь должен находить ответы на все вопросы, касающиеся конкретного анализа. Не будет толку, если ответ на один из вопросов потребует сопоставления информации с десяти вкладок.

Этапы анализа данных

Прежде чем приступить к визуализации, рассмотрим все этапы анализа данных.

Формулирование цели

Каждое исследование должно отвечать на ряд поставленных вопросов - не нужно плодить исследования для исследований.

Сбор данных

На этом этапе аналитик или работает с уже собранными данными, или участвует в процессе постановки задания на сбор данных (фактически решает, какая информация ему необходима и в каком виде).

В первом случае особое внимание стоит уделить правильной интерпретации данных, которые записаны в базу, и зачастую смириться с существующим форматом данных, дизайном таблиц и т. д. Во втором случае аналитик сталкивается с проблемой построения грамотного сценария сбора данных - он может особенно перестараться в планировании А/В-тестов, логировании событий и т. п. Здесь важна коммуникация с программистами, которые могут помочь в понимании процессов и оценке масштабов планируемых записей.

Подготовка данных

«Мусор на входе - мусор на выходе» - правило, о котором всегда нужно помнить. Структурирование, устранение ошибок, изменение форматов содержимого, разбор аномальных результатов, очистка от выбросов, устранение дубликатов, интеграции данных из разных источников - одни из важнейших пунктов в анализе данных.

Иногда требуется расширение метрик, например добавление вычислительной информации (прирост, ранг, номер и т. п.). Иногда следует сократить количество признаков (переменных) или перейти к вспомогательным переменным, принимающим одно из двух значений: true (1)/false(0).

На этом этапе сырые данные превращаются в полезную входную информацию для моделирования и анализа.

Исследование данных

Для правильной интерпретации многомерных данных необходимо посмотреть на них в разрезе как конкретного признака, так и группы признаков. Также следует представить ключевые показатели в динамике с планами и фактическими результатами. Именно на этом этапе подбирается формат будущей визуализации.

Визуализация и построение выводов

Каждое исследование должно заканчиваться результатами и выводами. Даже если они негативные, их стоит проговорить и обсудить. При этом правильная постановка задачи, методика проведения сбора данных, правильная интерпретация результатов, выявленные ошибки и многое другое должны послужить базой для последующих исследований.

Время, затрачиваемое аналитиком на каждую фазу, зависит от многих переменных: начиная от опыта работы и уровня знания данных, заканчивая перечнем используемых инструментов и технических характеристик ПК.

Необходимо также понимать, что процесс анализа данных имеет итерационный характер и может быть представлен циклом.

Чтобы сформулировать окончательные выводы, иногда необходимо пройтись по циклу несколько раз. Каждый раз уточняя данные, перестраивая модели обработки и представления данных, получая всё новые знания об анализируемой сущности. Чтобы уменьшить количество итераций этого цикла и время, затрачиваемое на анализ, аналитик должен быть не только специалистом в области Big Data, но и хорошо знать свою предметную область (будь то игровые механики или интернет вещей).

При этом только опыт помогает понять, какие данные и методы анализа нужны в каждом отдельном случае и как интерпретировать результаты.

Выбор диаграмм для визуализации

Чтобы правильно выбрать диаграмму, необходимо в первую очередь сформулировать цель: что конкретно она должна показать. Если целей несколько, возможно, стоит построить отдельную диаграмму для каждой из них.

Джин Желязны в книге «Говори на языке диаграмм» пишет, что (почти) каждая идея может быть выражена с помощью сравнения. Требуется лишь определить тип сравнения данных:

  • покомпонентное: процент от целого;
  • позиционное: соотношение объектов;
  • временное: изменения во времени;
  • частотное: число объектов в интервалах;
  • корреляционное: зависимость между переменными.

Если проводить классификацию по объектам, то можно выделить такие типы визуализации:

  • детерминированные зависимости: графики, диаграммы, временные ряды;
  • статистические распределения: гистограммы, матрицы диаграмм рассеяния, график «ящик с усами»;
  • иерархии: диаграммы связей, дендрограммы;
  • сети: графы, дуговые диаграммы;
  • геовизуализация: карты, картограммы.

Чтобы упростить себе работу, я использую схему по выбору диаграмм Эндрю Абела, в которую внесла некоторые правки и адаптировала под свои задачи.

Оригинальную схему Эндрю Абела можно посмотреть .

Выбор диаграммы на конкретном примере

Мне необходимо было создать дашборд для контроля income/outcome-ресурсов, которые игроки добывают, находят или получают в награду. Это была достаточно сложная задача, требующая собрать воедино несколько таблиц, учесть множество нюансов и не упустить из виду ни одного источника/потребителя ресурсов.

Сначала я расписала, как собрать данные, какие показатели необходимо рассчитать и как именно это сделать, как должна выглядеть визуализация. Затем специалисты из Game BI Department (отвечают за базу данных для всех наших проектов) проверили правильность алгоритма сбора, оптимизировали запрос и сформировали дашборд по моему дизайну.

Для выбора диаграммы я использовала методику, описанную выше.

  1. Сравниваем 2 признака (количество получаемых и затрачиваемых ресурсов) - значит используем столбчатую диаграмму.
  2. У нас несколько источников для получения ресурсов и способов их расхода - поэтому добавляем структуру к столбчатой диаграмме (каждый источник и потребитель обозначаем своим цветом).
  3. Отслеживаем, как изменяется приход и расход ресурсов в зависимости от игрового дня, - горизонтальной оси задаем соответствующий параметр.
  4. Для удобного чтения все income-действия (приход) отображаем сверху горизонтальной оси, а outcome (расход) - снизу. Это позволяет визуально оценить величину разницы.
  5. Чтобы было понятно, в какие периоды жизни игрока возникает профицит, а в какие дефицит того или иного ресурса, накладываем на столбчатую диаграмму линейный график, который визуализирует вычисляемое поле разницы.

Пример выявленного профицита предмета (линейный график выше столбцов).

Пример жизненного цикла ресурса и его перехода из профицитной категории к дефицитной (линейный график ниже горизонтальной оси).

В итоге наша диаграмма показывает приход и расход ресурсов в разные игровые дни и демонстрирует наличие дефицита или профицита ресурсов.

Также мы хотели посмотреть, как на движение ресурсов влияют корректировки баланса игры. Для этого мы дополнили дашборд диаграммой изменения структуры ресурсов во времени, где по горизонтальной оси теперь была выбрана дата. Так мы обеспечили мониторинг жизненного цикла ресурсов в нескольких признаковых разрезах: жизненного цикла игрока и во временном.

Периодичность

Большинство выводов по исследованиям теряют актуальность со временем. Некоторые данные необходимо уточнять ежедневно, некоторые мониторить ежемесячно и т. д. Необходимо сразу четко классифицировать признаки с точки зрения частоты обновления:

  • требующие непрерывного мониторинга (стандартные показатели retention, конверсии и т. п.);
  • данные, динамику которых следует оценивать периодически (результаты А/В-тестов, динамику набора уровней и т. п.).

Опять таки, волшебной таблетки в этой задаче не существует, ведь признаки, которые требуется отслеживать, очень привязаны к предметной области (к жанру игры, реализованным механикам и т. д.).

Автоматизировать этот процесс пока проблематично - разработка инструментов для непрерывного мониторинга абсолютно всех показателей ни к чему хорошему не приведет. Как мы уже говорили, обработка больших объемов данных включает этапы сбора и первичной обработки информации, загрузку в хранилище, анализ данных и предоставление результатов в удобном для восприятия виде. Требование обработки в режиме реального времени делает задачу еще более сложной и ресурсозатратной.

Компьютеры создавались для автоматизации вычислений, но скоро обнаружилось, что счетом дело не ограничивается и их можно использовать как универсальное устройство для работы с данными. Потом были попытки заставить компьютер думать, но менее известны попытки превратить его в интеллектуального помощника, не претендующего на собственный разум, но облегчающего умственную деятельность человека. Ванневар Буш первым облек эту идею в форму гипотетической машины Memex, а идеологически близкие замыслы Дага Энгельбарта воплотились в системе On Line System (NLS). В начале 60-х годов математик и философ Ричард Хэмминг написал: «Назначение компьютера в познании, а не в счете». Однако эти великие благие замыслы оставались нереализованными, поскольку практическая возможность для создания систем, органично сочетающих в себе аналитические способности человека и машины, появилась только сегодня.

Совместно творческий ум человека и способность машины перемалывать огромные объемы данных дают синергетический эффект, оценить который можно, проанализировав последствия проигрыша в 1997 году Гарри Каспарова суперкомпьютеру IBM Deep Blue PowerParallel SP2 с 32 узлами, включающими специальные платы по 8 шахматных спецпроцессоров. После этого поединка гроссмейстер решил, что нужно уравнять шансы и для этого следует позволить игрокам расширить свои аналитические возможности посредством шахматных программ, работающих на ПК. С Deep Blue Каспаров больше не встречался, однако прежде чем Deep Blue был разобран, с ним сыграли еще один матч двое любителей, «вооруженных» обыкновенными ПК. Не будучи гроссмейстерами, не имея серьезной шахматной квалификации, эти двое оказались успешнее чемпиона мира в противоборстве с монстром. Это служит отличной иллюстрацией того, что системы, где функции гармонично разделены между человеком и машиной, могут быть эффективнее полностью автоматизированной системы. Первые признаки этого мы можем наблюдать в бизнес-аналитике, именно здесь - по способу взаимодействия человека с машиной, а не по делению на типы анализируемых данных (структурированные или неструктурированные) - проходит водораздел между старым и новым в бизнес-аналитике.

Открывшаяся возможность продуктивного взаимодействия человека с машиной стала причиной активного подъема в области бизнес-аналитики и в создании новых аналитических платформ . Любой период подъема обычно сопровождается заметными переменами внутри соответствующего сегмента рынка. В данном случае фокус внимания смещается с признанных и хорошо известных технологий, поддерживаемых крупными производителями, на подмножество почти неизвестных в массах технологий Data Discovery (DD) - их иначе называют Visual Analytics (VA) или Visual Data Discovery (VDD), - разрабатываемых в основном небольшими компаниями и отличающихся продвинутыми возможностями взаимодействия человека с машиной. Есть и другие показатели изменений, параллельно с DD и VA активно развиваются еще две группы аналитических технологий: контентная и предиктивная, или предсказательная аналитика (Predictive Analytics, PA).

Область действия визуальной аналитики чрезвычайно велика (рис. 1), но здесь остановимся только на сегментах, связанных с бизнес-аналитикой.

На протяжении всей недолгой истории бизнес-аналитики самое важное место среди используемых методов занимали системы подготовки отчетов (Query and Reporting), суть которых состоит в формулировке запросов, адресованных тем или иным источникам данных, а затем составлении отчетов по их результатам. Все решения Query and Reporting делятся на два больших потока: одни формируют Production Reporting - периодически выпускаемые отчеты, содержащие сведения о производстве, а вторые выдают Business Query and Reporting - оперативные отчеты, рассчитанные на требования менеджмента предприятия. В начале девяностых в дополнение к ним появились системы оперативной аналитической обработки (OnLine Analytical Processing, OLAP). Расплатой за быстрый анализ служит длительная подготовительная процедура - эта категория технологий служит для анализа только тех данных, которые предварительно агрегированы в структурированные многомерные OLAP-кубы. Каждый такой куб содержит всю информацию, которая может потребоваться для ответов на предполагаемые запросы. Необходимость в подготовке куба исключает какую-либо синхронизацию с входным потоком данных. Тем не менее на основе OLAP и близких к ней технологий стали развиваться еще более оперативные средства анализа - например, «директорские пульты управления» (Management Dashboard), снабженные разнообразными приборными панелями, напоминающими капитанский мостик. Утвердилась также концепция «предприятия, работающего в режиме реального времени» (Real Time Enterprise, RTE).

Параллельно со всеми этими средствами в бизнес-аналитике развивались теоретические направления, такие как разработка, или добыча, данных (Data Mining, DM) и предсказательная аналитика. Еще совсем недавно казалось, что именно в DM и PA заложен основной ресурс для развития BI, однако на практике более востребованными оказались интерактивные методы DD, VA и VDD. Именно они теперь оцениваются как наиболее перспективные, хотя силы, которые их создают, на порядки уступают по мощности традиционным игрокам решений бизнес-аналитики.

Предпосылки к изменениям в аналитике

Объяснений тому, что происходит в аналитике, и причин происходящего так много, что приходят на ум слова Дэна Брауна из романа «Ангелы и демоны»: «Одни возносят молитвы Иисусу, другие отправляются в Мекку, а третьи изучают поведение элементарных частиц. В конечном итоге все заняты поиском истины». Поэтому по аналогии разделим взгляды на эволюцию бизнес-аналитики на три группы.

Наиболее популярна и широко растиражирована «менеджерская» точка зрения, ассоциируемая с размышлениями на такие модные темы, как Большие Данные, «очередная промышленная революция», Industry 4.0 и др. Чаще всего говорят о «трех V» аналитики Больших Данных: Volume («объем»); Variety («разнообразие»); Velocity («подвижность»).

Вторую группу взглядов на изменения формируют приверженцы теории управления знаниями (Knowledge Management, KM). Они связывают происходящее с «информационной революцией», разделяя ее на пять этапов восхождения от данных к информации, от информации к знаниям, от знаний к пониманию и интеллекту: операционный - анализируются фрагментарные данные отдельно взятыми аналитиками; консолидированный - большие объемы данных анализируются рабочими группами аналитиков; интеграционный - создается инфраструктура предприятия, которая поддерживает КМ; оптимизационный - для повышения эффективности анализируется корпоративная информация в целом; инновационный - совмещение корпоративного разума и аналитики создает новые ценности.

Согласно третьей точке зрения результатом эволюционного процесса становится переход от общих представлений о предприятии к реальному знанию.

Стоит заметить, что первые две точки зрения ближе к культовым, а третья - альтернативная, она, как и в цитате, близка к естественно-научной позиции, в данном случае это системный взгляд, который полезен при рассмотрении самых разных явлений, в частности происходящих в аналитике. Важно, однако, обратить внимание на следующее - у всех систем управления имеется общность независимо от их природы. Об этом писал еще Ноберт Винер, который первым высказал мысль о единстве принципов управления в живых организмах, машинах и организациях. Достойного теоретического продолжения работы Винера не получили, и в реальной практике управление техническими объектами пошло своим путем, а бизнесом - своим. Между двумя классами систем управления - техническими и корпоративными - долгие годы не было общности, более того, возникла разделяющая их на две непересекающиеся области преграда. И это не чья-то злая воля - наличие разделения на определенный временной период совершенно оправданно и закономерно, таковы требования жизни, разделение вызвано существовавшим в прошлом жестким лимитом на компьютерные ресурсы и стремлением использовать имеющиеся средства оптимально, в наибольшей степени удовлетворяя требованиям поставленной задачи. Поскольку есть два типа задач - техническое и корпоративное управление, то возникло, соответственно, два типа решений.

В последующем оказалось, что идея автоматизации управления в бизнесе уступила место банальной обработке данных и была погребена под грузом разного рода рутинных приложений типа ERP, CRM и пр., в которых все построено на учете и контроле, то есть попросту на здравом смысле. Оценка результатов и состояния, принятие решений и все остальное, что образует обратную связь, оказалось вне области автоматизации. Но в реальной жизни никакие системы управления не могут существовать без обратной связи, и на нынешнем уровне автоматизации обратная связь реализуется в умах менеджеров, получающих данные извне и принимающих решение.

Во втором десятилетии XXI века ограничения на используемые ресурсы были практически сняты и открылась возможность для конвергенции технических систем и систем управления бизнесом, причем решающая роль в этом объединительном процессе принадлежит аналитическим системам, которые превратились в рабочий узел цепи обратной связи. Используя аналитические системы, человек с равным успехом может управлять и бизнесом, и технологическими процессами. Вот почему о наступающей эпохе говорят как об «экономике обратной связи» (feedback economy).

Еще до нынешнего взрыва интереса к аналитике возникла концепция предприятия, работающего в режиме реального времени (RTE), ставшая реальностью с появлением новых технологий интеграции приложений - сервисных архитектур, сервисных шин предприятия и систем обработки сложных событий. Изначально предполагалось, что важнейшим компонентом RTE станет аналитика в реальном времени, однако главным импульсом к распространению аналитики стало увеличение объемов данных.

Показательным примером универсального использования аналитики служат средства автоматизации нефтедобычи, где необходимо сочетать управление буровым оборудованием с оценкой рыночной и экономической ситуации, здесь технологическое и бизнес-управление образуют единое целое. Для обмена по Сети данными по скважинам был создан язык Wellsite Information Transfer Standard Markup Language (WITSML), выступающий в роли связующего звена между двумя типами систем управления, а сегодня рассматривается возможность его применения в энергетике, на транспорте и в других отраслях. Основным условием применимости таких систем является использование открытых стандартов для обмена данными между системами геолого-технологических исследований, системами контроля процесса бурения, системами геофизических исследований и пакетами моделирования и анализа данных.

Data Discovery

Еще совсем недавно вся дисциплина бизнес-анализа строилась на основе структурированных данных, но с появлением проблемы Больших Данных обострилась необходимость в работе с неструктурированными данными, составляющими свыше 80% всех хранимых данных, причем их количество нарастает на порядок быстрее по сравнению со структурированными данными. Но дело не только в том, что анализируемые данные оказались более разнообразными - после смещения акцента на неструктурированые данные для аналитики складывается совсем иная, чем прежде, перспектива извлечения полезных, но до поры скрытых данных в потоке сведений из самых разнообразных источников. Иными словами, принципиально меняется парадигма. Раньше функция аналитики сводилась к получению ограниченного числа ответов на заранее поставленные вопросы и созданию отчетов, а теперь аналитика превращается в интерактивный процесс общения человека с большими объемами данных через средства превращения сырых данных в полезную информацию. Примечательно, что для этой цели не обязательно мощное и дорогостоящее оборудование.

Чаще всего современную аналитику ассоциируют с двумя смежными направлениями - Data Discovery и Visual Analytics, однако использование двух разных терминов практически для одного и того же запутывает и без того не слишком ясную и перенасыщенную названиями картину, которую образуют технологии, так или иначе относящиеся к аналитике. Чтобы обозначить их место, надо выполнить попытку классификации технологий бизнес-анализа, разделить их, например, на три большие, частично пересекающиеся группы:

  • технологии извлечения информации и знаний (Information and Kowledge Discovery): OLAP, Data Mining, Text Mining, Web Mining и различные механизмы поиска;
  • системы поддержки принятия решений и интеллектуальные системы (Decision Support and Inrelligent Systems): обычные и групповые системы поддержки принятия решений, прикладные методы искусственного интеллекта, экспертные системы, предиктивная аналитика;
  • средства визуализации (Visualization): визуальная аналитика, различного рода «приборные доски» и пульты.

Формально Data Discovery (обнаружение скрытого смысла) явно попадает в первую группу, а Visual Analytics в третью, но у них много общего - упор делается на творческие возможности человека, подкрепленные компьютерными технологиями. Можно предположить, что Data Discovery - более общее понятие, это множество методов работы с данными, а Visual Analytics - скорее средство (пока единственное). Видимо, по этой причине недавно оба направления пошли на сближение, и появилось общее название Visual Data Discovery. Системы такого класса позволяют превратить компьютер в инструмент, усиливающий интеллектуальный потенциал пользователя. VDD еще называют изыскательной (exploratory) или исследовательской (investigative) аналитикой. Первое название в 2007 году предложил специалист по визуализации данных Стивен Фью, понимающий под изыскательной аналитикой поиск смысла, скрытого в данных. Второе было введено в 2011 году известным аналитиком Куртом Монашем для обозначения анализа, выполняемого с целью поиска прежде неизвестного в уже имеющихся данных: скрытые образы, закономерности и другое содержание, которое может быть использовано для принятия решений.

Средства DD более демократичны, они призваны повысить эффективность работы с данными обычного пользователя, потребляющего информацию, а не специалиста в области анализа данных (data scientist), которому доступны сложные аналитические системы и математические методы. В свое время мэйнфреймы были доступны избранным профессионалам, а появление ПК сделало компьютеры доступными каждому, появление DD можно назвать консьюмеризацией бизнес-аналитики.

Как и на заре ПК, лидерами нового течения стали отнюдь не ведущие игроки рынка бизнес-аналитики, а относительно неизвестные компании: QlikTech, Salient Management Company, SiSence, Tableau, Tibco, за которыми пытаются угнаться признанные гранды: MicroStrategy усовершенствовала Visual Insight; SAP, SAS и IBM запустили новые продукты Visual Intelligence, Visual Analytics и Cognos Insight соответственно; а Microsoft дополнила PowerPivot продуктом with Power View.

Артур Конан Дойл наделил Шерлока Холмса способностью делать умозаключения на основе небольшого числа наблюдений, однако при желании те же факты можно интерпретировать иначе и выводы будут иными - слабость дедуктивного метода, используемого великим сыщиком, в его ограниченности. Но если данных достаточно и имеются адекватные инструменты, то можно принимать объективные и вполне обоснованные решения - точность их принятия зависит от объема данных и качества инструмента. Секрет успеха DD прост - эти технологии позволяют принимать решения, основываясь на большем объеме данных.

Цель систем DD - создание средств, которые ориентированы на людей, поддерживают их в работе, открывают человеку возможность использовать свою интуицию при выделении полезной и значимой информации из имеющихся данных. В таком случае складывается следующий цикл: сначала формулируется запрос, ответ на него представляется чаще всего в графической форме, поэтому в DD особое значение имеют технологии визуализации, затем результаты оцениваются и при необходимости цикл повторяется. Отличие от традиционного бизнес-анализа состоит в наглядности представления и скорости - человеку желательно, чтобы режим работы был близок к реальному времени.

Visual Analytics

Начнем с терминологического уточнения, так как есть три схожих термина: Visual Analysis, Visual Data Mining и Visual Analytics - но у каждого свой смысл.

Первым появился Visual Data Mining - примерно так в 2000 году в Европе стали называть интеграцию методов Data Mining с технологиями визуализации. Одна из первых научных школ в этой области сложилась в Университете Кобленца (Германия).

Появление Visual Analytics (рис. 2) датируется 2004 годом - его предложил Джим Томас, один из авторов книги «Освещая путь, программа исследований и разработок по Visual Analytics», выпущенной как программный документ Тихоокеанской северо-западной национальной лаборатории, входящей в число шестнадцати лабораторий Министерства энергетики США. В книге VA определяется как умение мыслить аналитически, поддержанное графическим интерфейсом. Лаборатория была переориентирована на VA по заказу Министерства внутренней безопасности США в рамках программы противодействия террористическим угрозам и к сегодняшнему дню превратилась в крупнейший научный центр, практически полностью специализирующийся на разнообразных аспектах VA, имеющий филиалы в ряде стран; несколько лет назад и лаборатория университета в Кобленце вошла в ее состав.


Visual Analysis имеет как минимум две трактовки. Согласно первой так называют широкой круг междисциплинарных исследований, так или иначе связанных с применением интерактивных визуальных средств для анализа данных. Второе значение распространяется на собственно аналитический компонент Visual Analytics, состоящий из автоматической и интерактивной частей.

Аналитические задачи являются частью самой быстрорастущей из всех областей применения ИТ - средствами автоматического анализа можно решить некоторые из этих задач, они применимы в тех случаях, когда данные строго формализованы и имеются обоснованные критерии их сравнения. Но в реальной жизни и в реальном бизнесе редко соблюдаются такие ограничения, поэтому на помощь приходят методы визуализации данных. Это могут быть самые неожиданные данные - например, сейчас активно развивается область визуализации текстовых данных (возможность вынести достоверное суждение о содержании документов, не прибегая к чтению в деталях). Визуальная аналитика лежит на пересечении этих двух областей.

Хотя за последние 15–20 лет разработано множество методов автоматического анализа данных, вряд ли весь анализ можно будет передать машине, скорее всего, аналитика будет строиться по схеме, показанной на рис. 3. Сначала используются средства автоматического анализа, адаптированные к той или иной сфере применения, они порождают сокращенные по сравнению с исходными объемы данных, к ним применяются методы Data Mining и создается модель, пригодная для дальнейшего исследования. Визуализация и интерактивные технологии позволяют человеку анализировать и совершенствовать эту модель. Большая часть действий выполняется в итерационном режиме последовательного приближения к желаемому результату. В практических реализациях могут присутствовать не все компоненты (рис. 3), но итерационный замкнутый цикл обратной связи будет в любом случае.

Главное достоинство решений Data Discovery и визуальной аналитики состоит в том, что они дают возможность человеку извлечь из данных то, что в них скрыто, или «разговорить» данные, как сказано в книге «Вероятность» Фредерика Мостеллера: «Часто можно услышать, что данные говорят сами за себя, но их голос бывает слишком тих и скромен».

4.1. Звуковое расширенние визуальной аналитики

Одним из современных эффективных методов анализа различных научных данных является метод компьютерной визуализации этих - метод научной визуализации.

Решение задач анализа научных данных методом научной визуализации заключается:

  1. В получении представления анализируемых данных в виде их некоторого графического изображения (задача визуализации исходных данных). Для получения такого графического изображения необходимо данным поставить в соответствие пространственную сцену (совокупность пространственных объектов), а точнее говоря, ее геометрическое и оптическое (текстурное) описания (модели), а затем получить графическое изображение этой пространственной сцены (рендеринг), которое можно вывести на монитор, на принтер и другие устройства вывода для последующего анализа.
  2. В визуальном анализе полученного графического изображения анализируемых данных. При этом результаты анализа интерпретируются по отношению к исходным данным. Эта задача решается непосредственно самим пользователем. Под визуальным анализом графического изображения подразумевается визуальный анализ упомянутой пространственной сцены. Человек может делать суждения о взаимном расположении пространственных объектов, их форме и текстурном покрытии.

Рис. 4.1. Метод звуковой расширенной научной визуализации.

Рассмотрим возможность подключения в процессе визуального анализа другого органа чувств - органа слуха. Для того, чтобы осуществить анализ исходных данных посредством звука, соответственно необходимо:

  1. Получить представления анализируемых данных в виде их некоторого звукового отображения. Для получения такого отображения необходимо дополнить геометрическое и оптическое описание пространственной сцены ее звуковым описанием, и такую звуковую пространственную сцену поставить в соответствие исходным данным, а затем получить звуковое отображение этой пространственной сцены (звуковой рендеринг), которое можно вывести на колонки и другие устройства вывода для последующего анализа.
  2. Проанализировать звуковое отображение и результаты анализа интерпретировать по отношению к исходным данным.
    Важно отметить, что получение как звукового отображения, так и графического изображения, поставленного в соответствие исходным данным для последующего анализа зачастую делает процесс анализа более эффективным.

На рис.4.1 представлена структурная схема алгоритма расширенной визуализации, т.е. совместного получения графического изображения и звукового отображения исходных данных.

Рис. 4.2. Структурная схема алгоритма расширенной научной визуализации.

Такой алгоритм реализуется с использованием компьютера путем написания прикладной программы визуализации на некотором входном языке программирования используемого инструментального средства (совокупности средств) в виде некоторого программного продукта или совокупности программных продуктов.

Рассмотрим основные характеристики метода расширенной научной визуализации применительно к определенному классу задач анализа научных данных, когда в качестве таких данных используются описания тех или иных скалярных полей.

4.2. Звуковая расширенная визуальная аналитика скалярных полей.

Исходные данные

Эти данные представляют собой описание скалярного поля на некотором прямоугольном отсеке трехмерного физического пространства, представленное в файле. В качестве описания используется математическая модель скалярного поля в виде значений функции 3-х переменных вида F(x,y,z) в узлах заданной трехмерной прямоугольной сетки.

Отфильтрованные данные

В качестве отфильтрованных данных используется интерполяционная функции f(x,y,z), использующая значения исходной функции в узлах сетки. Для получения функции f(x,y,z), заданной на рассматриваемой области определения (параллелепипеде) нами была использована трилинейная интерполяция.

Описание пространственной сцены

Это описание включает в себя 3 составляющие:

  1. Описание изоповерхности функции f(x,y,z) в виде: f(x,y,z)=с, при этом совместно принимаемые значения x,y,z принадлежат указанной выше области определения функции f(x,y,z), а с – задаваемое пользователем вещественное число, соответствующее некоторому значению анализируемого скалярного поля.
    Данная изоповерхность является 1-ым компонентом вводимой в рассмотрение пространственной сцены.
  2. Оптическое описание, т.е. описание текстурного покрытия упомянутой изоповерхности, задаваемого пользователем.
  3. Звуковое описание, т.е. описание вводимого в рассмотрение точечного источника звука. Его расположение (значения координат x0,y0,z0) задается пользователем, а частота исходящего звука w связана со значением функции f(x,y,z) следующим образом: w = k*f(x0,y0,z0), где значение коэффициента k задается пользователем.
    Данный точечный источник звука является 2-ым компонентом вводимой в рассмотрение пространственной сцены.

Графическое изображение и звуковое отображение пространственной сцены

Результатом выполнения рендеринга являются соответственно:

  • проекционное графическое изображение изоповерхности на используемом графическом терминале,
  • звуковая волна, генерируемая используемым звуковым терминалом.

Следует пояснить, что частота звуковой волны воспринимается пользователем как тон звука.