Используя метод кластерного анализа применим технологию интеллектуального анализа данных на примере исследования базы гостей ресторана Dong Po с целью определения его целевой аудитории с помощью программного продукта STATISTICA – статистического пакета прикладных программ компании StatSoft.
3.2.1 ПРОГРАММНЫЙ ПРОДУКТ STATISTICA
STATISTICA – это система для статистического анализа данных, включающая широкий набор аналитических процедур и методов: более 100 различных типов графиков, описательные и внутригрупповые статистики, разведочный анализ данных, корреляции, быстрые основные статистики и блоковые статистики, интерактивный вероятностный калькулятор, T-критерии (и другие критерии), таблицы частот, сопряженности, флагов и заголовков, анализ многомерных откликов, множественная регрессия, непараметрические статистики, общая модель дисперсионного и ковариационного анализа, подгонка распределений и многое другое.
Исходные данные и результаты обработки представляются в виде привычных электронных таблиц, которые помимо обычных средств работы с данными поддержаны специальными статистическими процедурами и графиками, а реализованный в системе статистический советник позволяет выбрать нужный метод анализа.
Продукты серии STATISTICA основаны на самых современных технологиях, полностью соответствуют последним достижениям в области IT, позволяют решать любые задачи в области анализа и обработки данных, идеально подходят для решения практических задач в маркетинге, финансах, страховании, экономике, бизнесе, промышленности, медицине и т д (Рисунок 34) [19].
Рисунок – 34 Логотип компании [19]
Сердцем STATISTICA Data Miner является браузер процедур Data Mining, который содержит более 300 основных процедур, специально оптимизированных под задачи Data Mining, средства логической связи между ними и управления потоками данных, что позволит конструировать собственные аналитические решения [23].
Интерфейс STATISTICA является интуитивно понятным, легко настраивается в соответствии с пользовательскими задачами и аналогичен интерфейсу стандартных Windows приложений, поэтому легко осваивается пользователем.
Анализ данных проводится интерактивно, в режиме последовательно открывающихся диалоговых окон. Настраивать диалоговые окна гораздо нагляднее чем писать код, как это, например, необходимо в R- Studio, а также STATISTICA не требует дополнительного изучения архитектуры программного обеспечения, что свидетельствует о том, что интерфейс STATISTICA наиболее удобен как для начинающего аналитика, так и для специалиста. Любое окно анализа сконструировано таким образом, что на первой вкладке содержатся только самые необходимые кнопки, а на последующих вкладках – углубленные методы и специальные опции (Рисунок 35) [19].
Рисунок 35 – Рабочее пространство STATISTICA
3.2.2 МЕТОД КЛАСТЕРНОГО АНАЛИЗА
В модуле Кластерный анализ реализован полный набор методов кластерного анализа данных, включая методы k-средних, иерархической кластеризации и двухвходового объединения. Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами [23].
При проведении кластерного анализа пользователь имеет полный контроль над начальным расположением центров кластеров. Помимо стандартных результатов кластерного анализа, в модуле доступен также разнообразный набор описательных статистик и расширенных диагностических методов. Информация о принадлежности объектов к кластерам может быть добавлена к файлу данных и использоваться в дальнейшем анализе. Графические возможности модуля Кластерный анализ включают настраиваемые дендрограммы, двухвходовые диаграммы объединений, графическое представление схемы объединения, диаграмму средних при кластеризации по методу k-средних и многое другое [21].