Ключевые понятия кластерного анализа
От качества товара зависит ценовой сегмент, в котором будет находиться цена товара. Для распределения товаров по качеству необходимо провести кластерный анализ характеристик товара.
Кластерный анализ (англ. cluster analysis) – многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы [2]. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя [3].
Большинство исследователей склоняются к тому, что впервые термин «кластерный анализ» (англ. cluster – гроздь, сгусток, пучок) был предложен математиком Р. Трионом [2]. Впоследствии возник ряд терминов, которые в настоящее время принято считать синонимами термина «кластерный анализ»: автоматическая классификация, ботриология.
Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии, геологии и других дисциплинах. В биологии кластеризация имеет множество приложений в самых разных областях. Например, в биоинформатике с помощью кластеризации анализируются сложные сети взаимодействующих генов, состоящие порой из сотен или даже тысяч элементов.
Кластерный анализ позволяет выделить подсети, узкие места, концентраторы и другие скрытые свойства изучаемой системы, что позволяет, в конечном счете, узнать вклад каждого гена в формирование изучаемого феномена [4].
В области экологии широко применяется для выделения пространственно однородных групп организмов, сообществ и т. п. Реже методы кластерного анализа применяются для исследования сообществ во времени. Гетерогенность структуры сообществ приводит к возникновению нетривиальных методов кластерного анализа.
В общем, стоит отметить, что исторически сложилось так, что в качестве мер близости в биологии чаще используются меры сходства, а не меры различия (расстояния).
Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа[5]. На рисунке 1 показано графическое представление кластеризации.
Рисунок 1 Графическая интерпретация кластеризации
Каждый кластер выделен уникальным цветом, элемент имеет личный номер, что позволяет работать с множеством элементов внутри каждого кластера и элементами в общем.
Принадлежность элемента к определенному кластеру описывается вероятностью принадлежности – отношению числа благоприятных исходов к общему количеству исходов. Кластеры образуют собой набор данных, поэтому любой элемент принадлежит ко всем к кластерам, но с разной вероятностью. Элемент относится к кластеру, вероятность принадлежности к которому наивысшая.
Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:
• отбор выборки для кластеризации;
• определение множества переменных, по которым будут