Онлайн поддержка
Все операторы заняты. Пожалуйста, оставьте свои контакты и ваш вопрос, мы с вами свяжемся!
ВАШЕ ИМЯ
ВАШ EMAIL
СООБЩЕНИЕ
* Пожалуйста, указывайте в сообщении номер вашего заказа (если есть)

Войти в мой кабинет
Регистрация
ГОТОВЫЕ РАБОТЫ / КУРСОВАЯ РАБОТА, ИНФОРМАТИКА

Кластеризация больших данных

baby_devochka 336 руб. КУПИТЬ ЭТУ РАБОТУ
Страниц: 28 Заказ написания работы может стоить дешевле
Оригинальность: неизвестно После покупки вы можете повысить уникальность этой работы до 80-100% с помощью сервиса
Размещено: 09.07.2022
Данный труд посвящен к исследованию методов и алгоритмов кластеризации, обширно применяемых в концепции системы интеллектуального анализа данных. Интеллектуальный анализ данных подразумевает поиск сложных закономерностей, сокрытых в массе информации, что дает возможность приобрести ранее не известные сведения об исследуемых объектах. Отдельная заинтересованность к аналитическим методам проявлялся при разработке средств сбора и также хранения данных, которые позволяют к себе копить большие объемы данных. Популярные статистические методы компенсируют только часть потребностей обрабатывания собранных данных, их применение требует точного понятия об искомых выборках. В такой ситуации особенно важны методы интеллектуального анализа данных. Их главной особенностью является определение присутствия и характера сокрытых закономерностей, в то время как классические методы имеют дело в основном с параметрической оценкой ранее определенных правил. Из числа способов интеллектуального анализа данных заметную роль берет кластеризация. Кластеризация образовывает подмножества (кластеры), в которые сгруппировываются входные данные на основных принципах введенного отношения подобия компонентов.
Введение

В наш век, когда технологии развиваются, изучение способов хранения информации необходимо в большинстве областей. Будь то медицина, наука, политика, все требует хранения и обработки данных. Концепция больших данных достаточно современна и показывает, как информация была перенесена из обычных данных в большие данные. Если для хранения предыдущей информации требовался небольшой объем данных, то современным серверам, компьютерам и даже носителям информации с каждым годом требуется все больше места. В связи с этим обработка объема хранимой информации требует большего количества мультимедийных возможностей. Одним из первых видимых трудов по кластеризации считается теория систематизации, а также классификации, предложенный французским ботаником Огюстеном Пирамом Декандолем в 1813 г. с целью систематизации растений. Данная теория получила название таксономия. Задача Декандоля заключалась для того, чтобы показать и классифицировать все растения на нашей планете. Конкретно с этими задачами он изобрел данную систему классификации, в соответствии, с которой любое растение должно было относиться к ряду таксонов, к поочередным рангам (вид, род, семейство, класс), где таксон является группой дискретных объектов, связанных к этому уровню общности свойств и признаков, предоставляющую конкретную таксономическую группу. Хотя таксономия в начале и использовалась только в биологии, однако позже она стала применяться во многих иных науках, которые имели дело с иерархически упорядоченными множествами объектов. На заре собственного формирования таксономия была изолированной теорией и служила лишь предшественницей кластерного анализа. Современная таксономия вытекает как одно из направлений кластеризации. Начальное развитие кластерного анализа как самостоятельной дисциплины относится к началу двадцатого века. Одной из первых 9 публикаций на данную тему считается публикация, которая была написана в 1911 году польским антропологом Чекановским Я. В.. В собственном труде он внедряет понятие «структурная классификация», который содержит в себе главную идею кластерного анализа — выделение компактных групп близких объектов, а также некоторые способы определения подобных групп, составляющие основу новых алгоритмов. Данный метод подразумевает обрабатывание информации вплоть до проектирования машин, однако отчасти это является основой для дальнейшего развития этого направления. Последующим существенным шагом в развитии кластерного анализа стал «метод корреляционных плеяд», разработанный советским гидробиологом П.В. Терентьев в 1925 году. Но данный метод возник лишь много лет спустя, в 1959 году. Сначала этот метод использовался только для кластерного анализа признаков, а не объектов. термин «кластерный анализ» в первый раз был установлен и применен британским ученым Р. Трайоном лишь в 1939 г.
Содержание

Введение 3 Глава 1. Метод кластеризации 4 1.1 Классификация задач кластеризации 6 1.2 Основные цели кластерного анализа 7 1.3 Формальная постановка задачи кластерного анализа 7 Глава 2. Методы анализа данных 11 2.1 Алгоритм k-means(k-средних) 11 Глава 3. Реализация алгоритма k-средних 11 Заключение 25 Литература 26
Список литературы

1 Халафян А.А. Статистический анализ данных. Краснодар, 2003, 192 с. 2 Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1989, 607 с. 3 Барсегян А.А., Куприянов М.С. технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. Изд.: БХВ-Петербург, 2007, 384 с. 4 Anastasia A. Egorova, Data Mining using the Theory Cooperative Games in C-core to form clusters 2019 J. Phys.: Conf. Ser. 1392 012033. 5 Мандель И. Д.Кластерный анализ. — М.: Финансы и статистика, 1988, 176 с. 6 Загоруйко Н. Г.Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999, 270 с. 7 Дюран Б., Оделл П.Кластерный анализ. — М.: Статистика,
Отрывок из работы

Глава 1.Метод кластеризации Равно как и многочисленные другие концепции в науке, кластеризация обладает большое количеств разных определений и интерпретаций. Многие эксперты выделяют следующее Кластер - группа однородных элементов, характеризуемых общим свойством. Однородность кластеров означает, что объекты, отнесенные к одному кластеру, должны быть схожи (близки) относительно выбранной метрики. Объекты из разных кластеров должны существенно отличаться. Данная задача называется задачей кластеризации данных. Общее использования кластерного анализа ограничивается соответствующими шагами: - выбор подборки объектов для кластеризации; -определение набора переменных, согласно которым оцениваются объекты подборки. При надобности нормализовать значения переменных; - вычисление значений сходства между объектами; - использование метода кластерного анализа для формирования кластеров однотипных объектов; - предоставление результатов анализа. Необходимо выделить, то что применяя различные методы кластерного анализа, можно получить кластеры различной формы. К примеру, вероятны кластеры вида «цепочка», в случае когда кластеры разбиты на длинные «цепочки», вытянутые кластеры и так далее, а определенные методы могут создавать кластеры любой формы. Разнообразные методы имеют все шансы быть нацелены на формирование кластеров конкретного размера или могут подразумевать кластеры различных размеров в наборе данных. Из-за использования разных методов кластеризации могут быть получены различные результаты, что представляют собой обычным явлением и также характерной чертой работы этого алгоритма. Подобные характеристики следует учитывать при выборе метода кластеризации. Имеется ряд методов кластеризации для решения этой проблемы. трудность состоит в том, что в начале анализа не имелось практически никакой дополнительной информации о данных. В данном отношении потенциальный набор решений сопоставим с входным набором по производительности, что на практике способен побудить трудности. Решения задач через методы кластеризации широко распространено, по этой причине в наше время имеется более ста разных алгоритмов кластеризации, однако в данной работе зачастую применяются два метода — иерархический кластерный анализ и k-кластеризация. ? 1.1 Классификация задач кластеризации Кластерный анализ осуществляет следующие основные задачи: - создание типологии либо классификации; - исследование нужных концептуальных схем группировки объектов; - генерация гипотез на основе изучения данных; - Проверка гипотез или исследований с целью определения того, действительно ли на самом деле выявленные так или иначе типы (группы) присутствуют в имеющихся данных. Вне зависимости от предмета исследования использование кластерного анализа состоит из следующих этапов: - выбор подборки с целью кластеризации. Очевидно, что необходимо кластеризовать исключительно количественные данные; - определение набора переменных, по которым оцениваются объекты выборки, т.е. атрибутивного пространства; - вычисление значений той или иной меры сходства (или различия) между объектами; - применение метода кластерного анализа для создания групп похожих объектов; - проверка достоверности результатов кластерного решения. Уже после извлечения и анализа результатов возможно модифицировать выбранные метрики и метод кластеризации с целью достижения оптимального результата. 1.2 Основные понятия и сведения кластерного анализа. Сначала введем подобные понятия, как объект и признак. Объект - от латинского objectum - предмет. Употребляется к химии и биологии, под предметами, будут пониматься определенные предметы обследования, исследуемые физическими, химическими и другими методами. Подобными примерами таких объектов являются ДНК, микробы, живность и т. д. Определенный набор объектов, доступных человеку, который исследует это, называется выборкой или набором выборок. Количество объектов в таком множестве установлено называть объемом выборки. Как правило размер выборки обозначается латинской буквой «n» или «N». Признак (синонимы — свойство, переменная, характеристика; англ. — variable — переменная.) — своеобразное свойство объекта [7]. Данные свойства имеют все шансы быть выражены как числовые или нечисловые значения. К примеру, артериальное давление (систолическое или диастолическое) мерят в миллиметрах ртутного столба, длину прыжка в метрах, напряжение в вольтах и так далее. Подобные свойства считаются количественными. Не так как у данных непрерывных числовых данных (шкал), многие характеристики могут иметь дискретные, прерывистые значения. Однако подобные дискретные признаки обычно делят на 2-е категории. 1) Первая категория – ранговые переменные, или как их еще именуют порядковые переменные (шкалы). Такие сигналы характеризуются тем свойством, что они сортируются. Например, работа "интересна", "безразлична" или "не интересна". 2) Вторая категории дискретных характеристик такого порядка не имеет и называется номинальной (от слова «номинал») или классификационной характеристикой. К примерам номинальных переменных включают регион, почтовый индекс или религию. В таких случаях принято говорить, что такие свойства относятся к именной шкале. Представление объекта и функции обычно называют матрицей «свойство объекта» или «признак объекта». Матрица будет представлять собой таблицу, содержащую значения характеристик, описывающих свойства наблюдаемой выборки исследуемых данных. При этом наблюдение записывается как отдельная строка, содержащей значения применяемых характеристик. Отдельным признаком такого рода матрицы данных является столбец, содержащий значения этого свойства для всех объектов выборки [8]. Введем термин «расстояние между объектами». Это понятие является интегральной мерой подобия объектов меж собою. Расстояние меж объектами в пространстве признаков называют значением dij, которая удовлетворяет следующим аксиомам: dij > 0 (неотрицательность расстояния) dij = dji (симметрия) dij + djk > dik (неравенство треугольника) Если dij не равно 0, то i не равно j (различимость нетождественных объектов) Если dij = 0, то i = j (неразличимость тождественных объектов) Целеесообразно представлять степень близости (сходства) объектов как обратную величину расстояния между объектами. Во многих публикациях по кластерному анализу представлено более пятидесяти различных методов расчета расстояния между объектами. Помимо термина «расстояние», в научных работах, часто встречается еще один термин — «метрика», под которым понимается способ расчета заданного расстояния. так называемое «евклидово расстояние» или «евклидова метрика» [9] — лучший способ восприятия и понимания количественных характеристик. Формула расчета расстояния выглядит следующим образом: d_ij=?(?_(k=1)^v-(x_ik-x_jk )^2 )?^(1/2) (1.1) В данной формуле использованы следующие обозначения: dij - расстояние между i-тым и j-тым объектами; xik - численное значение k-той переменной для i-того объекта; xjk - численное значение k-той переменной для j-того объекта; v - количество переменных, которыми описываются объекты. Зачастую применяют его квадрат вместо обыкновенного евклидова расстояния d2ij. Помимо этого, иногда применяется "взвешенное" евклидово расстояние, при вычислении которого для отдельных слагаемых используются весовые коэффициенты. Для наглядности определения евклидовой метрики применяем несложный пример. Матрица данных, нижепроведенной в таблице, состоящей из пяти опытов и 2 – ух переменных. Матрица данных из пяти опытных проб и двух переменных представлена в таблице 1.1 Таблица 1.1 Матрица опыта Применяя евклидову метрику, подсчитаем матрицу расстояний между объектами, которые состоят из величин dij - расстояние между i-тым и j-тым объектами. В нашем случае i и j — номер объекта, опыта. Так как размер выборки равен пяти, значения i и j могут варьироваться от одного до пяти. Несомненно, что число абсолютно всех возможных попарных расстояний будет равно 5*5=25. Фактически, для первого объекта данные станут следующие расстояния: 1-1; 1-2; 1-3; 1-4; 1-5. Также, станут пять возможных расстояний от объекта два: 2-1; 2-2; 2-3; 2-4; 2-5 и т.д. Но количество разных расстояний будет строго меньше двадцати пяти, так как следует учитывать неразличимость одних и тех же объектов - dij = 0 при i = j. Это значит, что расстояние между объектом 1 и таким же объектом №1 будет равно нулю. Подобные нулевые расстояния будут и для абсолютно всех остальных случаев i = j. Помимо этого, из свойства симметрии следует, что dij = dji для всех возможных i и j. То есть расстояние между объектами №1 и №2 равняется расстоянию между объектами №2 и №1. Формула для евклидова расстояния очень похоже на так называемое обобщенное степенное расстояние Минковского, в котором степени применяют иные значение вместо 2-ух. Как правило, это значение обозначается символом «?». При ? = 2 получаем то же Евклидово расстояние. Таким образом выражение для обобщенной метрики Минковского имеет вид: d_ij=?(?_(k=1)^v-??|x_ik-x_jk |?^p)??^(1/p) (1.2) Конкретное значение показателя степени «?» выбирает человек, который проводит опыт. Частным случаем расстояния Минковского считается так называемое манхэттенское расстояние, или «расстояние городского квартала», которое соответствует ? = 1: d_ij=?_(k=1)^v-|x_ik-x_jk |^ (1.3) Подобным образом, манхэттенское расстояние представляет собой сумму модулей разностей определенных характеристик объектов. Если будет ? стремиться к бесконечности, мы получим метрику «доминирования», или Sup-метрику: d_ij=?(?_(k=1)^v-?|x_ik-x_jk |^?)??^(1/?) (1.4) которую можно представить также в виде d_ij=max?|x_ik-x_jk |. Метрика Минковского на самом деле представляет из себя большое семейство метрик, включая самые популярные метрики. Тем не менее, существуют методы расчета расстояния между объектами, принципиально отличные от метрики Минковского. Важнейшим из них является так называемое расстояние Махаланобиса, обладающее довольно характерными свойствами. Выражение для этой метрики: d_ij=(X_i-X_j )^T S^(-1) (X_i-X_j ) (1.5) Тут посредством Xi и Xj обозначены вектор-столбцы значений переменных для i-того и j-того объектов. Символ T в выражении (Xi - Xj)Т указывает на так называемую операцию транспонирования векторов. Символ S обозначает дисперсионно-ковариационную матрицу внутри общей группы. Символ -1 над S обозначает, что матрица S должна быть инвертирована. В отличие от метрики Минковского и евклидовой метрики, расстояние Махаланобиса через матрицу S дисперсии-ковариации связано с корреляциями переменных. Если корреляция меж переменными равна 0, то расстояние Махаланобиса равняется квадрату евклидова расстояния. Расстояние Хэмминга широко используется при использовании дихотомических (только с двумя значениями) качественных характеристик d_ij=?_(k=1)^v-?|x_ik-x_jk |?^ (1.6) равных количеству различий значений соответствующих характеристик i-го и j-го объектов.
Условия покупки ?
Не смогли найти подходящую работу?
Вы можете заказать учебную работу от 100 рублей у наших авторов.
Оформите заказ и авторы начнут откликаться уже через 5 мин!
Похожие работы
Курсовая работа, Информатика, 23 страницы
500 руб.
Курсовая работа, Информатика, 21 страница
300 руб.
Курсовая работа, Информатика, 19 страниц
300 руб.
Курсовая работа, Информатика, 29 страниц
250 руб.
Служба поддержки сервиса
+7 (499) 346-70-XX
Принимаем к оплате
Способы оплаты
© «Препод24»

Все права защищены

Разработка движка сайта

/slider/1.jpg /slider/2.jpg /slider/3.jpg /slider/4.jpg /slider/5.jpg