Войти в мой кабинет
Регистрация
ГОТОВЫЕ РАБОТЫ / КУРСОВАЯ РАБОТА, ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Классификация веб страниц на основе технологии интеллектуального анализа данных

shahov_2020 650 руб. КУПИТЬ ЭТУ РАБОТУ
Страниц: 74 Заказ написания работы может стоить дешевле
Оригинальность: неизвестно После покупки вы можете повысить уникальность этой работы до 80-100% с помощью сервиса
Размещено: 10.10.2020
Цель данной курсовой работы - исследование способов классификации веб-страниц с помощью существующих методов интеллектуального анализа данных, модификация этих методов, повышения их точности и разработка модели, позволяющей выполнять мультикласовую классификацию веб-страниц с учетом проведенных исследований.
Введение

Сегодня Интернет занимает важную роль в жизни человека. Информационное пространство в сети насчитывает уже миллионы гигабайт данных различного рода и отличается высоким уровнем доступности для пользователей. Легкость создания и редактирования контента в Интернете приводит к распространению нежелательной информации, в частности запрещенного контента. Информация в Интернете отличается высокой динамикой: создание нового контента, его редактирование и удаление занимают несколько секунд. Учитывая количество пользователей, которые могут создавать нежелательный контент, использование традиционных методов выявления и классификации подобной информации становится неудобным. Определение тематики контента веб-страниц является одной из важнейших задач многих интернет-компаний. Например, при корректной классификации можно предлагать пользователю более точную подборку рекламных блоков, в свою очередь позволит повысить продажи как мест размещения рекламных баннеров, так и рекламируемого товара. Кроме того, защита от нежелательной информации также является одной из основных возможных сфер применения классификации контента. Для автоматизации проверки и классификации веб-контента, а также для выявления нежелательных для просмотра веб-страниц и веб-сайтов, можно использовать методы интеллектуального анализа данных. Задача технологии интеллектуального анализа данных - выявить структуры данных и найти закономерности в слабоструктурированных данных. Несмотря на точность классификации, дают существующие методы, можно сделать вывод, что такие методы требуют модификации. Целью работы является исследование способов классификации веб-страниц с помощью существующих моделей, методов и алгоритмов интеллектуального анализа данных, модификация этих методов и повышение их точности. Основными задачами работы являются: - исследования существующих методов и алгоритмов интеллектуального анализа данных; - исследования существующих методик классификации веб-контента; - выбор и изучение инструментов интеллектуального анализа данных; - повышение уровня точности методов классификации веб-контента.
Содержание

ВВЕДЕНИЕ 4 1. Анализ существующих методов фильтрации контента 5 1.1. Методы фильтрации контента 5 1.2. Существующие методики веб-классификации 5 1.3. Постановка задачи дальнейших исследований 6 2.Методы интеллектуального анализа данных для фильтрации контента 7 2.1. Интеллектуальный анализ данных 7 2.2. Задача интеллектуального анализа данных 14 2.3. Методологии ведения проектов интеллектуального анализа данных 20 2.4. Процесс интеллектуального анализа данных 25 2.5. Инструменты интеллектуального анализа данных 30 2.6. Выбор инструмента для разработки модели 33 3. Разработка модели классификации веб-страниц 35 3.1. Классификация веб-страниц 35 3.3. Обучение модели 45 3.3.1. подготовка данных 46 3.3.2. Применение алгоритмов машинного обучения 49 3.4. Разработка методов повышения точности классификации 50 3.4.1. Метод иерархической классификации 52 3.4.2. Метод классификации с помощью «соседних» веб-страниц 53 3.5. Оценка эффективности предложенных методов 55 ВЫВОДЫ 57 Список использованных источников 58 Приложение А. 59 Приложение Б 61 Приложение В 63
Список литературы

1. Контент-фильтр - Режим доступа:https://ru.wikipedia.org/wiki/ 2. Belmouhcine A., Benkhalifa M. Implicit Links based Web Page Representation for Web Page Classification // Proc. of the 5th Intern. conf. on Web Intelligence, Mining and Semantics. Larnaca, Cyprus, 2015. 3. Чубукова И. А. Data mining – Режим доступа: http://lnfm1.sai.msu.ru/~rastor/Books/Chubukova- 4. Солонин Е.Б. Интеллектуальные технологи поиска и анализа данных http://www.study.urfu.ru/Aid/Publication/13334/1/Solonin.pdf 6. Knowledge Discovery in Databases - обнаружение знаний в базах данных - Режим доступа: https://basegroup.ru/community/articles/kdd 7. CRISP-DM // MachineLearning.ru. Профессиональный информационно-аналитический ресурс - http://www.machinelearning.ru/wiki/index.php?title=Crisp-dm 8. Задача Data Mining - Режим доступа: http://studopedia.com.ua/1_11366_zavdannya-data-mining.html 9. Python - Режим доступа: https://ru.wikipedia.org/wiki/Python 10. Оценка классификатора (точность, полнота, F-мера) Режим доступа: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html 11. Sokolova M., Lapalme G. A systematic analysis of performance measures for classification tasks // Information Processing & Management. 2009. 12. Qi X., Davison BD Web page classification: Features and algorithms // Journal ACM Computing Surveys. 2009. 13. Data mining - Режим доступа: https://ru.wikipedia.org/wiki/Data_mining 14. Kwon OW, Lee JH Text categorization based on k-nearest neighbor approach for Web site classification // Inform. Process. Manage. 2003. 15. TF-IDF - Режим доступа: https://ru.wikipedia.org/wiki/TF-IDF 16. Web mining - Режим доступа: https://ru.wikipedia.org/wiki/Web_mining 17. Yanchang Zhao. R and Data Mining: Examples and Case Studies. Elsevier, 2012. 18. Интеллектуальный анализ данных. Классификация и регрессия - Режим доступа: http://ukrbukva.net/print:page,1,44734-intellektual-nyiy-analiz-dannyh-klassifikaciya-i-regressiya.html 19. Построение модели и алгоритма кластеризации в интеллектуальном анализе данных - Режим доступа: https://cyberleninka.ru/article/v/postroenie-modeli-i-algoritma-klasterizatsii-v-intellektualnom-analize-dannyh
Отрывок из работы

1. Анализ существующих методов фильтрации контента 1.1. Методы фильтрации контента Под фильтрацией контента имеется в виду программное обеспечение, которое позволяет ограничить доступ к нежелательному контенту в сети для определенного круга людей. Чаще всего фильтрация контента происходит на уровне веб-запросов протокола HTTP. В таком случае URL сайта сравнивается с «черным» списком, для такого сравнения обычно используются регулярные выражения. «Черные» списки нужно часто обновлять, ведь в противном случае защита с их помощью становится малоэффективным. Наиболее качественными являются методы классификации и обработки естественного языка. В таком случае классификация веб-сайтов выполняется с помощью анализатора количества ключевых слов по различным признакам. Свойства, получаемые из текста, используются для определения степени вероятности соответствия нежелательным категориям. В случае, когда вероятность становится выше установленных значений, происходит блокировка доступа. Простейшие программы позволяют ввести слова, а система будет вести их поиск вручную. В то же время более сложные программы имеют большой словарь и имеют уже готовую базу ссылок, которые были предварительно классифицированы. Как правило, разработчики обеспечивают периодическое обновление базы ссылок более сложных программ. Если сайт не классифицирован автоматически, то человек просматривает его и присваивает категорию сайта вручную. Понятно, что быстродействие классификации - одна из самых важных требований к программам ограничения доступа. Фильтрация контента - это ограничение доступа пользователей к веб-страницам. Главными методами анализа контента считаются системы тематической классификации содержимого веб-страницы и поиск по ключевым словам (стоп-словами) [1].
Не смогли найти подходящую работу?
Вы можете заказать учебную работу от 100 рублей у наших авторов.
Оформите заказ и авторы начнут откликаться уже через 5 мин!
Похожие работы
Курсовая работа, Информационные технологии, 55 страниц
340 руб.
Курсовая работа, Информационные технологии, 46 страниц
340 руб.
Курсовая работа, Информационные технологии, 17 страниц
150 руб.
Курсовая работа, Информационные технологии, 16 страниц
130 руб.
Служба поддержки сервиса
+7(499)346-70-08
Принимаем к оплате
Способы оплаты
© «Препод24»

Все права защищены

Разработка движка сайта

/slider/1.jpg /slider/2.jpg /slider/3.jpg /slider/4.jpg /slider/5.jpg