Войти в мой кабинет
Регистрация
ГОТОВЫЕ РАБОТЫ / КУРСОВАЯ РАБОТА, РАЗНОЕ

Технологии обработки данных для агрегации данных отраслевой статистики из различных источников

stitova 350 руб. КУПИТЬ ЭТУ РАБОТУ
Страниц: 24 Заказ написания работы может стоить дешевле
Оригинальность: неизвестно После покупки вы можете повысить уникальность этой работы до 80-100% с помощью сервиса
Размещено: 29.04.2022
В данной курсовой работе была реализована интеграция отраслевой статистики из различных источников данных, а именно с фондовой биржи инструментами python, составление ручного списка компаний на основе выборки компаний, а также данные, полученные с официального сайта OPEC с целью формирования итоговой базы данных для дальнейшего анализа в области энергетики, в частности, для прогнозирования изменения цен на акции компании в зависимости от изменения спроса на нефть.
Введение

За прошедшие несколько лет ценность данных возросла в огромное количество раз и вместе с этим появилось огромное количество требований к этим данным, множество разнообразных инструментов и большая вариация проектов по созданию хранилищ данных и структуризации. Данная потребность возникает ввиду того, что сейчас существует большое количество открытых источников данных, но главной проблемой является именно то, что большинство из них являются так называемыми грязными данными, либо же тяжесть их извлечения. Таким образом, конечной целью данной работы является извлечение данных из первоисточника, их очистка и формирование базы данных с использованием открытых международных источников для дальнейшего анализа в области энергетики. В соответствии с сформулированной выше целью в работе решаются следующие задачи: выбор факторов и соответствующих им источников; организация процесса извлечения данных; преобразование и очистка данных; загрузка итогового датасета в хранилище. Актуальность исследования данной курсовой работы обусловлена современной экономической моделью и желанием иметь возможность предсказывать определенные сигналы.
Содержание

Введение..........................................................................................................................3 I. Первичный отбор факторов и источников...............................................................5 II. Теоретическая часть..................................................................................................9 1. Основные решения интеграции данных..............................................................9 2. Извлечение данных в ETL-процессе...................................................................10 3. Преобразование и выгрузка данных ...................................................................12 III. Практическая часть.................................................................................................16 1. Выбор используемых инструментов...................................................................16 2. Реализация ETL-процесса………….....................................................................19 Заключение.....................................................................................................................23 Список используемых источников..............................................................................24
Список литературы

1. Паклин, Н. Б. Бизнес-аналитика: от данных к знаниям: учебное пособие / Н. Б. Паклин, В. И. Орешков. – 2-е изд., испр. – СПб.: Питер, 2013. – 704 с. 2. Anderson, Carl Creating a Data-driven Organization / Carl Anderson. – 1st edition. – Sebastopol: O'Reilly Media, Inc., 2015. – 160 p. 3. Harenslak, Bas Data Pipelines with Apache Airflow / Bas Harenslak, Julian de Ruiter. – 1st edition. – New York: Manning Publications Co., 2021. – 4 p. ИНТЕРНЕТ-РЕСУРСЫ 1. Котировки акций в реальном времени. URL: https://www.finam.ru/quotes/ 2. Данные OPEC по спросу на нефть URL: https://www.opec.org/opec_web/en/data_graphs/335.html
Отрывок из работы

I. ПЕРВИЧНЫЙ ОТБОР ФАКТОРОВ Самый распространенный метод быстрого получения нужной информации с сайтов – это парсинг, то есть автоматизированный сбор данных с интернет-ресурсов. Процесс парсинга начинается, когда по запросу компьютера с сервера загружается HTML-документ – тот же процесс происходит при загрузке страницы в любом интернет-браузере. Загрузка кода HTML-документа называется скраппингом. Собственно задача парсинга начинается только после этого – по сути она заключается в том, чтобы выделить только на те данные, которые нужны. В этой работе рассматриваются часто используемые библиотеки для скраппинга и парсинга – Beautiful Soup, Ixml и Requests. Первым этапом мы устанавливаем данные библиотеки через терминал с помощью следующих команд: pip install lxml pip install requests pip install beautifulsoup4 Первая библиотека – lxml – позволяет с легкостью обрабатывать полученные xml и html файлы. Библиотека крайне актуальна в контексте обработки big data: она проста в использовании, у нее есть огромная документация, она позволяет быстро обрабатывать большие документы, а также упрощает манипулирование файлами за счёт преобразования первичных данных в типы данных Python. Вторая библиотека – Requests – считается самой популярной: на Github она набрала около 40000 "звёзд". Эта библиотека используется в более чем 20000 проектов в открытом доступе. Ее функционал позволяет с легкостью взаимодействовать с веб-приложениями, используя минимальное количество кода, а также позволяет решать любые задачи, связанные с передачей информации от сервера к пользователю и обратно.
Условия покупки ?
Не смогли найти подходящую работу?
Вы можете заказать учебную работу от 100 рублей у наших авторов.
Оформите заказ и авторы начнут откликаться уже через 5 мин!
Служба поддержки сервиса
+7(499)346-70-08
Принимаем к оплате
Способы оплаты
© «Препод24»

Все права защищены

Разработка движка сайта

/slider/1.jpg /slider/2.jpg /slider/3.jpg /slider/4.jpg /slider/5.jpg