наверх

Аналитика больших данных

29 октября 2018 - 27 января 2019 г.
Старт через 8 дней
40 дней
До конца записи
  • 8 недель

    длительность курса

  • 2 зачётных единицы

    для зачета в своем вузе

Знакомство с технологиям Больших данных, на примере технологии Apache Hadoop. Знакомство с технологиями: HDFS, YARN, Hive, Flume, Solr.

В ходе курса мы получим реальные данные из соц. сети twitter, структурируем их и визуализируем для анализа.

О курсе

В ходе курса вы узнаете о среде для работы с большими данными - Apache Hadoop, а также познакомитесь с двумя основополагающими компонентами фреймворка Apache Hadoop: HDFS - распределенной файловой системой, MapReduce - подходом для обработки большого объема данных.

Вы сможете узнать об основных компонентах экосистемы Apache Hadoop. Узнаете в чем отличие MapReduce от Yarn, и почему появился Spark.

Узнаем что полезного можно получить из интернета. В практической части курсы мы выкачаем данные из twitter, произведем их очистку и обогащение, а после визуализируем.

Формат

При прохождении курса студенты будут знакомиться с короткими видеолекциями, выполнять большое количество практических заданий, читать и оценивать работы друг друга, обсуждать наиболее дискуссионные вопросы на форуме.

  • Spark: The Definitive Guide Big data processing made simple
    By Bill Chambers, Matei Zaharia Publisher: O'Reilly Media January 2017

  • Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale By Tom White Publisher: O'Reilly Media March 2015

Требования

Для успешного освоения обучающиеся должны владеть базовыми знаниями языка SQL

Программа курса

Разделы курса:

  1. Определения термина «Большие данные» (Big Data)

    1. Что такое Большие Данные

    2. Предпосылки появления технологий Big Data

    3. Характеристики Big Data

    4. Примеры

    5. Вызовы Big Data

    6. Особенности работы с большими данными

    7. Подходы к архитектуре Big Data систем

  2. Обзор экосистемы Apache Hadoop

    1. Базовые понятия

    2. Apache Hadoop

    3. История появления

    4. Возможности Apache Hadoop

    5. Экосистема Apache Hadoop

    6. Основные компоненты

    7. HDFS

    8. Принцип работы HDFS

  3. Распределенные вычисления

    1. Особенности распределенных вычислений

    2. Парадигма MapReduce

    3. Принцип работы MapReduce

    4. Пример MapReduce - счетчик слов в тексте

    5. MapReduce и YARN

  4. Apache Spark

    1. Введение

    2. Принципы работы Apache Spark

    3. Resilient Distributed Dataset (RDD): возможности и свойства

    4. Доступные операции над RDD

    5. Библиотеки Spark

  5. Получение данных

    1. Введение Flume

    2. Принцип работы

    3. Source

    4. Channel

    5. Sink

  6. SQL on Hadoop

    1. Hive

    2. Форматы хранения

    3. Компрессия

    4. UDF

  7. Визуализация данных

    1. Обзор способов визуализации

    2. Apache Zeppelin

    3. Cloudera Search (Solr + Hue)

  8. Прочие компоненты экосистемы Hadoop

    1. Sqoop

    2. Nutch

    3. Hbase

    4. Zookeeper

    5. Oozie

    6. Pig

    7. Impala

 

Практическая часть - анализ данных twitter

Результаты обучения

В результате освоения курса у обучающихся формируются следующие конечные результаты:

 

Знать:

  • Определение и характеристики Больших Данных (Big Data)

  • Архитектуру решений на основе Big Data

  • Что такое Apache hadoop

  • Что такое Hdfs и MapReduce

  • Различия в версиях MapReduce 1 и MapReduce 2

  • Что такое Spark

  • Основные компоненты экосистемы Hadoop

Уметь:

  • загружать данные в Apache Hadoop

  • создавать Hive таблицы над json данными

  • обращаться к Hive таблицам из pySpark

  • выполнять обработку данных используя Spark

  • загружать данные в Cloudera Search

  • анализировать данные используя Cloudera Search

Направления подготовки

09.00.00 Информатика и вычислительная техника
Курс может быть включен в предмагистерскую программу обучения Курс имеет поддержку со стороны института ИБСС Курс может быть использован как курс ДПО Курс может быть включен в магистерскую программу онлайн-образования

Ривкин Андрей Маркович


Должность: Начальник отдела по технологиям больших данных

Похожие курсы