course language
course duration
needed to educate
for credit at your university
Знакомство с технологиям Больших данных, на примере технологии Apache Hadoop. Знакомство с технологиями: HDFS, YARN, Hive, Flume, Solr.
В ходе курса мы получим реальные данные из соц. сети twitter, структурируем их и визуализируем для анализа. Курс разработан НИТУ МИСИС.
В ходе курса вы узнаете о среде для работы с большими данными - Apache Hadoop, а также познакомитесь с двумя основополагающими компонентами фреймворка Apache Hadoop: HDFS - распределенной файловой системой, MapReduce - подходом для обработки большого объема данных.
Вы сможете узнать об основных компонентах экосистемы Apache Hadoop. Узнаете в чем отличие MapReduce от Yarn, и почему появился Spark.
Узнаете что полезного можно получить из интернета. В практической части курсы мы выкачаем данные из twitter, произведем их очистку и обогащение, а после визуализируем.
Присоединяйтесь к Telegram-каналу Онлайн-курсы НИТУ МИСИС или пишите на openedu@misis.ru. Мы ответим на все ваши вопросы.
При прохождении курса студенты будут знакомиться с короткими видеолекциями, выполнять большое количество практических заданий, читать и оценивать работы друг друга, обсуждать наиболее дискуссионные вопросы на форуме.
Spark: The Definitive Guide Big data processing made simple
By Bill Chambers, Matei Zaharia Publisher: O'Reilly Media January 2017
Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale By Tom White Publisher: O'Reilly Media March 2015
Для успешного освоения обучающиеся должны владеть базовыми знаниями языка SQL
Разделы курса:
Определения термина «Большие данные» (Big Data)
Что такое Большие Данные
Предпосылки появления технологий Big Data
Характеристики Big Data
Примеры
Вызовы Big Data
Особенности работы с большими данными
Подходы к архитектуре Big Data систем
Обзор экосистемы Apache Hadoop
Базовые понятия
Apache Hadoop
История появления
Возможности Apache Hadoop
Экосистема Apache Hadoop
Основные компоненты
HDFS
Принцип работы HDFS
Распределенные вычисления
Особенности распределенных вычислений
Парадигма MapReduce
Принцип работы MapReduce
Пример MapReduce - счетчик слов в тексте
MapReduce и YARN
Apache Spark
Введение
Принципы работы Apache Spark
Resilient Distributed Dataset (RDD): возможности и свойства
Доступные операции над RDD
Библиотеки Spark
Получение данных
Введение Flume
Принцип работы
Source
Channel
Sink
SQL on Hadoop
Hive
Форматы хранения
Компрессия
UDF
Визуализация данных
Обзор способов визуализации
Apache Zeppelin
Cloudera Search (Solr + Hue)
Прочие компоненты экосистемы Hadoop
Sqoop
Nutch
Hbase
Zookeeper
Oozie
Pig
Impala
Практическая часть - анализ данных twitter
В результате освоения курса у обучающихся формируются следующие конечные результаты:
Знать:
Определение и характеристики Больших Данных (Big Data)
Архитектуру решений на основе Big Data
Что такое Apache hadoop
Что такое Hdfs и MapReduce
Различия в версиях MapReduce 1 и MapReduce 2
Что такое Spark
Основные компоненты экосистемы Hadoop
Уметь:
загружать данные в Apache Hadoop
создавать Hive таблицы над json данными
обращаться к Hive таблицам из pySpark
выполнять обработку данных используя Spark
загружать данные в Cloudera Search
анализировать данные используя Cloudera Search
Курс направлен на формирование общепрофессиональных компетенций:
course language
course duration
needed to educate
for credit at your university
Position: Технический менеджер YTsaurus, Яндекс. Эксперт кафедры «Магистерская школа информационных бизнес систем» НИТУ МИСИС