Введение в инженерию больших данных

Завершён

Русский
язык курса
10 недель
длительность курса
от 1 до 2 часов в неделю
понадобится для освоения
2 зачётных единицы
для зачета в своем вузе

Знакомство с технологиям Больших данных, на примере технологии Apache Hadoop. Знакомство с технологиями: HDFS, YARN, Hive, Flume, Solr.

В ходе курса мы получим реальные данные из соц. сети twitter, структурируем их и визуализируем для анализа. Курс разработан НИТУ МИСИС.

О курсе

В ходе курса вы узнаете о среде для работы с большими данными - Apache Hadoop, а также познакомитесь с двумя основополагающими компонентами фреймворка Apache Hadoop: HDFS - распределенной файловой системой, MapReduce - подходом для обработки большого объема данных.

Вы сможете узнать об основных компонентах экосистемы Apache Hadoop. Узнаете в чем отличие MapReduce от Yarn, и почему появился Spark.

Узнаете что полезного можно получить из интернета. В практической части курсы мы выкачаем данные из twitter, произведем их очистку и обогащение, а после визуализируем.

Присоединяйтесь к Telegram-каналу Онлайн-курсы НИТУ МИСИС или пишите на openedu@misis.ru. Мы ответим на все ваши вопросы.

Формат

При прохождении курса студенты будут знакомиться с короткими видеолекциями, выполнять большое количество практических заданий, читать и оценивать работы друг друга, обсуждать наиболее дискуссионные вопросы на форуме.

Информационные ресурсы

Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale By Tom White Publisher: O'Reilly Media March, 2015
Spark: The Definitive Guide Big data processing made simple By Bill Chambers, Matei Zaharia Publisher: O'Reilly Media January, 2017

Требования

Для успешного освоения обучающиеся должны владеть базовыми знаниями языка SQL

Программа курса

Курс состоит из 8 разделов и 10 недель обучения:

Определения термина «Большие данные» (Big Data)
1. Что такое Большие Данные
2. Предпосылки появления технологий Big Data
3. Характеристики Big Data
4. Примеры
5. Вызовы Big Data
6. Особенности работы с большими данными
7. Подходы к архитектуре Big Data систем
Обзор экосистемы Apache Hadoop
1. Базовые понятия
2. Apache Hadoop
3. История появления
4. Возможности Apache Hadoop
5. Экосистема Apache Hadoop
6. Основные компоненты
7. HDFS
8. Принцип работы HDFS
Распределенные вычисления
1. Особенности распределенных вычислений
2. Парадигма MapReduce
3. Принцип работы MapReduce
4. Пример MapReduce - счетчик слов в тексте
5. MapReduce и YARN
Apache Spark
1. Введение
2. Принципы работы Apache Spark
3. Resilient Distributed Dataset (RDD): возможности и свойства
4. Доступные операции над RDD
5. Библиотеки Spark
Получение данных
1. Введение Flume
2. Принцип работы
3. Source
4. Channel
5. Sink
SQL on Hadoop
1. Hive
2. Форматы хранения
3. Компрессия
4. UDF
Визуализация данных
1. Обзор способов визуализации
2. Apache Zeppelin
3. Cloudera Search (Solr + Hue)
Прочие компоненты экосистемы Hadoop
1. Sqoop
2. Nutch
3. Hbase
4. Zookeeper
5. Oozie
6. Pig
7. Impala

Результаты обучения

В результате освоения курса у обучающихся формируются следующие компетенции:

владеет основными понятиями и характеристиками больших данных
знает основные компоненты Apache Hadoop
знаком с HDFS и MapReduce

Формируемые компетенции

Курс направлен на формирование общепрофессиональных компетенций:

ОПК-2 - Способен разрабатывать оригинальные алгоритмы и программные средства, в том числе с использованием современных интеллектуальных технологий, для решения профессиональных задач

ОПК-4 - Способен применять на практике новые научные принципы и методы исследований

Направления подготовки

09.00.00 Информатика и вычислительная техника
Курс может быть использован как курс ДПО. Курс может быть включен в магистерскую программу онлайн-образования.