Введение в инженерию больших данных

Старт через 32 дня

31 день

До начала записи

Русский
язык курса
10 недель
длительность курса
от 1 до 2 часов в неделю
понадобится для освоения
2 зачётных единицы
для зачета в своем вузе

Знакомство с технологиям Больших данных, на примере технологии Apache Hadoop. Знакомство с технологиями: HDFS, YARN, Hive, Flume, Solr.

В ходе курса мы получим реальные данные из соц. сети twitter, структурируем их и визуализируем для анализа. Курс разработан НИТУ МИСИС.

О курсе

В ходе курса вы узнаете о среде для работы с большими данными - Apache Hadoop, а также познакомитесь с двумя основополагающими компонентами фреймворка Apache Hadoop: HDFS - распределенной файловой системой, MapReduce - подходом для обработки большого объема данных.

Вы сможете узнать об основных компонентах экосистемы Apache Hadoop. Узнаете в чем отличие MapReduce от Yarn, и почему появился Spark.

Узнаете что полезного можно получить из интернета. В практической части курсы мы выкачаем данные из twitter, произведем их очистку и обогащение, а после визуализируем.

Присоединяйтесь к Telegram-каналу Онлайн-курсы НИТУ МИСИС или пишите на openedu@misis.ru. Мы ответим на все ваши вопросы.

Формат

При прохождении курса студенты будут знакомиться с короткими видеолекциями, выполнять большое количество практических заданий, читать и оценивать работы друг друга, обсуждать наиболее дискуссионные вопросы на форуме.

Информационные ресурсы

Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale By Tom White Publisher: O'Reilly Media March, 2015
Spark: The Definitive Guide Big data processing made simple By Bill Chambers, Matei Zaharia Publisher: O'Reilly Media January, 2017

Требования

Для успешного освоения обучающиеся должны владеть базовыми знаниями языка SQL

Программа курса

Курс состоит из 5 разделов и 10 недель обучения:

Раздел 1. Что такое Big Data
1.1 Знакомство с технологиями Big Data
1.2 Что такое Big Data + возможности
1.3 Что такое Big Data - Сложности

Раздел 2. Ключевые технологии и подходы
2.1 - 2.3 Ключевые технологии и подходы

Раздел 3. Инструменты получения данных
3.1 Инструменты получения данных
3.2 А что если данные лежат в базе данных?
3.3 Apache Flume и Apache Kafka

Раздел 4. Обработка данных
4.1 Обработка данных в Apache Spark
4.2 - 4.4 Обработка данных
4.5 Apache Hive
4.6 Cloudera Impala

Раздел 5. Хранение данных
5.1 Хранение данных
5.2 Apache Solr

Результаты обучения

В результате освоения курса у обучающихся формируются следующие компетенции:

владеет основными понятиями и характеристиками больших данных
знает основные компоненты Apache Hadoop
знаком с HDFS и MapReduce

Формируемые компетенции

Курс направлен на формирование общепрофессиональных компетенций:

ОПК-2 - Способен разрабатывать оригинальные алгоритмы и программные средства, в том числе с использованием современных интеллектуальных технологий, для решения профессиональных задач

ОПК-4 - Способен применять на практике новые научные принципы и методы исследований

Направления подготовки

09.00.00 Информатика и вычислительная техника
Курс может быть использован как курс ДПО. Курс может быть включен в магистерскую программу онлайн-образования.