up
  • Russian

    course language

  • 10 weeks

    course duration

  • от 1 до 2 часов в неделю

    needed to educate

  • 2 credit points

    for credit at your university

Знакомство с технологиям Больших данных, на примере технологии Apache Hadoop. Знакомство с технологиями: HDFS, YARN, Hive, Flume, Solr.

В ходе курса мы получим реальные данные из соц. сети twitter, структурируем их и визуализируем для анализа.  Курс разработан НИТУ «МИСиС»

About

В ходе курса вы узнаете о среде для работы с большими данными - Apache Hadoop, а также познакомитесь с двумя основополагающими компонентами фреймворка Apache Hadoop: HDFS - распределенной файловой системой, MapReduce - подходом для обработки большого объема данных.

Вы сможете узнать об основных компонентах экосистемы Apache Hadoop. Узнаете в чем отличие MapReduce от Yarn, и почему появился Spark.

Узнаете что полезного можно получить из интернета. В практической части курсы мы выкачаем данные из twitter, произведем их очистку и обогащение, а после визуализируем.

Format

При прохождении курса студенты будут знакомиться с короткими видеолекциями, выполнять большое количество практических заданий, читать и оценивать работы друг друга, обсуждать наиболее дискуссионные вопросы на форуме.

  1. Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale By Tom White Publisher: O'Reilly Media March, 2015

  2. Spark: The Definitive Guide Big data processing made simple By Bill Chambers, Matei Zaharia Publisher: O'Reilly Media January, 2017

Requirements

Для успешного освоения обучающиеся должны владеть базовыми знаниями языка SQL

Course program

Курс состоит из 5 разделов и 10 недель обучения:

Раздел 1. Что такое Big Data
1.1 Знакомство с технологиями Big Data
1.2 Что такое Big Data + возможности
1.3 Что такое Big Data - Сложности

Раздел 2. Ключевые технологии и подходы
2.1 - 2.3 Ключевые технологии и подходы

Раздел 3. Инструменты получения данных
3.1 Инструменты получения данных
3.2 А что если данные лежат в базе данных?
3.3 Apache Flume и Apache Kafka

Раздел 4. Обработка данных
4.1  Обработка данных в Apache Spark
4.2 - 4.4 Обработка данных
4.5 Apache Hive
4.6 Cloudera Impala

Раздел 5. Хранение данных
5.1 Хранение данных
5.2 Apache Solr

Education results

В результате освоения курса у обучающихся формируются следующие компетенции:

  • владеет основными понятиями и характеристиками больших данных

  • знает основные компоненты Apache Hadoop

  • знаком с HDFS и MapReduce

Formed competencies

Курс направлен на формирование общепрофессиональных  компетенций:

ОПК-2 - Способен разрабатывать оригинальные алгоритмы и программные средства, в том числе с использованием современных интеллектуальных технологий, для решения профессиональных задач

ОПК-4 - Способен применять на практике новые научные принципы и методы исследований

Education directions

09.00.00 Информатика и вычислительная техника
Курс может быть использован как курс ДПО. Курс может быть включен в магистерскую программу онлайн-образования.

Ривкин Андрей Маркович


Position: Начальник отдела по технологиям больших данных

Certificate

Для получения сертификата необходимо успешно выполнить все контрольные задания и сдать итоговый тест.

Стоимость прохождения процедур оценки результатов обучения с идентификацией личности - 1800 Р.

Similar courses