наверх
  • Русский

    язык курса

  • 10 недель

    длительность курса

  • от 1 до 2 часов в неделю

    понадобится для освоения

  • 2 зачётных единицы

    для зачета в своем вузе

Знакомство с технологиям Больших данных, на примере технологии Apache Hadoop. Знакомство с технологиями: HDFS, YARN, Hive, Flume, Solr.

В ходе курса мы получим реальные данные из соц. сети twitter, структурируем их и визуализируем для анализа.  Курс разработан НИТУ МИСИС.

О курсе

В ходе курса вы узнаете о среде для работы с большими данными - Apache Hadoop, а также познакомитесь с двумя основополагающими компонентами фреймворка Apache Hadoop: HDFS - распределенной файловой системой, MapReduce - подходом для обработки большого объема данных.

Вы сможете узнать об основных компонентах экосистемы Apache Hadoop. Узнаете в чем отличие MapReduce от Yarn, и почему появился Spark.

Узнаете что полезного можно получить из интернета. В практической части курсы мы выкачаем данные из twitter, произведем их очистку и обогащение, а после визуализируем.

Присоединяйтесь к Telegram-каналу Онлайн-курсы НИТУ МИСИС или пишите на openedu@misis.ru. Мы ответим на все ваши вопросы.

Формат

При прохождении курса студенты будут знакомиться с короткими видеолекциями, выполнять большое количество практических заданий, читать и оценивать работы друг друга, обсуждать наиболее дискуссионные вопросы на форуме.

  1. Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale By Tom White Publisher: O'Reilly Media March, 2015
  2. Spark: The Definitive Guide Big data processing made simple By Bill Chambers, Matei Zaharia Publisher: O'Reilly Media January, 2017

Требования

Для успешного освоения обучающиеся должны владеть базовыми знаниями языка SQL

Программа курса

Курс состоит из 5 разделов и 10 недель обучения:

Раздел 1. Что такое Big Data
1.1 Знакомство с технологиями Big Data
1.2 Что такое Big Data + возможности
1.3 Что такое Big Data - Сложности

Раздел 2. Ключевые технологии и подходы
2.1 - 2.3 Ключевые технологии и подходы

Раздел 3. Инструменты получения данных
3.1 Инструменты получения данных
3.2 А что если данные лежат в базе данных?
3.3 Apache Flume и Apache Kafka

Раздел 4. Обработка данных
4.1  Обработка данных в Apache Spark
4.2 - 4.4 Обработка данных
4.5 Apache Hive
4.6 Cloudera Impala

Раздел 5. Хранение данных
5.1 Хранение данных
5.2 Apache Solr

Результаты обучения

В результате освоения курса у обучающихся формируются следующие компетенции:

  • владеет основными понятиями и характеристиками больших данных
  • знает основные компоненты Apache Hadoop
  • знаком с HDFS и MapReduce

Формируемые компетенции

Курс направлен на формирование общепрофессиональных  компетенций:

ОПК-2 - Способен разрабатывать оригинальные алгоритмы и программные средства, в том числе с использованием современных интеллектуальных технологий, для решения профессиональных задач

ОПК-4 - Способен применять на практике новые научные принципы и методы исследований

Направления подготовки

09.00.00 Информатика и вычислительная техника
Курс может быть использован как курс ДПО. Курс может быть включен в магистерскую программу онлайн-образования.

Отзывы о курсе

Ривкин Андрей Маркович


Должность: Технический менеджер YTsaurus, Яндекс. Эксперт кафедры «Магистерская школа информационных бизнес систем» НИТУ МИСИС

Похожие курсы