наверх

Обработка больших данных

  • Русский

    язык курса

  • 5 недель

    длительность курса

  • от 8 до 9 часов в неделю

    понадобится для освоения

  • 3 зачётных единицы

    для зачета в своем вузе

На этом онлайн-курсе мы изучим основные технологии и приемы, позволяющие эффективно хранить и обрабатывать массивы информации. Курс является частью специализации "Промышленное машинное обучение".

О курсе

Ключ к успешному развитию любой компании в современном мире — это умение принимать быстрые и правильные решения, основываясь на данных. С каждым годом данные становятся  все объемнее, а старые методы анализа перестают быть эффективными.

На этом онлайн-курсе мы изучим основные технологии и приемы, используемые для работы с информацией, узнаем больше о природе возникновения информации, способах ее получения и необходимой инженерной подготовки для работы с ней.

Формат

Курс проходит на внутренней платформе НИУ ВШЭ. 

Курс длится 5 недель. Каждая неделя содержит видеолекции, тестовые задания и материалы для самостоятельного изучения. 

Программа курса

1. Базовые подходы к хранению и извлечению информации

На этой неделе мы познакомимся с SQL и NoSQL базами данных и извлечением информации из Интернета. Ведь большие данные откуда-то нужно брать.

2. Bash для инженера данных

На этой неделе мы научимся работать с командной строкой в bash. Это очень полезное умение, которое пригодится на протяжении всего курса.

3. Начало работы с большим объемом данных: Hadoop, MapReduce

В этом модуле разберемся, как устроены два важных компонента экосистемы Hadoop: файловая система HDFS и API для вычислений MapReduce. Посмотрим, почему они устроены именно так и почему горизонтальная масштабируемость – это хорошо.

4. Знакомство со Spark

На этой неделе разберем фреймворк для распределенных вычислений Spark. С ним сильно проще работать из Python и он умеет много всего.

5. Продвинутое использование Spark

На этой неделе на примере задачи классификации текстов посмотрим, что еще умеет Spark и как это помогает решать задачи машинного обучения.

Результаты обучения

Вы научитесь: 

  • Работать с наиболее распространенными источниками данных
  • Уверенно работать с командной строкой в Linux
  • Разрабатывать и запускать алгоритмы на платформах Hadoop и Spark

Навыки

  • Information Engineering
  • System Administration
  • Python Programming
  • Big Data
  • Data Mining

Космачев Алексей Дмитриевич


Должность: Преподаватель: Факультет Математических Наук

Бардуков Анатолий Андреевич

Аспирант
Должность: Преподаватель: Факультет компьютерных наук / Департамент больших данных и информационного поиска

Зимонов Андрей Вадимович


Должность: Старший преподаватель: Факультет компьютерных наук

Программы, в которые включен курс

Новая программа