Обработка больших данных

На этом онлайн-курсе мы изучим основные технологии и приемы, позволяющие эффективно хранить и обрабатывать массивы информации. Курс является частью специализации "Промышленное машинное обучение".

О курсе

Ключ к успешному развитию любой компании в современном мире — это умение принимать быстрые и правильные решения, основываясь на данных. С каждым годом данные становятся все объемнее, а старые методы анализа перестают быть эффективными.

На этом онлайн-курсе мы изучим основные технологии и приемы, используемые для работы с информацией, узнаем больше о природе возникновения информации, способах ее получения и необходимой инженерной подготовки для работы с ней.

Преподаватели

Формат

Курс проходит на внутренней платформе НИУ ВШЭ.

Курс длится 5 недель. Каждая неделя содержит видеолекции, тестовые задания и материалы для самостоятельного изучения.

Программа курса

1. Базовые подходы к хранению и извлечению информации

На этой неделе мы познакомимся с SQL и NoSQL базами данных и извлечением информации из Интернета. Ведь большие данные откуда-то нужно брать.

2. Bash для инженера данных

На этой неделе мы научимся работать с командной строкой в bash. Это очень полезное умение, которое пригодится на протяжении всего курса.

3. Начало работы с большим объемом данных: Hadoop, MapReduce

В этом модуле разберемся, как устроены два важных компонента экосистемы Hadoop: файловая система HDFS и API для вычислений MapReduce. Посмотрим, почему они устроены именно так и почему горизонтальная масштабируемость – это хорошо.

4. Знакомство со Spark

На этой неделе разберем фреймворк для распределенных вычислений Spark. С ним сильно проще работать из Python и он умеет много всего.

5. Продвинутое использование Spark

На этой неделе на примере задачи классификации текстов посмотрим, что еще умеет Spark и как это помогает решать задачи машинного обучения.