up

Обработка больших данных

  • Russian

    course language

  • 5 weeks

    course duration

  • from 8 to 9 hours per week

    needed to educate

  • 3 credit points

    for credit at your university

На этом онлайн-курсе мы изучим основные технологии и приемы, позволяющие эффективно хранить и обрабатывать массивы информации. Курс является частью специализации "Промышленное машинное обучение".

About

Ключ к успешному развитию любой компании в современном мире — это умение принимать быстрые и правильные решения, основываясь на данных. С каждым годом данные становятся  все объемнее, а старые методы анализа перестают быть эффективными.

На этом онлайн-курсе мы изучим основные технологии и приемы, используемые для работы с информацией, узнаем больше о природе возникновения информации, способах ее получения и необходимой инженерной подготовки для работы с ней.

Format

Курс проходит на внутренней платформе НИУ ВШЭ. 

Курс длится 5 недель. Каждая неделя содержит видеолекции, тестовые задания и материалы для самостоятельного изучения. 

Course program

1. Базовые подходы к хранению и извлечению информации

На этой неделе мы познакомимся с SQL и NoSQL базами данных и извлечением информации из Интернета. Ведь большие данные откуда-то нужно брать.

2. Bash для инженера данных

На этой неделе мы научимся работать с командной строкой в bash. Это очень полезное умение, которое пригодится на протяжении всего курса.

3. Начало работы с большим объемом данных: Hadoop, MapReduce

В этом модуле разберемся, как устроены два важных компонента экосистемы Hadoop: файловая система HDFS и API для вычислений MapReduce. Посмотрим, почему они устроены именно так и почему горизонтальная масштабируемость – это хорошо.

4. Знакомство со Spark

На этой неделе разберем фреймворк для распределенных вычислений Spark. С ним сильно проще работать из Python и он умеет много всего.

5. Продвинутое использование Spark

На этой неделе на примере задачи классификации текстов посмотрим, что еще умеет Spark и как это помогает решать задачи машинного обучения.

Education results

Вы научитесь: 

  • Работать с наиболее распространенными источниками данных
  • Уверенно работать с командной строкой в Linux
  • Разрабатывать и запускать алгоритмы на платформах Hadoop и Spark

Abilities

  • Information Engineering
  • System Administration
  • Python Programming
  • Big Data
  • Data Mining

Космачев Алексей Дмитриевич


Position: Преподаватель: Факультет Математических Наук

Бардуков Анатолий Андреевич

Аспирант
Position: Преподаватель: Факультет компьютерных наук / Департамент больших данных и информационного поиска

Зимонов Андрей Вадимович


Position: Старший преподаватель: Факультет компьютерных наук

Programs, which includes this course