язык курса
длительность курса
понадобится для освоения
для зачета в своем вузе
На этом онлайн-курсе мы изучим основные технологии и приемы, позволяющие эффективно хранить и обрабатывать массивы информации. Курс является частью специализации "Промышленное машинное обучение".
Ключ к успешному развитию любой компании в современном мире — это умение принимать быстрые и правильные решения, основываясь на данных. С каждым годом данные становятся все объемнее, а старые методы анализа перестают быть эффективными.
На этом онлайн-курсе мы изучим основные технологии и приемы, используемые для работы с информацией, узнаем больше о природе возникновения информации, способах ее получения и необходимой инженерной подготовки для работы с ней.
Курс проходит на внутренней платформе НИУ ВШЭ.
Курс длится 5 недель. Каждая неделя содержит видеолекции, тестовые задания и материалы для самостоятельного изучения.
1. Базовые подходы к хранению и извлечению информации
На этой неделе мы познакомимся с SQL и NoSQL базами данных и извлечением информации из Интернета. Ведь большие данные откуда-то нужно брать.
2. Bash для инженера данных
На этой неделе мы научимся работать с командной строкой в bash. Это очень полезное умение, которое пригодится на протяжении всего курса.
3. Начало работы с большим объемом данных: Hadoop, MapReduce
В этом модуле разберемся, как устроены два важных компонента экосистемы Hadoop: файловая система HDFS и API для вычислений MapReduce. Посмотрим, почему они устроены именно так и почему горизонтальная масштабируемость – это хорошо.
4. Знакомство со Spark
На этой неделе разберем фреймворк для распределенных вычислений Spark. С ним сильно проще работать из Python и он умеет много всего.
5. Продвинутое использование Spark
На этой неделе на примере задачи классификации текстов посмотрим, что еще умеет Spark и как это помогает решать задачи машинного обучения.
Вы научитесь:
язык курса
длительность курса
понадобится для освоения
для зачета в своем вузе
Должность: Преподаватель: Факультет Математических Наук
Аспирант
Должность: Преподаватель: Факультет компьютерных наук / Департамент больших данных и информационного поиска
Должность: Старший преподаватель: Факультет компьютерных наук