Машинное обучение на больших данных

Оценка курса: ⭐️ 4.75

Мы рассмотрим основные проблемы, возникающие попытке обучить машину на больших данных, и способы их решения. Курс является частью специализации "Промышленное машинное обучение".

О курсе

И исследователи в лабораториях, и инженеры в больших корпорациях бьются над одной задачей — получить наиболее точную предсказательную модель по имеющимся данным. Эту задачу можно решить, используя современные методы из области машинного обучения. К сожалению, когда данных становится слишком много, классические алгоритмы становятся неэффективными или перестают работать вовсе.

В этом онлайн-курсе мы рассмотрим основные проблемы, которые возникают при попытке обучить машину на больших данных, и методы их решения. Изучим подходы для эффективной разметки данных, модификации в классических алгоритмах, которые позволяют им эффективно работать, а также наиболее популярные инструменты для решения задач интеллектуального анализа данных.

Преподаватели

Формат

Курс проходит на внутренней платформе НИУ ВШЭ.

Курс длится 5 недель. Каждая неделя содержит видеолекции, тестовые задания и материалы для самостоятельного изучения. В конце курса вас ждет прикладной проект.

Программа курса

1. Подготовка данных к обучению

Сегодня машинное обучение эффективно работает, когда у нас есть большие массивы размеченных данных. На этой неделе мы разберемся, какие форматы данных и разметки существуют и как эту разметку можно собирать

2. Обучение классических моделей на больших данных

На этой неделе мы узнаем, как обучать классические алгоритмы (линейные модели и деревья решений) на больших данных.

3. Построение рекомендательных систем

Мы посмотрим, как можно распараллелить классические алгоритмы, применяемые в рекомендательных системах.

4. Анализ больших объемов текстовой информации

Рассмотрим задачи машинного обучения на текстах. Поговорим о предобработку текста, и о том, как получить структурированное представление текстовых данных с помощью таких моделей как word2vec и BERT.

5. Обучение глубоких нейронных сетей

Мы узнаем, как распараллелить обучение современных нейросетей, как устроены внутри Horovod и Parameter Server, и поговорим про Transfer Learning.

Навыки

Information Engineering
Software Architecture
ML Service Deployment
Big Data
model optimization

Результаты обучения

Организация процесса разметки собранных данных
Базовые приемы для масштабирования моделей машинного обучения
Специальные приемы для построения рекомендательных моделей и моделей обработки естественного языка
Подходы для масштабирования нейронных сетей