наверх

Машинное обучение на больших данных

  • Русский

    язык курса

  • 5 недель

    длительность курса

  • от 5 до 14 часов в неделю

    понадобится для освоения

  • 4 зачётных единицы

    для зачета в своем вузе

Мы рассмотрим основные проблемы, возникающие попытке обучить машину на больших данных, и способы их решения. Курс является частью специализации "Промышленное машинное обучение".

О курсе

И исследователи в лабораториях, и инженеры в больших корпорациях бьются над одной задачей — получить наиболее точную предсказательную модель по имеющимся данным. Эту задачу можно решить, используя современные методы из области машинного обучения. К сожалению, когда данных становится слишком много, классические алгоритмы становятся неэффективными или перестают работать вовсе.

В этом онлайн-курсе мы рассмотрим основные проблемы, которые возникают при попытке обучить машину на больших данных, и методы их решения. Изучим подходы для эффективной разметки данных, модификации в классических алгоритмах, которые позволяют им эффективно работать, а также наиболее популярные инструменты для решения задач интеллектуального анализа данных.

Формат

Курс проходит на внутренней платформе НИУ ВШЭ. 

Курс длится 5 недель. Каждая неделя содержит видеолекции, тестовые задания и материалы для самостоятельного изучения. В конце курса вас ждет прикладной проект.

Программа курса

1. Подготовка данных к обучению

Сегодня машинное обучение эффективно работает, когда у нас есть большие массивы размеченных данных. На этой неделе мы разберемся, какие форматы данных и разметки существуют и как эту разметку можно собирать

2. Обучение классических моделей на больших данных

На этой неделе мы узнаем, как обучать классические алгоритмы (линейные модели и деревья решений) на больших данных.

3. Построение рекомендательных систем

Мы посмотрим, как можно распараллелить классические алгоритмы, применяемые в рекомендательных системах.

4. Анализ больших объемов текстовой информации

Рассмотрим задачи машинного обучения на текстах. Поговорим о предобработку текста, и о том, как получить структурированное представление текстовых данных с помощью таких моделей как word2vec и BERT.

5. Обучение глубоких нейронных сетей

Мы узнаем, как распараллелить обучение современных нейросетей, как устроены внутри Horovod и Parameter Server, и поговорим про Transfer Learning.

Результаты обучения

  • Организация процесса разметки собранных данных
  • Базовые приемы для масштабирования моделей машинного обучения
  • Специальные приемы для построения рекомендательных моделей и моделей обработки естественного языка
  • Подходы для масштабирования нейронных сетей

Направления подготовки

Компьютерные науки

Навыки

  • Information Engineering
  • Software Architecture
  • ML Service Deployment
  • Big Data
  • model optimization

Куцев Роман Анатольевич


Должность: Crowd Solution Architect, Neatcy, Inc.

Саркисян Вероника Вагановна


Должность: Приглашенный преподаватель Департамента больших данных и информационного поиска, Факультет компьютерных наук

Космачев Алексей Дмитриевич


Должность: Преподаватель: Факультет Математических Наук

Зимовнов Андрей Вадимович


Должность: Старший преподаватель факультета компьютерных наук, Департамент больших данных и информационного поиска

Бардуков Анатолий Андреевич

Аспирант
Должность: Преподаватель: Факультет компьютерных наук / Департамент больших данных и информационного поиска

Программы, в которые включен курс

Новая программа