наверх
  • Русский

    язык курса

  • 17 недель

    длительность курса

  • около 5 часов в неделю

    понадобится для освоения

  • 3 зачётных единицы

    для зачета в своем вузе

Курс содержит обзорную информацию о теоретических и практических аспектах технологий, в основе которых лежат принципы получения, преобразования, распределенного хранения и обработки, а также анализа больших объемов данных. Курс направлен на подготовку квалифицированных выпускников, умеющих обоснованно и результативно использовать, разрабатывать, совершенствовать и внедрять в производстве современные технологии  и инструментальные средства анализа и работы с большими объемами данных.

О курсе

С развитием информационных технологий для получения, хранения и обработки данных понятие больших данных (Big Data) прочно вошло в нашу жизнь. Современные вычислительные мощности позволяют получать и анализировать огромные объемы данных во всех сферах деятельности. Организации из различных отраслей промышленности заинтересованы в решении задач выявления ценной информации и скрытых зависимостей из большого массива генерируемых данных для увеличения прибыли. Данный курс предоставляет теоретические и практические знания о больших данных, аналитике данных и инструментах по работе с большими данными. Курс обучает эффективному использованию полученных знаний на конкретных примерах. Дается обзор и проходит обучение пользованием основными методами аналитики больших данных. Формируется умение использовать современные технологии и инструментальные средства по работе с большими данными (Hadoop, MapReduce, Spark, NoSQL, язык R и др.)

Формат

Курс включает 7 тем. Каждая тема включает лекционный материал, презентации, контрольные вопросы (тесты), лабораторные и самостоятельные работы. Каждая тема начинается с видеолекции.

Требования

Более эффективно освоение курса будет при наличии у слушателей:

•          базовых знаний основ программирования (алгоритмы и структуры данных, ООП, паттерны проектирования);

•          понимания принципов проектирования СУБД и знание SQL;

•          знаний одного или нескольких языков программирования: Java, Perl, Python и т.д.);

•          понимания основ статистической обработки данных.

Программа курса

Тема 1. Введение в большие данные: Определение больших данных и причины их появления. Примеры возможностей для бизнеса. Различие между Business Intelligence и Big Data

Тема 2. Жизненный цикл аналитики данных: Понятие жизненного цикла аналитики данных. Роли, необходимые для успешного создания проекта по аналитике данных

Тема 3. Высокопроизводительные вычисления: Распределенные вычисления на нескольких серверах, вычислительная парадигма MapReduce. Проект Apache Hadoop и его экосистема. Apache Spark и его компоненты. Вычисления в реальном времени, Apache Storm, Flink

Тема 4. Масштабирование и многоуровневое хранение данных: Теорема CAP. Парадигма NoSQL. Классификация NoSQL баз данных

Тема 5. Визуализация данных и результатов анализа: Техники визуализации данных, введение в язык R. Визуализация данных в R

Тема 6. Сложные методы аналитики: Классификация задач анализа: Text, Data, Web, Social Mining. Применение машинного обучения в аналитике. K-means и C-means кластеризация, классификация. Логистическая регрессия, ассоциации, алгоритм Априори.

Тема 7. Анализ текста: Поисковые механизмы: Lucene, Solr, ElasticSearch..Алгоритмы Work2Vec и Glove

Результаты обучения

После завершения этого курса слушатели

●         получат представление жизненном цикле аналитики данных, технологиях и средствах распределенной обработки и хранения данных, базовых методах аналитики больших объемов данных,  техниках визуализации данных

●         смогут использовать типовые технологии и средства аналитики данных, такие как MapReduce, Hadoop, NoSQL, язык R

●         смогут обосновано и результативно использовать, совершенствовать, разрабатывать и внедрять современные технологии и инструментальные средства анализа и работы с большими объемами данных

Формируемые компетенции

- Способен изучать, осваивать, разрабатывать и внедрять новые технологии обработки и анализа данных

- Способен извлекать закономерности из данных и обрабатывать неструктурированные данные

- Способен выполнять работы по созданию (модификации) и сопровождению информационных систем, автоматизирующих задачи организационного управления и бизнес-процессы

- Способен анализировать потребности заинтересованных лиц и подразделений организации и подходы к исследованию больших данных

- Способен разрабатывать продукты на основе встроенной аналитики больших данных

Направления подготовки

Отзывы о курсе

Дробинцев Павел Дмитриевич

Кандидат технических наук
Должность: Директор Высшей школы программной инженерии

Воинов Никита Владимирович

Кандидат технических наук
Должность: Доцент Высшей школы программной инженерии

Никифоров Игорь Валерьевич

Кандидат технических наук
Должность: Доцент Высшей школы программной инженерии

Сертификат

По данному курсу возможно получение сертификата.

Стоимость прохождения процедур оценки результатов обучения с идентификацией личности - 3600 ₽. 

Сертификат участника обычно выдается при достижении 60% от общего рейтинга при условии сдачи работ до жесткого дедлайна. Сертификат с отличием, как правило, выдается при достижении 90% от общего рейтинга при условии сдачи работ до мягкого дедлайна.

Похожие курсы