up

Обработка и анализ больших данных

Дату старта объявим позже

Дата начала записи на курс еще не объявлена

  • 2 недели

    длительность курса

  • около 36 часов в неделю

    понадобится для освоения

  • 2 зачётных единицы

    для зачета в своем вузе

Программа посвящена технологиям работы с большими объемами данных. В настоящее время ИКТ изменили всю нашу жизнь - и личную, и производственную сферы. В первую очередь, это связано с накоплением во всех областях детальности человека огромных массивов данных, которые нужно уметь находить, извлекать, структурировать, сохранять в компактном виде, быстро находить необходимые элементы, агрегировать и анализировать. Анализ данных может помочь решить множество профессиональных задач, например, такие: каков ожидаемый спрос на тот или иной товар? Когда этот спрос был максимальным? Каковы тенденции в изменении цен на рынке? И т.д. Наука о данных занимается большим спектром вопросов.

О курсе

Этот курс дает базовые навыки в первичной обработке и хранении данных. Научит обрабатывать данные в электронных таблицах, применять правильные методы визуализации данных, и выявлять тренды во временных рядах, применять специальные программные средства для организации хранения и работы с большими объемами сложно структурированных данных - реляционные СУБД и NoSQL хранилища.  Курс не требует специальных начальных навыков, доступен тем, кто является пользователем ПК, имеет навык работы с операционной системой Windows, владеет пакетом офисных программ, умеет искать информацию в сети Internet. Навыков программирования не требуется. Курс носит практикоориентированный характер. В качестве упражнений пользователи будут обрабатывать наборы данных при помощи инструментов: электронных таблиц, реляционных СУБД и NoSQL хранилищ. Для работы с курсом требуется компьютер с выходом в интернет - для выполнения упражнений не потребуется установка программных средств на свой компьютер, все рекомендуемые в курсе инструменты доступны удаленно.

Требования

Требуется наличие у слушателей среднего профессионального и/или высшего образования
Требуется базовый уровень цифровой культуры: умение работать с офисными программами, с файловой системой, пользоваться сетью Internet

Программа курса

Модуль 1
Тема 1.1 Введение в науку о данных 
Рассматриваются виды и источники данных, принципы разделения и объединения данных, виды шкал, методы очистки данных и заполнения пропуска, контроля диапазонов. 
Тема 1.2 Инструменты обработки данных 
Рассматриваются инструменты первичной обработки данных, такие как электронные таблицы (Google-таблицы и Excel), освещаются вопросы сортировки и фильтрации данных, средства агрегации и анализа табличных данных (сводные таблицы) 
Тема 1.3 Визуализация данных 
Освещаются задачи и методы визуализации данных в различных инструментах (Google-таблицы и Excel), формы представления количественных и качественных данных. Рассматривается когнитивная визуализация данных. 
Тема 1.4 Анализ и преобразование данных 
Рассматриваются методы сглаживания и нормировки данных, вопросы преобразования данных. Подробно описываются виды описательных статистик и методы их рассчета. 
Тема 1.5 Работа с временными рядами 
Рассматриваются принципы работы с временными рядами и методы их анализа. Особое внимание уделяется методикам сглаживания временных рядов, определению трендов и сезонных компонент временных рядов.

Модуль 2
Хранение больших данных

Тема 2.1. Системы управления базами данных 
Рассматривается архитектура информационных систем и основные функции систем управления базами данных. 
Тема 2.2. Проектирование структурированных данных 
Рассматриваются основные понятия реляционной (табличной) модели данных, проектирование данных в реляционной модели, правила создания таблиц и определение ограничений целостности. 
Тема 2.3. SQL - запросы к данным и объекты базы данных 
Рассматриваются принципы построения запросов к данным на языке SQL, включая проекцию, сортировку, задание условий выборки, соединение нескольких таблиц, теоретико-множественные операции, вложенные запросы. Также в лекции рассматриваются объекты баз данных - представления, процедуры/функции, триггеры. Дается понятие индексов, которые позволяют повысить эффективность выполнения ряда запросов. 
Тема 2.4. NoSQL хранилища 
Рассматриваются основные понятия и характеристики NoSQL систем, различные виды и рейтинги NoSQL систем: ключ-значение, документные, колоночные и графовые. Принципы построения запросов к данным в NoSQL хранилищах. 
Тема 2.5. MongoDB - работа с документным хранилищем 
Рассматривается организация данных и построение запросов в MongoDB. Приводятся примеры построения запросов в демонстрационной базе MongoDB.

Результаты обучения

  • 2.1. Знание (осведомленность в областях)
    • 2.1.1.   Области применения цифровых технологий в личностной и профессиональной сферах.
    • 2.1.2.  Основные методы разведочного анализа данных.
    • 2.1.3. Способы структуризации и визуализации данных, правила их применения.
    • 2.1.4.  Методы анализа временных рядов.
    • 2.1.5. Существующие методы первичной обработки данных, области их применения, достоинства и недостатки.
    • 2.1.6. Особенности информационных потоков в своей профессиональной области, правовые и этические аспекты распространения информации.
    • 2.1.7. Основные цифровые платформы хранения данных и принципы их работы.
    • 2.1.8. Терминологию и методы, используемые в системах хранения данных.
    • 2.1.9. Принципы организации хранения данных разных предметных областей.
    • 2.1.10. Методы хранения структурированных данных.
    • 2.1.11. Платформы для создания хранилищ структурированных данных.
    • 2.1.12. Методы оптимизации работы хранилищ структурированных данных.
    • 2.1.13. Методы хранения неструктурированных данных.
    • 2.1.14. Платформы для создания хранилищ неструктурированных данных.
  • 2.2. Умение (способность к деятельности)
    • 2.2.1. Использовать компьютерную технику и цифровые технологии для автоматизации информационно-аналитической деятельности.
    • 2.2.2. Отбирать технологии работы с информацией в зависимости от класса задач в области данных.
    • 2.2.3. Применять методы разведочного анализа данных.
    • 2.2.4. Планировать аналитические работы в информационно-технологическом проекте.
    • 2.2.5. Подбирать приемы первичной обработки данных в зависимости от их структуры и контента.
    • 2.2.6. Использовать различные инструменты хранения и обработки данных.
    • 2.2.7. Собирать и систематизировать данные из различных источников для произвольных предметных областей.
    • 2.2.8. Ставить задачи по разработке информационных систем, ориентированных под нужды различных предметных областей.
    • 2.2.9. Проектировать структуры хранения данных под нужды предметной области.
    • 2.2.10. Выбирать правильный инструмент для хранения данных, исходя из особенностей данных и предметных областей.
    • 2.2.11. Применять подходящий метод визуализации данных в зависимости от типа данных и стоящих задач.
  • 2.3.Навыки (использование конкретных инструментов)
    • Инструменты: электронные таблицы Excel/Google sheets, Oracle/PostgreSQL, MongoDB
    • 2.3.1 Владеть аппаратом цифровых технологий для получения, обработки и передачи информации с помощью технических средств и методов.
    • 2.3.2 Владеть методами сбора и систематизации данных различных предметных областей.
    • 2.3.3 Владеть функционалом применения электронных таблиц Excel/Google sheets и компьютерными технологиями для решения задач, связанных с обработкой и анализом данных, применительно к любой предметной области.
    • 2.3.4 Владеть аппаратом современных СУБД.
    • 2.3.5 Владеть методами проектирования данных в контексте современных СУБД (Oracle/PostgreSQL).
    • 2.3.6 Владеть приемами работы с реляционными данными (язык SQL).
    • 2.3.7 Владеть методами оптимизации выполнения реляционных запросов.
    • 2.3.8. Владеть технологиями использования NoSQL хранилищ.
    • 2.3.9.  Владеть примами хранения и обработки данных в контексте MongoDB.
       

Знания

  • распространенные типы данных, зависимости и ограничения 
  • способы преобразования и визуализации данных 
  • методы построения целевых функций 
  • методы описательной статистики данных 
  • принципы работы с временными рядами 
  • особенности информационных потоков в своей профессиональной области 
  • основные принципы систем управления базами данных (СУБД) 
  • распространенные СУБД 
  • способы проектирования данных в реляционной модели 
  • правила описания структур данных 
  • команды для манипулирования данными (SQL) 
  • назначение хранимых процедур и функций базы данных 
  • методы оптимизации выполнения запросов в базах данных 

Умения

  • применять способы преобразования и визуализации данных 
  • осуществлять построение целевых функций 
  • применять методы описательной статистики данных 
  • обрабатывать временные ряды 
  • структурировать данные предметной области 
  • проектировать данные в терминах ER-диаграмм 
  • описывать структуру таблиц 
  • описывать ограничения целостности данных 
  • формулировать запросы к данным на языке SQL 
  • создавать представления и индексы 

Навыки

  • применять цифровые инструменты для визуализации данных 
  • применять цифровые инструменты для сбора описательной статистики 
  • применять цифровые инструменты для работы с временными рядами 
  • применять цифровые инструменты для построения целевых функций
  • владеть аппаратом реляционных СУБД для создания базы данных и ее объектов 
  • владеть аппаратом реляционных СУБД для манипуляции данными 
  • владеть аппаратом реляционных СУБД для построения индексов

Михайлова Елена Георгиевна

К. ф.-м. н., доцент
Должность: Советник при ректорате-директор по направлению "цифровая культура" Университета ИТМО, директор высшей школы цифровой культуры Университета ИТМО

Романов Алексей Андреевич

К.т.н.
Должность: доцент высшей школы цифровой культуры Университета ИТМО, программист международной научной лаборатории "Интеллектуальные методы обработки информации и семантические технологии" Университета ИТМО, научный сотрудник факультета программной инженерии и компьютерной техники Университета ИТМО

Графеева Наталья Генриховна

Кандидат физико-математических наук
Должность: доцент высшей школы цифровой культуры Университета ИТМО

Егорова Ольга Борисовна

К.ф.н.
Должность: преподаватель высшей школы цифровой культуры Университета ИТМО

Волчек Дмитрий Геннадьевич

К.т.н.
Должность: доцент высшей школы цифровой культуры Университета ИТМО, программист международной научной лаборатории "Интеллектуальные методы обработки информации и семантические технологии" Университета ИТМО, научный сотрудник факультета программной инженерии и компьютерной техники Университета ИТМО

Бойцев Антон Александрович

К.ф.-м.н.
Должность: доцент факультета систем управления и робототехники, доцент высшей школы цифровой культуры Университета ИТМО