up

Анализ данных 1

  • Russian

    course language

  • 10 weeks

    course duration

  • от 4 до 5 часов в неделю

    needed to educate

  • 2 credit points

    for credit at your university

Курс посвящен изучению основ анализа данных на базовом уровне сложности. Рассматриваются основы теории вероятностей, базовые инструменты анализа одномерных распределений, особенности работы с нетипичными и пропущенными значениями, а также способы построения выборок для корректного выстраивания схемы отбора данных.

Далее обсуждаются основные инструменты исследования взаимосвязей признаков: критерий Хи-квадрат и производные от него коэффициенты, коэффициенты корреляции (для ранговых и количественных переменных), а также модель линейной регрессии: ее возможности, ограничения и способы оценки качества модели.

Курс разработан совместно с практиками – сотрудниками  международной картографической компании «2ГИС». Практические задания курса созданы с использованием реальных данных, которые аналитики компании используют для решения повседневных рабочих задач (данные предоставлены компанией «2ГИС»).

About

Курс будет полезен тем, кто имеет небольшой опыт работы с данными, или хочет освежить знания по теории вероятностей, математической статистике, типах данных и способах изучения взаимосвязей между признаками. 

Сначала мы вспомним основы теории вероятностей и поговорим о случайных величинах и их свойствах, об основных распределениях случайных величин. 

Затем перейдем к основным характеристикам распределений: мерам центра и мерам вариативности. Далее обсудим основные типы шкал измерения признаков, а также основные ограничения, которые тип шкалы накладывает на применимые методы анализа данных. После чего поговорим о графическом анализе данных и способах визуализации распределений, индивидуальных или совместных, изучим основные виды выборок, способы их формирования и оценки качества, и узнаем инструменты работы с пропущенными и неопределенными значениями.

Разобравшись с изучением одномерных распределений, перейдем к исследованию взаимосвязей между признаками: рассмотрим ограничения, накладываемые типом данных на выбор методов, применимых для оценки взаимосвязей, поговорим о коэффициентах взаимосвязи номинальных признаков (Хи-квадрат и его производные), затем рассмотрим коэффициенты корреляции (ранговой, парной, частной) и в заключение поговорим о построении модели линейной регрессии, ее задачах, ограничениях и способах оценки качества модели.

Вы сможете применить полученные знания, выполнив небольшие проекты на реальных данных.

Практические задания курса созданы с использованием реальных данных, которые аналитики компании используют для решения повседневных рабочих задач (данные предоставлены компанией 2GIS).

Format

Курс состоит из 10 недель обучения.

Образовательные активности каждой недели включают:

  • Просмотр видеолекций

  • Ответы на вопросы после лекций (на закрепление материалов)

  • Работа с дополнительными источниками (чтение текстов, решение задач по теме недели)

  • Выполнение оцениваемых тестов (ответы на вопросы, решение небольших задач) по итогам каждой недели обучения

Кроме того, для получения итоговой оценки необходимо:

  • Выполнить практические задания (модули 5 и 10 курса)

  • Оценить несколько  практических заданий, выполненных сокурсниками

  1. Анализ социологических данных с применением статистического пакета SPSS: сборник учебных материалов: [для 2-го курса социологического отделения экономического факультета НГУ /сост. А.Ю. Алексеева, О.Г. Ечевская]. Новосибирск: Редакционно-издательский центр НГУ, 2008. 62 экз.

  2. Бююль А., Цефель П. SPSS: искусство обработки информации: пер. с нем.. СПб: ООО «ДиасофтЮП», 2005. URL: http://elcat.pnpu.edu.ua/docs/%D0%91%D1%8E%D1%8E%D0%BB%D1%8C.pdf Обращение к документу 29.07.2020.

  3. Наследов А. SPSS 20 Statistics и AMOS. Питер, 2013. URL: https://www.academia.edu/15630252/%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D0%B9_%D0%9D%D0%B0%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2  Обращение к документу 15.08.2020.

  4. Крыштановский, А.О. Анализ социологических данных с помощью пакета SPSS / А.О. Крыштановский// М: ГУ ВШЭ, 2006. 281 с. 5 экз.

  5. Ростовцев П.С., Ковалева Г.Д. Анализ социологических данных с применением статистического пакета SPSS: учебно-методическое пособие /П.С. Ростовцев, Г.Д. Ковалева//Новосибирск : Редакционно-издательский центр НГУ, 2001. 157 с. 54 экз.

Course program

РАЗДЕЛ 1. ВВЕДЕНИЕ В ДАННЫЕ

Модуль 1. Основы теории вероятностей

ВВОДНАЯ ЛЕКЦИЯ: ОБЗОР СПЕЦИАЛИЗАЦИИ

Дополнительные материалы:

О чем этот курс и как он устроен

Дополнительные материалы по статистическим пакетам

Данные, на которые мы опираемся и ссылаемся

1.1. Введение в теорию вероятностей

1.2. Свойства вероятности

1.3. Характеристики случайных величин

1.4. Непрерывные распределения. Часть 1

1.5. Нормальные и логнормальные непрерывные распределения

1.6. Дискретные распределения

 

Модуль 2. Основы статистического анализа выборочных данных

2.1. Типы данных

2.2. Выборка случайных величин

2.3. Меры центральной тенденции

2.4. Меры вариативности

2.5. Несмещённая дисперсия

2.6. Меры и типы переменных: что и где применимо?

Видео: Практика 2.1. Описательные статистики в R. Практика

Видео: Практика 2.2. Описательные статистики в SPSS. Практика

 

Модуль 3. Графический анализ данных

3.1. Почему важно визуализировать данные. Квартет Энскомба. Эмпирическая функция распределения

3.2. Гистограмма и методы её построения

3.3. Box plot, или ящик с усами

3.4. Диаграмма рассеяния

3.5. Графики для неметрических шкал

Видео: Практика 1. Построение графиков в R. Практика

Видео: Практика 2. Построение графиков в SPSS. Практика

 

Модуль 4. Формирование выборок и подготовка данных

4.1. Выборки

4.2. Ошибки выборки

4.3. Определение необходимого объёма выборки

4.4. Работа с пропущенными наблюдениями

4.5. Кодирование неопределённых ответов

4.6. Формирование массива данных в SPSS. Практика

 

Модуль 5. Первое практическое задание.

В этом модуле студентам предстоит применить полученные знания на практике.

Сначала необходимо пройти итоговый тест, чтобы проверить усвоение знаний и навыков, полученных при изучении модулей 1-4. 

Затем требуется выполнить небольшой самостоятельный проект на реальных данных, предоставленных компанией 2GIS: 

проанализировать данные самостоятельно, а также оценить работы сокурсников.

Оцениваемые задания (вносят вклад в итоговую оценку)

5.1. Тест по итогам модулей 1-4

5.2. Взаимооцениваемое задание "Основы статистического анализа выборочных данных"

РАЗДЕЛ 2. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКИХ ВЗАИМОСВЯЗЕЙ

 

Модуль 6. Введение в статистические критерии

6.1. Статистическая гипотеза

6.2. Статистические критерии

6.3. Алгоритм проверки статистических гипотез

6.4. Свойства критериев

6.5. Метод Монте-Карло

 

Модуль 7. Критерии согласия

7.1. Гипотеза о согласии

7.2. Критерий согласия Хи-квадрат

7.3. Группирование данных

7.4. Критерий согласия Колмогорова — Смирнова

7.5. Критерии типа Омега

7.6. Критерий Шапиро — Уилка

Видео: Практика 7.1. Видео. Построение критериев согласия в R. Практика 

Видео: Практика 7.2. Видео. Построение критериев согласия в SPSS. Практика

 

Модуль 8. Поиск взаимосвязей в данных и оценка их статистической значимости

8.1. Понятие статистической взаимосвязи: идея и основные виды

8.2. Исследование взаимосвязей: разные шкалы — разные инструменты

8.3. Линейные взаимосвязи между двумя признаками. Коэффициенты корреляции

8.3а. Коэффициенты ранговой корреляции

8.4. Проверка значимости коэффициентов корреляции

8.5. Таблицы сопряжённости: введение

8.6. Исследование взаимосвязей при помощи критерия Хи-квадрат

8.7. Таблицы сопряжённости: исследование силы и характера взаимосвязи

8.8. Пример исследования взаимосвязей на основе таблиц сопряжённости

Видео: Практика 8.1. Вычисление коэффициента корреляции в R. Практика

Видео: Практика 8.2. Исследование взаимосвязей в SPSS: коэффициенты корреляции и таблицы сопряжённости. Практика

 

Модуль 9. Линейная регрессия

9.1. Модель линейной регрессии: основная идея

9.2. Линейная регрессия: типы данных

9.3. Оценки параметров регрессии

9.4. Оценка качества модели

9.5. Отбор значимых признаков

9.6. Мультиколлинеарность

9.7. Гетероскедастичность

9.8. Проверка предположений о модели

9.9. Прогноз

Видео: Практика 9.1. Линейная регрессия в R. Практика

Видео: Практика 9.2. Линейная регрессия в SPSS. Практика

 

Модуль 10. Второе практическое задание.

Итоговое задание

В заключительном модуле курса мы предлагаем студентам самостоятельно построить регрессионную модель на реальных данных, предоставленных компанией 2GIS. 

Сначала необходимо пройти тест по итогам прохождения модулей 6-9 для проверки усвоенных на курсе знаний.

Затем следует внимательно прочитайте инструкции и выполнить проект с применением полученных знаний и оценить несколько работ сокурсников.

Оцениваемые задания (вносят вклад в итоговую оценку)

10.1. Тест по итогам модулей 6-9

10.2. Взаимооцениваемое задание "Построение модели линейной регрессии"

Education results

  • Знает основные законы распределения случайных величин.

  • Знает основные типы данных, понимает ограничения, которые накладывает тип шкалы на то, какие статистические инструменты могут быть применены.

  • Понимает принципы корректного формирования выборок из данных, умеет рассчитать требуемый объем выборки.

  • Знает принципы проверки гипотез разных видов и умеет определять классы задач, для решения которых нужна та или иная гипотеза и способ ее проверки.

  • Умеет выбрать корректный инструмент для проверки статистических гипотез разных видов.

  • Умеет применить на практике алгоритм проверки статистических гипотез для решения исследовательских задач.

  • Владеет инструментами исследования взаимосвязей между признаками, измеренными разными видами шкал.

  • Владеет навыками построения линейной регрессии для изучения множественных линейных взаимосвязей, а также навыками оценки качества регрессионной модели.

Formed competencies

Способен решать задачи профессиональной деятельности с использованием существующих информационно-коммуникационных технологий и с учетом основных требований информационной безопасности (ОПК-4 ФГОС ВО 3++ 01.03.01)

Способен понимать принципы работы современных информационных технологий и использовать их для решения задач профессиональной деятельности (ОПК-4 ФГОС ВО 3++ 01.03.02, 01.03.03)

Способен находить, анализировать, реализовывать программно и использовать на практике математические алгоритмы, в том числе с применением современных вычислительных систем (ОПК-4 ФГОС ВО 3++ 01.03.02, 02.03.01)

Способен понимать принципы работы современных информационных технологий и использовать их для решения задач профессиональной деятельности (ОПК-1 ФГОС ВО 3++ 39.03.01)

Способен обоснованно отбирать и использовать современные информационно-коммуникационные технологии для решения профессиональных задач (ОПК-1 ФГОС ВО 3++ 39.04.01)

Education directions

Стоимость — 3600 рублей. Оплатить обучение можно через раздел "Мои курсы" в личном кабинете. Преподаватель отвечает на вопросы на форуме

Ечевская Ольга Геннадьевна

Кандидат социологических наук
Position: Доцент кафедры общей социологии ЭФ НГУ

Демин Виктор

Кандидат технических наук
Position: Team lead, аналитик данных компании 2GIS

Галанова Наталья


Position: Аналитик данных компании 2GIS

Similar courses