up

Анализ данных 2

144 days
Before the end of the enrollment
  • Russian

    course language

  • от 8 до 10 недель

    course duration

  • from 2 to 5 hours per week

    needed to educate

  • 2 credit points

    for credit at your university

Курс посвящен изучению статистических инструментов для решения популярных аналитических задач, а именно: проведение межгрупповых сравнений, конструирование групп объектов (вручную и автоматически), построение многомерных классификаций (в частности, методом главных компонент) и исследованию трендов в данных.

Курс будет полезен тем, кто уже знаком с основами анализа данных и хотел бы научиться решать чуть более сложные аналитические задачи.

About

Первый раздел курса посвящен изучению и конструированию групп объектов в данных. Сначала рассматриваются инструменты сравнения групп, заложенных в структуре данных. Мы рассказываем о параметрических и непараметрических тестах сравнения средних и распределений, какие возможности и ограничения связаны с разными методами сравнения групп, говорим о сравнении связанных и несвязанных выборок.

Далее поговорим о способах выявления в структуре данных групп, наличие которых в структуре данных не заложено: научимся искать классы объектов в эмпирических данных при помощи разных алгоритмов кластеризации.   

Есть ли структура в данных? Можно ли говорить о том, что люди, компании или университеты группируются в отличительные, узнаваемые классы? Как найти и охарактеризовать такие группы? Мы покажем основные алгоритмы кластеризации, которые позволяют решать такие задачи.

В практических видео показаны способы реализации основных инструментов сравнения и выделения групп в SPSS и R, а также предложены практические задания для отработки навыков.

 

Второй раздел курса посвящен исследованию латентных признаковых структур в данных (в частности, методом главных компонент), а также изучению временных рядов и выявлению трендов в данных. 

Анализ трендов помогает ответить на вопросы вроде: растут ли продажи, увеличивается ли количество пользователей сервиса? Если есть рост, то случайность это или закономерность? Есть ли в данных сезонные колебания? Как выделить тренд и как объяснить его? 

Также мы поговорим о факторном анализе, который позволяет найти скрытую переменную (или переменные), направляющие проявление множества видимых признаков. Как найти такие скрытые переменные и понять, что за ними стоит?

В заключительной части курса поговорим о классификаторах, применение которых решает задачи отнесения объектов к тому или иному классу с определенной вероятностью, а также позволяет прогнозировать попадание нового объекта в определенный класс. Как предсказать исход события, зная основные характеристики действующего лица? Закончит ли слушатель курс, отдаст ли заемщик кредит? Как оценить точность прогноза и минимизировать ошибки? 

Мы разберемся с устройством обозначенных методов анализа данных и попрактикуемся в их применении.

Format

Курс состоит из 10 недель обучения.

Образовательные активности каждой недели включают:

  • Просмотр видеолекций

  • Ответы на вопросы после лекций (на закрепление материалов)

  • Работа с дополнительными источниками (чтение текстов, решение задач по теме недели)

  • Выполнение оцениваемых тестов (ответы на вопросы, решение небольших задач) по итогам каждой недели обучения

Кроме того, для получения итоговой оценки необходимо:

  • Выполнить практические задания (модули 5 и 10 курса)

  • Оценить несколько  практических заданий, выполненных сокурсниками

  1. Анализ социологических данных с применением статистического пакета SPSS: сборник учебных материалов: [для 2-го курса социологического отделения экономического факультета НГУ /сост. А.Ю. Алексеева, О.Г. Ечевская]. Новосибирск: Редакционно-издательский центр НГУ, 2008. 62 экз.

  2. Бююль А., Цефель П. SPSS: искусство обработки информации: пер. с нем.. СПб: ООО «ДиасофтЮП», 2005. URL: http://elcat.pnpu.edu.ua/docs/%D0%91%D1%8E%D1%8E%D0%BB%D1%8C.pdf Обращение к документу 29.07.2020.

  3. Наследов А. SPSS 20 Statistics и AMOS. Питер, 2013. URL: https://www.academia.edu/15630252/%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D0%B9_%D0%9D%D0%B0%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2  Обращение к документу 15.08.2020.

  4. Крыштановский, А.О. Анализ социологических данных с помощью пакета SPSS / А.О. Крыштановский// М: ГУ ВШЭ, 2006. 281 с. 5 экз.

  5. Ростовцев П.С., Ковалева Г.Д. Анализ социологических данных с применением статистического пакета SPSS: учебно-методическое пособие /П.С. Ростовцев, Г.Д. Ковалева//Новосибирск : Редакционно-издательский центр НГУ, 2001. 157 с. 54 экз.

Course program

РАЗДЕЛ 1. СРАВНЕНИЕ И СОЗДАНИЕ ГРУПП

Модуль 1. Одновыборочные и двухвыборочные критерии

1.1. Введение в межгрупповые сравнения

1.2. Одновыборочные критерии сравнения средних

1.3. Сравнение двух независимых выборок

1.4. Сравнение дисперсий двух независимых выборок

1.5. Сравнение распределений двух независимых выборок

1.6. Сравнение двух связанных выборок

1.7. Критерии равенства групп. Практика

1.8. Сравнение средних в SPSS. Практика

 

Модуль 2. Сравнение нескольких выборок

2.1. Сравнение средних для k независимых выборок: параметрический случай

2.2. Сравнение средних для k независимых выборок: непараметрический случай

2.3. Сравнение средних для нескольких связанных выборок

2.4. Критерий Фридмана

2.5. Биномиальные данные

2.6. Проверка соответствия выборочных пропорций теоретическим

2.7. Проверка гипотез о равенстве средних для нескольких зависимых и независимых групп в R. Практика

2.8. Сравнение средних в SPSS: k-выборочные критерии. Практика

 

Модуль 3. Введение в кластерный анализ

3.1. Особенности методов кластерного анализа

3.2. Меры сходства. Меры расстояния

3.3. Корреляционные меры сходства и меры ассоциативности

3.4. Иерархический кластерный анализ

3.5. Определение оптимального количества кластеров

3.6. Иерархический кластерный анализ: пример

3.7. Иерархический кластерный анализ в R. Практика

3.8. Иерархический кластерный анализ в SPSS. Практика

 

Модуль 4. Итерационные методы кластерного анализа

4.1. Метод k-средних

4.2. Метод k-средних. Пример

4.3. Алгоритм Forel

4.4. Forel. Пример

4.5. Способы оценки качества кластеризации

4.6. Графические инструменты в кластерном анализе

4.7. Построение кластерного анализа с помощью k-средних в R. Практика

4.8. Построение кластерного анализа методом k-средних в SPSS. Практика

 

Модуль 5. Первое практическое задание.

В этом модуле студентам предстоит применить полученные знания на практике.

Сначала необходимо пройти итоговый тест, чтобы проверить усвоение знаний и навыков, полученных при изучении модулей 1-4. 

Затем требуется выполнить небольшой самостоятельный проект на реальных данных, предоставленных компанией 2GIS: 

построить кластерную модель, попрактиковаться в сравнении групп, а также оценить работы сокурсников.

 

РАЗДЕЛ 2. ТРЕНДЫ И КЛАССИФИКАЦИИ

Модуль 6. Анализ временных рядов

6.1. Понятие временных рядов

6.2. Тренд

6.3. Сезонность

6.4. STL-разложение

6.5. Поиск выбросов

6.6. Тренд, сезонность, STL. Практика

 

Модуль 7. Прогноз временных рядов

7.1. AR и MA

7.2. ARMA и ARIMA

7.3. Адаптивные модели. Экспоненциальное сглаживание

7.4. Адаптивные модели. Модели с трендом и сезонностью

7.5. Виды адаптивных моделей

7.6. Следящий контроль. Модель Тригга — Лича

7.7. Построение моделей временных рядов в R. Практика

 

Модуль 8. Факторный анализ

8.1. Введение в факторный анализ

8.2. Построение факторной модели

8.3. Способы оценки качества факторной модели

8.4. Пример построения факторной модели

8.5. Факторы готовы: что дальше?

8.6. Факторный анализ в SPSS. Практика

 

Модуль 9. Классификация

9.1. Введение в классификацию

9.2. Линейный классификатор

9.3. Байесовский классификатор

9.4. Дерево решений

9.5. Бинарная логистическая регрессия: основная идея

9.6. Логистическая регрессия: применение и оценка качества

9.7. Методы классификации в R. Практика

9.8. Построение модели логистической регрессии в SPSS. Практика

 

Модуль 10. Итоговое практическое задание.

В этом модуле студентам снова предстоит применить полученные знания на практике.

Сначала необходимо пройти итоговый тест, чтобы проверить усвоение знаний и навыков, полученных при изучении модулей 6-9. 

Затем требуется выполнить самостоятельный проект на реальных данных, предоставленных компанией 2GIS: 

построить классификатор и сформулировать прогноз на его основе, а также оценить работы сокурсников.

Education results

В результате успешного освоения дисциплины слушатель сможет:

 

  • Выбрать метод сравнения групп исходя из поставленной задачи и типа данных

  • Применить корректные статистические процедуры для решения задач сравнения групп по важным для исследователя характеристикам

  • Объяснить возможности и ограничения разных статистических инструментов сравнения групп

  • Выявить структуры в данных, найти и выделить группы объектов со сходными характеристиками

  • Построить кластерную модель (иерархическую или итерационную), владеть инструментами оценки каачества классификации

  • Выбрать оптимальное количество групп с использованием статистических и графических инструментов

  • Интерпретировать и содержательно описать построенные кластеры

  • Объяснить основные задачи и принципы анализа временных рядов

  • Выявить во временных рядах трендовую составляющую, сезонный компонент и остатки

  • Выявить в данных тренд и оценить его статистическую значимость

  • Выбрать модель, адекватную входным условиям, и строить прогноз временного ряда

  • Объяснить задачи, решаемые при помощи факторного анализа

  • Построить факторную модель методом главных компонент

  • Интерпретировать матрицу факторных нагрузок, дать построенным факторам содержательную характеристику

  • Оценить качество построенной факторной модели, владеть инструментами для её улучшения

  • Объяснить принципы работы классификаторов и построения на их основе прогнозов

  • Определить объект к определенному классу, зная его характеристики, и оценить корректность такого отнесения

  • Построить дерево решений и корректно его интерпретировать

Formed competencies

Способен решать задачи профессиональной деятельности с использованием существующих информационно-коммуникационных технологий и с учетом основных требований информационной безопасности (ОПК-4 ФГОС ВО 3++ 01.03.01)

Способен понимать принципы работы современных информационных технологий и использовать их для решения задач профессиональной деятельности (ОПК-4 ФГОС ВО 3++ 01.03.02, 01.03.03)

Способен находить, анализировать, реализовывать программно и использовать на практике математические алгоритмы, в том числе с применением современных вычислительных систем (ОПК-4 ФГОС ВО 3++ 01.03.02, 02.03.01)

Способен понимать принципы работы современных информационных технологий и использовать их для решения задач профессиональной деятельности (ОПК-1 ФГОС ВО 3++ 39.03.01)

Способен обоснованно отбирать и использовать современные информационно-коммуникационные технологии для решения профессиональных задач (ОПК-1 ФГОС ВО 3++ 39.04.01)

Education directions

Стоимость — 3600 рублей. Оплатить обучение можно через раздел "Мои курсы" в личном кабинете. Преподаватель отвечает на вопросы на форуме

Ечевская Ольга Геннадьевна

Кандидат социологических наук
Position: Доцент кафедры общей социологии ЭФ НГУ

Демин Виктор

Кандидат технических наук
Position: Team lead, аналитик данных компании 2GIS

Галанова Наталья


Position: Аналитик данных компании 2GIS

course completion certificate

Certificate

It is possible to get a certificate for this course.

The cost of passing the procedures for assessing learning outcomes with personal identification - 3600 Р.

Similar courses