наверх

Знакомство с R и базовая статистика

1 июня 2022 - 31 декабря 2024 г.
Курс уже начался
41 день
До конца записи
  • Русский

    язык курса

  • 5 недель

    длительность курса

  • от 4 до 5 часов в неделю

    понадобится для освоения

  • 1 зачётная единица

    для зачета в своем вузе

  • Стоимость 3 600 Р

    за обучение

Этот курс для людей, начинающих знакомство со статистикой, а также для тех, кто хочет не только освоить базовые возможности языка R, но и научиться строить сложные графики.

Уважаемые слушатели, некоторые материалы данного курса доступны для ознакомительного просмотра. Чтобы получить доступ ко всем материалам курса, необходимо оплатить доступ к материалам. 

О курсе

Статистическая обработка данных и визуализация результатов анализа - это неизбежный этап работы с данными, полученными в различных областях естественных наук, в социологии, психологии или экономике. В этом курсе мы подробно разберем основы статистики и познакомимся с основами языка статистического программирования R. Мы научим вас гибко использовать средства визуализации (диаграммы, графики и т.п.), чтобы сделать результаты анализа максимально доступными и понятными.  Вы научитесь рассчитывать основные описательные статистики: медиану и квантили, среднее и стандартное отклонение.  Вы познакомитесь с принципами использования теоретических распределений статистик для построения доверительных интервалов и тестирования гипотез (на примере t-критерия). Наконец, мы обсудим сложности, возникающие при множественном тестировании гипотез и научим вас преодолевать их.

Формат

Форма обучения заочная (дистанционная). Еженедельные занятия будут включать просмотр тематических видеолекций, изучение дополнительных материалов и выполнение тестовых заданий с автоматизированной проверкой результатов, тестирование по пройденному материалу. Для получения сертификата необходимо выполнить все задания и итоговый проект.

Требования

Этот курс для людей, начинающих знакомство со статистикой, а также для тех, кто хочет не только освоить базовые возможности языка R, но и научиться строить сложные графики.

Программа курса

Курс состоит из пяти модулей:

1. Знакомство с R

В этом модуле мы начнем знакомство с языком статистического программирования R - основным инструментом, который мы будем использовать для анализа данных. Вы узнаете, как установить и настроить R и RStudio и как получить помощь. К концу модуля вы сможете использовать операторы и функции R для работы с числами и векторами.

2. Работа с данными

Существует множество способов представления и хранения данных в R. После обсуждения того, какие бывают типы данных, мы обратимся к методам их препарирования. Вы научитесь разными способами извлекать части векторов и таблиц и использовать для вычислений только нужные фрагменты данных. Для работы мы будем использовать не только данные, уже встроенные в R, но и научим вас открывать данные из внешних источников на примере .xlsx или .csv файлов. Мы обсудим принципы организации табличных данных для удобства машинного анализа (опрятные данные, tidy data).

3. Графики с использованием ggplot2

Графическое представление данных позволяет получить максимум информации за минимальный промежуток времени - часто это лучший способ представить данные в отчете. В этом модуле вы научитесь строить графики разной степени сложности, пользуясь принципами грамматики графиков (средствами пакета ggplot2). Кроме того, мы поговорим о том, как создавать в R автоматизированные отчеты с помощью rmarkdown и knitr.

4. Описательная статистика

Чаще всего, анализируя данные, мы имеем дело с выборками, но хотим делать выводы о свойствах генеральной совокупности, из которой они взяты. Описание выборок - это первый этап анализа данных. В этом модуле вы познакомитесь с основными описательными статистиками и их свойствами (медиана, квантили, среднее, дисперсия, стандартное отклонение). Мы обсудим свойства нормального и t- распределения и научимся с их помощью вычислять вероятности. Наконец, пользуясь центральной предельной теоремой, вы научитесь строить доверительные интервалы к оценкам средних.

5. Тестирование гипотез

В этом модуле вы научитесь тестировать гипотезы, чтобы проверять предположения на основании данных. На примере одновыборочного и двухвыборочного t-тестов мы разберем механизм конструирования тестовых статистик и алгоритм действий при тестировании гипотез. Вы узнаете, откуда родом те самые “условия применимости” t-тестов и научитесь их проверять. Мы обсудим ошибки, которые возникают при тестировании гипотез (не только ошибки I- и II-рода, но и S- или M-ошибки). Вы узнаете об опасностях, которые подстерегают вас при множественных тестах, и научитесь оберегать себя от них при помощи поправок на множественное тестирование. Знания, полученные в этом курсе в целом, вы сможете закрепить, выполнив проект, посвященный описанию выборок и тестированию различий между группами.

 

Формируемые компетенции

Дисциплина направлена на формирование универсальных компетенций обучающихся по образовательным программам бакалавриата/специалитета, а также иных компетенций, предусмотренных образовательной программой.

Направления подготовки

01.03.05 Статистика
Наука о данных; Теория вероятности и статистика; Анализ данных

Знания

Вы узнаете:

  • что такое язык R;
  • принципы организации данных в таблице подходящим для машинной обработки образом (tidy data);
  • принципы литературного программирования;
  • как центральная предельная теорема связана с методом построения доверительных интервалов;
  • свойства стандартизованных величин;
  • как соотносятся нормальное и t-распределение и поймете разницу между ними;
  • что такое нулевая и альтернативная гипотезы;
  • что такое уровень значимости;
  • возможные варианты ошибок, которые возникают при тестировании статистических гипотез.

Умения

Вы научитесь:

  • выполнять простые математические действия, работать с переменными и векторами;
  • создавать скрипты на языке R;
  • использовать индексы и логические векторы для отбора данных в векторах и датафреймах;
  • импортировать в R данные в форматах .xlsx, .csv;
  • строить гистограммы, боксплоты, точечные, линейные графики средствами пакета ggplot2;
  • создавать документы в формате .Rmd;
  • рассчитывать для выборок разные описательные статистики (медиану, квантили, минимум и максимум; среднее и стандартное отклонение; дисперсию; стандартную ошибку среднего);
  • выбирать подходящие описательные статистики в зависимости от задач анализа;
  • стандартизировать (сделать z-преобразование) значений переменной;
  • рассчитывать вероятность попадания нормально распределенной величины в конкретный диапазон значений;
  • строить доверительные интервалы с использованием z и t распределений;
  • отличать односторонние и двусторонние альтернативные гипотезы;
  • распознавать наиболее частые варианты неправильной интерпретации уровней значимости;
  • применять t-тест для сравнения средних значений и интерпретировать его результаты;
  • делать поправки для уровня значимости в случае множественного тестирования гипотез;
  • проводить анализ данных (описывать выборки и сравнивать две группы при помощи t-критерия) при помощи R и создавать отчеты в формате Rmd.

 

Навыки

Вы освоите:

  • принципы грамматики графиков;
  • тонкую настройку внешнего вида графиков при помощи тем и их модификаций.

 

Отзывы о курсе

Хайтов Вадим Михайлович

Кандидат биологических наук
Должность: доцент

Варфоломеева Марина Александровна

PhD СПбГУ
Должность: старший преподаватель кафедры зоологии беспозвоночных

Сертификат

По данному курсу возможно получение сертификата.

Стоимость прохождения процедур оценки результатов обучения с идентификацией личности - 3600 Р.

Программы, в которые включен курс

Похожие курсы