up

Знакомство с R и базовая статистика

1 June - 31 December 2022 г.
The course has already started
181 days
Before the end of the enrollment
  • Russian

    course language

  • 5 weeks

    course duration

  • от 4 до 5 часов в неделю

    needed to educate

  • 1 credit points

    for credit at your university

Этот курс для людей, начинающих знакомство со статистикой, а также для тех, кто хочет не только освоить базовые возможности языка R, но и научиться строить сложные графики.

About

Статистическая обработка данных и визуализация результатов анализа - это неизбежный этап работы с данными, полученными в различных областях естественных наук, в социологии, психологии или экономике. В этом курсе мы подробно разберем основы статистики и познакомимся с основами языка статистического программирования R. Мы научим вас гибко использовать средства визуализации (диаграммы, графики и т.п.), чтобы сделать результаты анализа максимально доступными и понятными.  Вы научитесь рассчитывать основные описательные статистики: медиану и квантили, среднее и стандартное отклонение.  Вы познакомитесь с принципами использования теоретических распределений статистик для построения доверительных интервалов и тестирования гипотез (на примере t-критерия). Наконец, мы обсудим сложности, возникающие при множественном тестировании гипотез и научим вас преодолевать их.

Format

Форма обучения заочная (дистанционная). Еженедельные занятия будут включать просмотр тематических видеолекций, изучение дополнительных материалов и выполнение тестовых заданий с автоматизированной проверкой результатов, тестирование по пройденному материалу. Для получения сертификата необходимо выполнить все задания и итоговый проект.

Requirements

Этот курс для людей, начинающих знакомство со статистикой, а также для тех, кто хочет не только освоить базовые возможности языка R, но и научиться строить сложные графики.

Course program

Курс состоит из пяти модулей:

1. Знакомство с R

В этом модуле мы начнем знакомство с языком статистического программирования R - основным инструментом, который мы будем использовать для анализа данных. Вы узнаете, как установить и настроить R и RStudio и как получить помощь. К концу модуля вы сможете использовать операторы и функции R для работы с числами и векторами.

2. Работа с данными

Существует множество способов представления и хранения данных в R. После обсуждения того, какие бывают типы данных, мы обратимся к методам их препарирования. Вы научитесь разными способами извлекать части векторов и таблиц и использовать для вычислений только нужные фрагменты данных. Для работы мы будем использовать не только данные, уже встроенные в R, но и научим вас открывать данные из внешних источников на примере .xlsx или .csv файлов. Мы обсудим принципы организации табличных данных для удобства машинного анализа (опрятные данные, tidy data).

3. Графики с использованием ggplot2

Графическое представление данных позволяет получить максимум информации за минимальный промежуток времени - часто это лучший способ представить данные в отчете. В этом модуле вы научитесь строить графики разной степени сложности, пользуясь принципами грамматики графиков (средствами пакета ggplot2). Кроме того, мы поговорим о том, как создавать в R автоматизированные отчеты с помощью rmarkdown и knitr.

4. Описательная статистика

Чаще всего, анализируя данные, мы имеем дело с выборками, но хотим делать выводы о свойствах генеральной совокупности, из которой они взяты. Описание выборок - это первый этап анализа данных. В этом модуле вы познакомитесь с основными описательными статистиками и их свойствами (медиана, квантили, среднее, дисперсия, стандартное отклонение). Мы обсудим свойства нормального и t- распределения и научимся с их помощью вычислять вероятности. Наконец, пользуясь центральной предельной теоремой, вы научитесь строить доверительные интервалы к оценкам средних.

5. Тестирование гипотез

В этом модуле вы научитесь тестировать гипотезы, чтобы проверять предположения на основании данных. На примере одновыборочного и двухвыборочного t-тестов мы разберем механизм конструирования тестовых статистик и алгоритм действий при тестировании гипотез. Вы узнаете, откуда родом те самые “условия применимости” t-тестов и научитесь их проверять. Мы обсудим ошибки, которые возникают при тестировании гипотез (не только ошибки I- и II-рода, но и S- или M-ошибки). Вы узнаете об опасностях, которые подстерегают вас при множественных тестах, и научитесь оберегать себя от них при помощи поправок на множественное тестирование. Знания, полученные в этом курсе в целом, вы сможете закрепить, выполнив проект, посвященный описанию выборок и тестированию различий между группами.

 

Formed competencies

Дисциплина направлена на формирование универсальных компетенций обучающихся по образовательным программам бакалавриата/специалитета, а также иных компетенций, предусмотренных образовательной программой.

Education directions

01.03.05 Статистика
Наука о данных; Теория вероятности и статистика; Анализ данных

Knowledge

Вы узнаете:

  • что такое язык R;
  • принципы организации данных в таблице подходящим для машинной обработки образом (tidy data);
  • принципы литературного программирования;
  • как центральная предельная теорема связана с методом построения доверительных интервалов;
  • свойства стандартизованных величин;
  • как соотносятся нормальное и t-распределение и поймете разницу между ними;
  • что такое нулевая и альтернативная гипотезы;
  • что такое уровень значимости;
  • возможные варианты ошибок, которые возникают при тестировании статистических гипотез.

Skills

Вы научитесь:

  • выполнять простые математические действия, работать с переменными и векторами;
  • создавать скрипты на языке R;
  • использовать индексы и логические векторы для отбора данных в векторах и датафреймах;
  • импортировать в R данные в форматах .xlsx, .csv;
  • строить гистограммы, боксплоты, точечные, линейные графики средствами пакета ggplot2;
  • создавать документы в формате .Rmd;
  • рассчитывать для выборок разные описательные статистики (медиану, квантили, минимум и максимум; среднее и стандартное отклонение; дисперсию; стандартную ошибку среднего);
  • выбирать подходящие описательные статистики в зависимости от задач анализа;
  • стандартизировать (сделать z-преобразование) значений переменной;
  • рассчитывать вероятность попадания нормально распределенной величины в конкретный диапазон значений;
  • строить доверительные интервалы с использованием z и t распределений;
  • отличать односторонние и двусторонние альтернативные гипотезы;
  • распознавать наиболее частые варианты неправильной интерпретации уровней значимости;
  • применять t-тест для сравнения средних значений и интерпретировать его результаты;
  • делать поправки для уровня значимости в случае множественного тестирования гипотез;
  • проводить анализ данных (описывать выборки и сравнивать две группы при помощи t-критерия) при помощи R и создавать отчеты в формате Rmd.

 

Abilities

Вы освоите:

  • принципы грамматики графиков;
  • тонкую настройку внешнего вида графиков при помощи тем и их модификаций.

 

Хайтов Вадим Михайлович

Кандидат биологических наук
Position: доцент

Варфоломеева Марина Александровна

PhD СПбГУ
Position: старший преподаватель кафедры зоологии беспозвоночных

Certificate

Сертификат выдается при условии успешного выполнения контрольных заданий (70% оценки) и выполнения финального проекта (30% оценки). Для успешного завершения курса необходимо набрать 60 %.

Programs, which includes this course

Similar courses