наверх

Линейная регрессия

1 июня 2022 - 31 декабря 2024 г.
Курс уже начался
256 дней
До конца записи
  • Русский

    язык курса

  • 5 недель

    длительность курса

  • от 6 до 7 часов в неделю

    понадобится для освоения

  • 1 зачётная единица

    для зачета в своем вузе

  • Стоимость 3 600 Р

    за обучение

Уважаемые слушатели, некоторые материалы данного курса доступны для ознакомительного просмотра. Чтобы получить доступ ко всем материалам курса, необходимо оплатить итоговую аттестацию.

О курсе

В этом курсе мы разберем основные методы описания взаимосвязей между количественными признаками. Если корреляционный анализ позволяет количественно оценить силу и направление связи между двумя величинами, то построение регрессионных моделей дает более широкие возможности. При помощи регрессионного анализа можно количественно описывать поведение изучаемых величин в зависимости от переменных-предикторов и получать предсказания на новых данных. Вы узнаете, как строить простые и множественные линейные модели с использованием языка R. У всякого метода есть свои ограничения, поэтому мы поможем вам разобраться, в каких ситуациях можно, а в каких нельзя применять линейную регрессию, и научим вас методам диагностики подобранных моделей. Специальное место в курсе отводится глубинной анатомии регрессионного анализа: вы освоите операции с матрицами, которые лежат в основе линейной регрессии, чтобы получить возможность разбираться в более сложных разновидностях линейных моделей.

Если вы сталкиваетесь с необходимостью поиска и описания взаимосвязей между теми или иными явлениями, которые могут быть измерены количественно, тогда этот курс - хорошая возможность понять, как устроены простая и множественная линейная регрессия, узнать о возможностях и ограничениях этих методов. Курс рассчитан на тех, кто уже знаком с базовыми приемами анализа данных с использованием языка R и с созданием простейших .html документов при помощи rmarkdown и knitr.

Формат

Форма обучения заочная (дистанционная). Еженедельные занятия будут включать просмотр тематических видеолекций, изучение дополнительных материалов и выполнение тестовых заданий с автоматизированной проверкой результатов, тестирование по пройденному материалу. Для получения сертификата необходимо выполнить все задания и финальный проект.

Требования

Прежде чем приступить к изучению данного курса, стоит освоить курс "Знакомство с R и базовая статистика".

Программа курса

Курс состоит из 5 модулей:

1. Корреляционный анализ. Простая линейная регрессия

Мы начнем разговор о методах численного описания связей между количественными величинами с коэффициентов ковариации и корреляции, которые позволяют оценить силу и направление связи. Затем вы узнаете, какую дополнительную информацию о связях можно получить, построив линейную модель зависимости между величинами. Вы научитесь интерпретировать коэффициенты регрессии и узнаете, когда и как можно использовать линейные модели для предсказаний на новых данных. К концу этого модуля вы научитесь подбирать уравнение линейной модели и строить ее график с доверительной областью.

2. Проверка значимости и валидности линейных моделей

Построить линейную модель и записать ее уравнение - это только самое начало анализа. В этом модуле вы узнаете, как описывать результаты регрессионного анализа: как проверить статистическую значимость модели в целом или ее коэффициентов, оценить качество подгонки. У линейных моделей (вернее, у статистических тестов, которые для них используются), как у любого метода, есть свои ограничения. Вы узнаете, что это за ограничения и откуда они возникают. Графические методы диагностики, которыми мы будем пользоваться, универсальны для разных линейных моделей - больше практики поможет вам увереннее принимать решения. Разобравшись со всем этим, вы сможете написать на языке R полный скрипт для подбора, диагностики и представления результатов простой линейной регрессии.

3. Краткое введение в мир линейной алгебры

В этом модуле мы с вами погрузимся в самое сердце линейных моделей. Для этого вам придется изучить или вспомнить основы линейной алгебры. Мы обсудим разновидности матриц, способы их создания в R и основные операции с ними. Все это нам понадобится, чтобы разобраться, как устроена линейная регрессия изнутри. Вы узнаете, что такое модельная матрица, научитесь записывать уравнение линейной регрессии в виде матриц и находить его коэффициенты. Вы своими глазами увидите хэт-матрицу, которая позволяет получать предсказанные значения, и даже сможете ее вычислить вручную. Наконец, вы научитесь рассчитывать остаточную дисперсию, вариационно-ковариационную матрицу и использовать все это для того, чтобы строить доверительную зону регрессии. Потом эти знания помогут вам разобраться с устройством более сложных моделей: с дискретными предикторами, с другими распределениями остатков, с иным устройством вариационно-ковариационной матрицы.

4. Множественная линейная регрессия

Чаще всего связи между величинами устроены сложнее, чем это можно описать при помощи простой линейной регрессии. Множественная линейная регрессия используется, чтобы описать, как переменная-отклик зависит от нескольких предикторов. С появлением в модели множества предикторов у линейной регрессии появляется новое условие применимости - требование отсутствия мультиколлинеарности. В этом модуле вы узнаете, как можно выявить мультиколлинеарность и избежать ее. Наконец, нередко во множественных моделях переменных больше, чем это можно изобразить на плоскости, поэтому мы научим вас простым приемам, которые помогут создавать информативные графики даже в таком случае.

5. Сравнение линейных моделей

Множественные линейные модели подобны конструктору: более сложные модели можно разбирать на части и упрощать. Вы узнаете, как сравнение вложенных моделей при помощи частного F-теста используется при проверке значимости отдельных предикторов или их групп. Более сложные модели лучше описывают исходные данные, но избыточное усложнение опасно, т.к. такие модели начинают давать плохие предсказания на новых данных. При помощи частных F-тестов можно упрощать модели, постепенно исключая незначимые предикторы. Упрощенные модели легче использовать для интерпретации и представления  результатов. Все, что вы успели узнать о линейной регрессии, вы сможете применить, выполнив проект по анализу данных, где нужно будет корректно построить оптимальную множественную линейную модель и представить ее результаты в отчете, написанном при помощи rmarkdown и knitr.

Результаты обучения

Вы узнаете:

  • какую дополнительную информацию о связях можно получить, построив линейную модель зависимости между величинами;
  • когда и как можно использовать линейные модели для предсказаний на новых данных;
  • как описывать результаты регрессионного анализа: как проверить статистическую значимость модели в целом или ее коэффициентов, оценить качество подгонки;
  • что такое модельная матрица;
  • разновидности матриц, способы их создания в R и основные операции с ними;
  • что такое мультиколлинеарность и чем она опасна;
  • как соотносятся доля объясненной изменчивости полной и уменьшенной моделей;
  • что такое пере- и недообученные модели;
  • как зависит от сложности модели точность ее предсказаний на исходных и новых данных.

 

Вы научитесь:

  • интерпретировать коэффициенты регрессии;
  • подбирать уравнение линейной модели и строить ее график с доверительной областью;
  • писать на языке R полный скрипт для подбора, диагностики и представления результатов простой линейной регрессии;
  • создавать матрицы в среде R;
  • записывать уравнение линейной регрессии в виде матриц и находить его коэффициенты;
  • рассчитывать остаточную дисперсию, вариационно-ковариационную матрицу и использовать все это для того, чтобы строить доверительную зону регрессии;
  • подбирать линейные модели со множеством предикторов;
  • диагностировать мультиколлинеарность предикторов и избавляться от нее;
  • интерпретировать смысл коэффициентов множественной линейной регрессии и сравнивать влияние отдельных предикторов;
  • строить информативный график предсказаний множественной линейной регрессии с учетом особенностей данных и задач анализа;
  • отличать вложенные линейные модели от не вложенных;
  • тестировать значимость влияния отдельных предикторов при помощи частных F тестов;
  • различать общепринятые последовательности тестирования предикторов в линейных моделях (I и II типы сумм квадратов) и гипотезы с ними связанные;
  • упрощать множественные линейные модели, сравнивая вложенные модели с использованием частных F тестов при помощи обратного пошагового алгоритма;
  • анализировать данные и построить оптимальную множественную линейную модель.

Формируемые компетенции

Дисциплина направлена на формирование универсальных компетенций обучающихся по образовательным программам бакалавриата/специалитета, а также иных компетенций, предусмотренных образовательной программой.

Направления подготовки

Знания

Вы узнаете:

  • какую дополнительную информацию о связях можно получить, построив линейную модель зависимости между величинами;
  • когда и как можно использовать линейные модели для предсказаний на новых данных;
  • как описывать результаты регрессионного анализа: как проверить статистическую значимость модели в целом или ее коэффициентов, оценить качество подгонки;
  • что такое модельная матрица;
  • разновидности матриц, способы их создания в R и основные операции с ними;
  • что такое мультиколлинеарность и чем она опасна;
  • как соотносятся доля объясненной изменчивости полной и уменьшенной моделей;
  • что такое пере- и недообученные модели;
  • как зависит от сложности модели точность ее предсказаний на исходных и новых данных.

Умения

Вы научитесь:

  • интерпретировать коэффициенты регрессии;
  • подбирать уравнение линейной модели и строить ее график с доверительной областью;
  • писать на языке R полный скрипт для подбора, диагностики и представления результатов простой линейной регрессии;
  • создавать матрицы в среде R;
  • записывать уравнение линейной регрессии в виде матриц и находить его коэффициенты;
  • рассчитывать остаточную дисперсию, вариационно-ковариационную матрицу и использовать все это для того, чтобы строить доверительную зону регрессии;
  • подбирать линейные модели со множеством предикторов;
  • диагностировать мультиколлинеарность предикторов и избавляться от нее;
  • интерпретировать смысл коэффициентов множественной линейной регрессии и сравнивать влияние отдельных предикторов;
  • строить информативный график предсказаний множественной линейной регрессии с учетом особенностей данных и задач анализа;
  • отличать вложенные линейные модели от не вложенных;
  • тестировать значимость влияния отдельных предикторов при помощи частных F тестов;
  • различать общепринятые последовательности тестирования предикторов в линейных моделях (I и II типы сумм квадратов) и гипотезы с ними связанные;
  • упрощать множественные линейные модели, сравнивая вложенные модели с использованием частных F тестов при помощи обратного пошагового алгоритма;
  • анализировать данные и построить оптимальную множественную линейную модель.

 

Отзывы о курсе

Варфоломеева Марина Александровна

PhD СПбГУ
Должность: старший преподаватель кафедры зоологии беспозвоночных

Хайтов Вадим Михайлович

Кандидат биологических наук
Должность: доцент

Сертификат

 

 

Стоимость прохождения процедур оценки результатов обучения с идентификацией личности - 3600 Р.

Программы, в которые включен курс

Похожие курсы