наверх

Обобщенные линейные модели

Научитесь применять линейные модели

1 июня 2022 - 31 декабря 2024 г.
Программа уже началась
39 дней
До конца записи
  • Дополнительное образование для детей и взрослых

    уровень образования

  • Русский

    язык программы

  • 3 недели

    длительность программы

  • около 6 часов в неделю

    понадобится для освоения

  • 1 зачётная единица

    36 академических часов

  • Стоимость 3 600 Р

    за обучение

Эта программа поможет научиться строить модели со случайными факторами для величин с разными типами распределений. Чтобы легче осваивать материалы курса, вам пригодятся базовые представления о линейных моделях (общих и обобщенных), базовые знания R и умение создавать простейшие .html документы при помощи rmarkdown и knitr.

О программе

Oдним из условий применимости обычных линейных моделей является независимость наблюдений друг от друга, на основе которых подбирается модель. Однако на  практике часто встречаются ситуации, когда дизайн сбора материала таков, что нарушение этого условия неизбежно. Представьте, что вы решили построить модель, описывающую связь успеваемости по физкультуре и величины IQ теста у студентов. Для решения этой задачи вы сделали многочисленные выборки в нескольких институтах. Можно ли объединить такие данные в один анализ, построенной по традиционной схеме? Конечно нет. Студенты в каждом вузе могут быть в чем-то сходными друг с другом. Даже характер связи между изучаемыми величинами может быть несколько разным. Такого рода данные, в которых присутствуют внутригрупповые корреляции, стоит анализировать при помощи смешанных линейных моделей. Мы покажем, что некоторые предикторы стоит включать в модель в качестве так называемых “случайных факторов”. Вы узнаете, что случайные факторы могут быть иерархически соподчинены. Мы обсудим, как такие смешанные модели могут быть построены для зависимых переменных подчиняющихся разным типам распределений. Кроме того, мы покажем, что случайная часть модели может быть устроена еще сложнее - в ней может быть компонент, моделирующий поведение дисперсии в ответ на влияние ковариаты. В конце курса вас ждет проект, в котором вы сможете потренироваться в построении смешанных моделей, выбрав один из нескольких датасетов. На основе анализа этих данных вы сможете создать отчет, выдержанный в традициях воспроизводимого исследования.

Формат

Форма обучения заочная (дистанционная). Еженедельные занятия будут включать просмотр тематических видеолекций, изучение дополнительных материалов и выполнение тестовых заданий с автоматизированной проверкой результатов, тестирование по пройденному материалу.

Требования

  • Чтобы легче осваивать материалы курса, вам пригодятся:
  • базовые представления о линейных моделях (общих и обобщенных);
  • базовые знания R;
  • умение создавать простейшие .html документы при помощи rmarkdown и knitr.
  • Программа обучения

    Курс состоит из 4 модулей:

    1) Знакомство с обобщенными линейными моделями

    Обобщенные линейные модели (GLM) позволяют моделировать поведение величин, не подчиняющихся нормальному распределению. Чтобы первые шаги в мире GLM были легче, мы разберем их устройство на примере GLM для нормально распределенных величин - так вы сможете проводить параллели с простыми линейными моделями. Вы узнаете, что такое функция связи, как работает метод максимального правдоподобия и научитесь тестировать гипотезы о GLM при помощи тестов Вальда и тестов отношения правдоподобий.

    2) Проблема выбора модели

    В этом модуле мы поговорим о методологических проблемах, связанных с построением моделей. Модель есть упрощенное отображение реальности и выбор между разными конкурирующими способами такого упрощения - частая задача аналитика. В этом модуле вы научитесь сравнивать модели при помощи информационных критериев. Мы обсудим основные варианты хода анализа при выборе моделей и поговорим о сложностях, возникающих в связи со скрытой множественностью моделей. Наконец, мы научим вас распознавать основные виды злоупотреблений при выборе моделей (data-fishing, p-hacking).

    3) Обобщенные линейные модели для счетных данных

    В этом модуле мы обсудим основные методы моделирования счетных величин. Для начала мы обсудим, почему обычные линейные модели не годятся для счетных данных. Свойства счетных распределений помогут вам понять отличия разновидностей GLM для счетных данных и особенности их диагностики. Вы своими глазами увидите работу функции связи, когда будете визуализировать предсказания GLM в масштабе функции связи и в масштабе переменной отклика.

    4) Обобщенные линейные модели с бинарным откликом

    Иногда возникает необходимость моделировать наступило ли какое-то событие или нет, выиграла ли футбольная команда или проиграла, выздоровел ли пациент после лечения или нет, совершил ли клиент покупку или нет. Для модели рования таких бинарных данных (событий с двумя исходами) не подходят обычные линейные модели, но это легко можно сделать при помощи обобщенных линейных моделей. В этом модуле вы научитесь моделировать вероятности наступления событий, представляя их в виде шансов. Мы разберем, как устроена функция связи логит и как интерпретируются коэффициенты GLM в случае ее применения. Наконец, вы сможете попрактиковаться в анализе обобщенных линейных моделей с разными распределениями, выполнив проект по анализу данных. Результаты этого анализа нужно будет представить в виде отчета в формате html, написанного при помощи rmarkdown/knitr.

    Результаты обучения

    Вы научитесь:

    • распознавать случайные факторы и понимать особенности моделирования группирующих факторов при помощи фиксированных и случайных эффектов;
    • записывать смешанную модель со случайным отрезком и/или случайным углом наклона в виде уравнения и с использованием функций специализированного пакета R;
    • рассчитывать и интерпретировать коэффициенты внутриклассовой корреляции;
    • проводить диагностику обобщенных смешанных линейных моделей с нормальным распределением отклика;
    • корректно применять методы тестирования гипотез в смешанных моделях и интерпретировать результаты;
    • визуализировать смешанную модель с учетом и без учета влияния случайного фактора;
    • описывать связь дисперсии с разным типами ковариат дисперсии;
    • вводить элементы, моделирующие структуру дисперсии в простые и смешанные линейные модели, основанные на нормальном распределении переменной отклика;
    •  распознавать признаки гетероскедастичности;
    • подбирать модель с оптимальной структурой дисперсии с использованием информационных критериев;
    • трактовать модели, включающие моделирование связи дисперсии с ковариатой;
    • записывать обобщенную смешанную линейную модель для счетных величин;
    • обнаруживать признаки избыточности дисперсии;
    • подбирать модели, основанные на распределении Пуассона и отрицательном биномиальном распределении;
    • интерпретировать коэффициенты моделей, основанных на счетных данных, с учетом функции связи;
    • проводить пост-хок тесты для обобщенных смешанных моделей;
    • визуализировать обобщенные смешанные модели для счетных величин;
    • записывать обобщенную смешанную линейную модель с бинарной переменной-откликом;
    • изменять настройки подбора модели в случае если стандартные параметры приводят к сбоям;
    • обнаруживать признаки избыточности дисперсии в моделях с бинарным откликом;
    • визуализировать обобщенные смешанные модели для бинарных данных;
    • создавать отчеты в формате html при помощи rmarkdown/knitr об анализе данных с помощью обобщенной смешанной линейной модели.

    Направления подготовки

    Варфоломеева Марина Александровна

    PhD СПбГУ
    Должность: старший преподаватель кафедры зоологии беспозвоночных

    Хайтов Вадим Михайлович

    Кандидат биологических наук
    Должность: доцент

    Сертификат выдается при условии успешного выполнения контрольных заданий по материалам каждого модуля и выполнения проекта.  

    Курсы в программе