up

R для лингвистов: программирование и анализ данных

 width=
Course registration is closed
Subscribe to news and find out the date of the next launch
  • 10 weeks

    course duration

  • from 5 to 6 hours per week

    needed to educate

  • 3 credit points

    for credit at your university

Данный курс знакомит слушателей с основами программирования на языке R, а также позволяет разобраться во всех этапах анализа данных. В ходе курса на примере задач теоретической и компьютерной лингвистики будут рассмотрены математические основы методов статистического анализа. Курс рассчитан на студентов-лингвистов, однако не предполагает никаких предварительных знаний по лингвистике, программированию и математике.

About

Данный курс знакомит с основами программирования и обработки данных в R. Курс в первую очередь предназначен для теоретических лингвистов, хотя и не предполагает никаких предварительных знаний в какой-то конкретной области. В противовес стандартным курсам R, обычно основанным на статистической обработке данных и их визуализации, значительная часть курса посвящена работе со строками и обработке естественного языка. Курс состоит из 10 недель, которые охватывают все разделы анализа данных: загрузка, чистка, разведочный анализ, визуализация и статистическое моделирование. Большинство недель будет заканчиваться 4 часовым тестом, в ходе которого нужно будет решить несколько задач на программирование или анализ данных.  В части курса, посвященной статистическому анализу данных, мы обсудим основы статистического вывода и обсудим базовые статистические тесты. Кроме того мы обсудим методы построения регрессий и кластеризации, что станет хорошей базой для дальнейших курсов посвященных продвинутому статистическому анализу и машинному обучению. Для работы на курсе необходимо будет установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.

Format

Курс состоит из коротких видеолекций от 8 до 15 минут длиной, внутри которых встроены неоцениваемые вопросы. На каждой неделе будет представлен оцениваемый тест содержащий задачи на программирование, анализ и визуализацию данных.

- Levshina, N. (2015). How to do linguistics with R: Data exploration and statistical analysis. John Benjamins Publishing Company.

- Gries S. Th. (2009) Quantitative Corpus Linguistics with R: A Practical Introduction

- Baayen R. H. (2006) Analyzing Linguistic Data

- Wickham H. (2015) Advanced R

- Everitt B. S., Hothorn T. (2006) A handbook of statistical analyses using R

Requirements

В основном обучение ведется с нуля, однако базовые элементы программирования: такие как функция, переменные, циклы, подробно объясняться не будут. Так что знание других языков программирования, например, Python облегчит понимание, но не является обязательным. Примеры все будут приводится на данных для лингвистов, но никакого предварительного лингвистического образования не требуется.

Course program

1. Введение в R: основные элементы, функции, циклы
2. Продвинутая обработка данных: пакеты tidyr и dplyr
3. Работа со строками: строки в R, регулярные выражения
4. Визуализация данных: base R vs. ggplot2
5. Интерактивная визуализация: rmarkdown, plotly, lingtypology
6. Работа с текстами: пакет tidytext
7. Введение в статистику: основы фриквентисткой статистики, формулировка гипотез
8. Корреляция и линейная регрессия
9. Кластеризация
10. Логистическая регрессия  

Education results

  • Готовность использовать основные законы научных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования в лингвистике

Formed competencies

  • ОНК-1 Готовность использовать основные законы научных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования в лингвистике
  • ИК-1 Способность самостоятельно работать на компьютере с использованием современного общего и профессионального прикладного ПО
  • ПК-4 Умение   осуществлять сбор, анализ и обработку данных, необходимых  для решения поставленных экономических задач
  • ПК-10 Способность использовать для решения аналитических и исследовательских задач

Knowledge

  • Язык программирования R
  • Основы статистики

Skills

  • Умение   осуществлять   сбор, анализ и обработку данных, необходимых  для решения поставленных экономических задач

Abilities

  • Способность самостоятельно работать на компьютере с использованием современного общего и профессионального прикладного ПО
  • Способность использовать для решения аналитических и исследовательских задач современные технические средства и информационные технологии

Мороз Георгий Алексеевич


Position: Старший преподаватель школы лингвистики, Факультет гуманитарных наук; Младший научный сотрудник, Международная лаборатория языковой конвергенции

course completion certificate

Certificate

Предусмотрен сертификат.