Openedu.ru

Русский
язык курса
12 недель
длительность курса
около 5 часов в неделю
понадобится для освоения
5 зачётных единиц
для зачета в своем вузе

Курс «Анализ текстовых данных» поможет овладеть навыками Data Culture.

О курсе

Онлайн-курс «Анализ текстовых данных» посвящён обработке текстов методами машинного обучения. В ходе обучения слушатели курса узнают о различных задачах, связанных с анализом текстов, освоят методы предобработки текстовых данных, изучат основные подходы к решению задач на основе классического машинного обучения и глубоких нейронный сетей. В ходе обучения слушатели курса узнают о различных задачах, связанных с анализом текстов. Целью курса является изучение подходов к решению основных задач автоматической обработки текстов на основе классического машинного обучения и глубоких нейронный сетей. В ходе курса слушатели освоят методы предобработки текстовых данных и научатся применять на практике основные методы классификации и кластеризации текстов, методы поиска и / или генерации ответа на вопрос и базовые методы машинного перевода. Слушателям будут предложены тестовые задания на понимание материала, а также практические задания на программирование.

Курс рассчитан на слушателей, имеющих базовые знания об анализе данных и машинном обучении и готовых освоить одно из наиболее перспективных и активно развивающихся направлений в этих областях. Для эффективного усвоения курса требуется базовое владение языком программирования Python и возможность проводить вычисления на графических процессорах.

Формат

Курс состоит из 12 недель. Каждая неделя содержит видеолекции, тестовые задания и материалы для самостоятельного изучения. В открытом доступе вы можете ознакомиться с видеолекциями, доступ к оцениваемым заданиям и экзамену с прокторингом станет доступен после оплаты курса.

Информационные ресурсы

Levshina, N. (2015) How to Do Linguistics with R : Data Exploration and Statistical Analysis. Amsterdam: John Benjamins Publishing Company.
Silge, J., & Robinson, D. (2017) Text Mining with R: A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media.
Анализ данных: учебник для академического бакалавриата. Под отв. редакцией В.С. Мхитарян. М.: Издательство Юрайт, 2016.

Требования

Перед изучением курса мы рекомендуем вам изучить курсы Основы машинного обучения и Продвинутые методы машинного обучения, а также Python как иностранный или Основы программирования на Python.

Программа курса

1. Введение в анализ текстов, базовые методы предобработки и выделения признаков
2. Неглубокие векторные представления слов
3. Классификация текстов
4. Разметка последовательности
5. Seq2seq, MT, attention, transformer
6. Предобученные языковые модели. Улица Сезам, часть 1
7. Предобученные языковые модели. Улица Сезам, часть 2
8. Синтаксис в рамках грамматики зависимостей
9. Тематическое моделирование
10. Суммаризация и симплификация текстов
11. QA-системы, чат-боты
12. Графы знаний

Результаты обучения

Знает:

лексический минимум в информационно-технологической и статистической сфере;
теоретические основы поиска информации, в том числе статистической, для решения поставленной задачи, основы современных систем управления базами данных;
основные положения теории статистики, основные методы анализа информационных процессов в сложных экономических системах;
способы и средства сбора научно-технической и статистической информации по тематике исследования;
основные математические и алгоритмические модели систем, методы их имитационного моделирования, основы среды R и ее возможности, основы построения компьютерных дискретно-математических моделей.

Умеет:

вести монологическую и диалогическую речь в рамках изученных тем с учетом правил речевого общения в информационно-технологической и статистической сфере;
формализовать поставленную задачу, составлять интеллектуальные алгоритмы ее решения, использовать современные компьютерные технологии поиска информации, в том числе статистической, для решения поставленной задачи;
проводить необходимые статистические расчёты в рамках построенной экономической модели, выбирать современные методы принятия экономических решений в информационных системах;
применять информационные технологии и статистические методы для сбора, обработки и анализа научно-технической информации по тематике исследования;
решать задачи теоретического и прикладного характера из различных разделов математики, статистики и теории систем, строить модели объектов и понятий.

Владеет:

навыками работы с документами, относящимися к информационно-технологической и статистической деятельности;
методами поиска и обмена информацией, в том числе статистической, в глобальных и локальных компьютерных сетях;
методами разработки информационных систем обработки данных в сфере бизнеса, менеджмента и др.;
навыками составления научно-технических обзоров с помощью методов экономического анализа на основании отечественного и зарубежного опыта;
способами построения моделей сложных процессов управления, навыками алгоритмизации основных задач.

Формируемые компетенции

Способность к письменной, устной и электронной коммуникации на государственном языке и необходимое знание иностранного языка (ОК-10).
Способность использовать современные компьютерные технологии поиска информации для решения поставленной задачи, критического анализа этой информации и обоснования принятых идей и подходов к решению (ОПК-5).
Способность использовать технологии разработки объектов профессиональной деятельности в областях: машиностроение, приборостроение, техника, образование, медицина, административное управление, юриспруденция, бизнес, предпринимательство, коммерция, менеджмент и др. (ПК-17).
Способность проводить сбор, анализ научно-технической информации, отечественного и зарубежного опыта по тематике исследования (ПК-22).
Способность использовать математические методы обработки, анализа и синтеза результатов профессиональных исследований (ПК-25).

Направления подготовки

02.00.00 Компьютерные и информационные науки
02.06.01 Компьютерные и информационные науки

Навыки

Курс позволяет освоить следующие компетенции в соответствии с Рекомендациями к дополнительным профессиональным программам ИТ-профиля, реализуемым в рамках проекта «Цифровые кафедры» университета–участника программы стратегического академического лидерства «Приоритет-2030»:

Сфера: Искусственный интеллект и машинное обучение
Компетенция: Применяет искусственный интеллект и машинное обучение
Уровень: Продвинутый

Сфера: Искусственный интеллект и машинное обучение
Компетенция: Применяет математический аппарат для решения задач по оценке и разработки моделей
Уровень: Продвинутый

Сфера: Искусственный интеллект и машинное обучение
Компетенция: Решает задачи искусственного интеллекта (ИИ)
Уровень: Экспертный

Сфера: Искусственный интеллект и машинное обучение
Компетенция: Разрабатывает и применяет методы машинного обучения (МО) для решения задач
Уровень: Экспертный