наверх

Анализ текстовых данных

  • Русский

    язык курса

  • 12 недель

    длительность курса

  • около 5 часов в неделю

    понадобится для освоения

  • 5 зачётных единиц

    для зачета в своем вузе

Курс «Анализ текстовых данных» поможет овладеть навыками Data Culture

О курсе

Онлайн-курс «Анализ текстовых данных» посвящён обработке текстов методами машинного обучения. В ходе обучения слушатели курса узнают о различных задачах, связанных с анализом текстов, освоят методы предобработки текстовых данных, изучат основные подходы к решению задач на основе классического машинного обучения и глубоких нейронный сетей. В ходе обучения слушатели курса узнают о различных задачах, связанных с анализом текстов. Целью курса является изучение подходов к решению основных задач автоматической обработки текстов на основе классического машинного обучения и глубоких нейронный сетей. В ходе курса слушатели освоят методы предобработки текстовых данных и научатся применять на практике основные методы классификации и кластеризации текстов, методы поиска и / или генерации ответа на вопрос и базовые методы машинного перевода. Слушателям будут предложены тестовые задания на понимание материала, а также практические задания на программирование. 

Курс рассчитан на слушателей, имеющих базовые знания об анализе данных и машинном обучении и готовых освоить одно из наиболее перспективных и активно развивающихся направлений в этих областях. Для эффективного усвоения курса требуется базовое владение языком программирования Python и возможность проводить вычисления на графических процессорах.

Формат

Курс состоит из 12 недель. Каждая неделя содержит видеолекции, тестовые задания и материалы для самостоятельного изучения. В открытом доступе вы можете ознакомиться с видеолекциями, доступ к оцениваемым заданиям и экзамену с прокторингом станет доступен после оплаты курса.

  • Levshina, N. (2015) How to Do Linguistics with R : Data Exploration and Statistical Analysis. Amsterdam: John Benjamins Publishing Company.
  • Silge, J., & Robinson, D. (2017) Text Mining with R: A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media.
  • Анализ данных: учебник для академического бакалавриата. Под отв. редакцией В.С. Мхитарян. М.: Издательство Юрайт, 2016. 

Требования

Перед изучением курса мы рекомендуем вам изучить курсы Основы машинного обучения и Продвинутые методы машинного обучения, а также Python как иностранный или Основы программирования на Python.

Программа курса

1. Введение в анализ текстов, базовые методы предобработки и выделения признаков
2. Неглубокие векторные представления слов
3. Классификация текстов
4. Разметка последовательности
5. Seq2seq, MT, attention, transformer
6. Предобученные языковые модели. Улица Сезам, часть 1
7. Предобученные языковые модели. Улица Сезам, часть 2
8. Синтаксис в рамках грамматики зависимостей
9. Тематическое моделирование
10. Суммаризация и симплификация текстов
11. QA-системы, чат-боты
12. Графы знаний

Результаты обучения

Знает:

  • лексический минимум в информационно-технологической и статистической сфере;
  • теоретические основы поиска информации, в том числе статистической, для решения поставленной задачи, основы современных систем управления базами данных;
  • основные положения теории статистики, основные методы анализа информационных процессов в сложных экономических системах;
  • способы и средства сбора научно-технической и статистической информации по тематике исследования;
  • основные математические и алгоритмические модели систем, методы их имитационного моделирования, основы среды R и ее возможности, основы построения компьютерных дискретно-математических моделей.

Умеет:

  • вести монологическую и диалогическую речь в рамках изученных тем с учетом правил речевого общения в информационно-технологической и статистической сфере;
  • формализовать поставленную задачу, составлять интеллектуальные алгоритмы ее решения, использовать современные компьютерные технологии поиска информации, в том числе статистической, для решения поставленной задачи;
  • проводить необходимые статистические расчёты в рамках построенной экономической модели, выбирать современные методы принятия экономических решений в информационных системах;
  • применять информационные технологии и статистические методы для сбора, обработки и анализа научно-технической информации по тематике исследования;
  • решать задачи теоретического и прикладного характера из различных разделов математики, статистики и теории систем, строить модели объектов и понятий.

Владеет:

  • навыками работы с документами, относящимися к информационно-технологической и статистической деятельности;
  • методами поиска и обмена информацией, в том числе статистической, в глобальных и локальных компьютерных сетях;
  • методами разработки информационных систем обработки данных в сфере бизнеса, менеджмента и др.;
  • навыками составления научно-технических обзоров с помощью методов экономического анализа на основании отечественного и зарубежного опыта;
  • способами построения моделей сложных процессов управления, навыками алгоритмизации основных задач.

Формируемые компетенции

  • Способность к письменной, устной и электронной коммуникации на государственном языке и необходимое знание иностранного языка (ОК-10).
  • Способность использовать современные компьютерные технологии поиска информации для решения поставленной задачи, критического анализа этой информации и обоснования принятых идей и подходов к решению (ОПК-5).
  • Способность использовать технологии разработки объектов профессиональной деятельности в областях: машиностроение, приборостроение, техника, образование, медицина, административное управление, юриспруденция, бизнес, предпринимательство, коммерция, менеджмент и др. (ПК-17).
  • Способность проводить сбор, анализ научно-технической информации, отечественного и зарубежного опыта по тематике исследования (ПК-22).
  • Способность использовать математические методы обработки, анализа и синтеза результатов профессиональных исследований (ПК-25).

Направления подготовки

Навыки

Курс позволяет освоить следующие компетенции в соответствии с Рекомендациями к дополнительным профессиональным программам ИТ-профиля, реализуемым в рамках проекта «Цифровые кафедры» университета–участника программы стратегического академического лидерства «Приоритет-2030»:

Сфера: Искусственный интеллект и машинное обучение
Компетенция: Применяет искусственный интеллект и машинное обучение
Уровень: Продвинутый

Сфера: Искусственный интеллект и машинное обучение
Компетенция: Применяет математический аппарат для решения задач по оценке и разработки моделей
Уровень: Продвинутый

Сфера: Искусственный интеллект и машинное обучение
Компетенция: Решает задачи искусственного интеллекта (ИИ)
Уровень: Экспертный

Сфера: Искусственный интеллект и машинное обучение
Компетенция: Разрабатывает и применяет методы машинного обучения (МО) для решения задач
Уровень: Экспертный

Отзывы о курсе

После завершения курса мы рекомендуем вам обратить внимание на курс Компьютерное зрение.

Апишев Мурат Азаматович


Должность: Приглашенный преподаватель Департамента больших данных и информационного поиска, Факультет компьютерных наук

Артемова Екатерина Леонидовна

Кандидат технических наук, Доцент
Должность: Доцент Департамента больших данных и информационного поиска, Факультет компьютерных наук

Саркисян Вероника Вагановна


Должность: Приглашенный преподаватель Департамента больших данных и информационного поиска, Факультет компьютерных наук

Кирьянов Денис Павлович


Должность: Приглашенный преподаватель Департамента больших данных и информационного поиска, Факультет компьютерных наук

Аксёнов Сергей Андреевич


Должность: Приглашенный преподаватель Департамента больших данных и информационного поиска, Факультет компьютерных наук

сертификат об окончании курса

Сертификат

Стоимость доступа к оцениваемым заданиям и возможности пройти экзамен с прокторингом для получения сертификата по курсу составляет 3600 рублей.

Стоимость прохождения процедур оценки результатов обучения с идентификацией личности - 3600 Р.

Похожие курсы