Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут).

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается, лидером будет Петр Ермаков couatl. Регистрация на курс открыта, по этой же ссылке – описание курса. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Курс состоит из:

10 статей на Хабре (и то же самое на Медиуме на англ.). Впрочем, статьи на Медиуме и Хабре не обновляются, актуальный материал – на английском на сайте mlcourse.ai
10 лекций (Youtube-канал на русском + более свежие лекции на англ.), подробное описание каждой темы – в этой статье
воспроизводимых материалов (Jupyter notebooks) в репозитории mlcourse.ai и в виде Kaggle Dataset (нужен только браузер)
отличных соревнований Kaggle Inclass (не на "стаканье xgboost-ов", а на построение признаков)
демо-версий домашних заданий по каждой теме по каждой теме (только на англ.), доступных по подписке на Patreon ("Bonus Assignments" tier)

Список статей серии План этой статьи

1. О курсе

Мы не ставим себе задачу разработать еще один исчерпывающий вводный курс по машинному обучению или анализу данных (т.е. это не замена специализации Яндекса и МФТИ, дополнительному образованию ВШЭ и прочим фундаментальным онлайн- и оффлайн-программам и книжкам). Цель этой серии статей — быстро освежить имеющиеся у вас знания или помочь найти темы для дальнейшего изучения. Подход примерно как у авторов книги Deep Learning, которая начинается с обзора математики и основ машинного обучения — краткого, максимально ёмкого и с обилием ссылок на источники.

Если вы планируете пройти курс, то предупреждаем: при подборе тем и создании материалов мы ориентируемся на то, что наши слушатели знают математику на уровне 2 курса технического вуза и хотя бы немного умеют программировать на Python. Это не жёсткие критерии отбора, а всего лишь рекомендации — можно записаться на курс, не зная математики или Python, и параллельно навёрстывать:

базовую математику (математический анализ, линейную алгебру, оптимизацию, теорвер и статистику) можно повторить по этим конспектам Yandex & MIPT (делимся с разрешения). Кратко, на русском – то что надо. Если подробно, то матан – Кудрявцев, линал – Кострикин, оптимизация – Boyd (англ.), теорвер и статистика – Кибзун. Плюс отличные онлайн-курсы МФТИ и ВШЭ на Coursera;
по Python хватит небольшого интерактивного туториала на Datacamp или этого репозитория по Python и базовым алгоритмам и структурам данных. Что-то более продвинутое – это, например, курс питерского Computer Science Center;
что касается машинного обучения, то есть классический (но слегка устаревший) курс Andrew Ng "Machine Learning"(Stanford, Coursera). На русском языке есть отличная специализация МФТИ и Яндекса «Машинное обучение и анализ данных». А вот и лучшие книги: "Pattern recognition and Machine Learning" (Bishop), "Machine Learning: A Probabilistic Perspective " (Murphy), "The elements of statistical learning" (Hastie, Tibshirani, Friedman), "Deep Learning" (Goodfellow, Bengio, Courville). Книга Goodfellow начинается с обзора математики и понятного и интересного введения в машинное обучение и внутреннее устройство его алгоритмов. Приятно, что теперь про глубокое обучение есть книга и на русском языке – "Глубокое обучение: погружение в мир нейронных сетей" (Николенко С. И., Кадурин А. А., Архангельская Е. О.).

Также про курс рассказано в этом анонсе.

Какое ПО нужно

Для прохождения курса нужен ряд Python-пакетов, большинство из них есть в сборке Anaconda с Python 3.6. Чуть позже понадобятся и другие библиотеки, об этом будет сказано дополнительно. Полный список можно посмотреть в Dockerfile.

Также можно воспользоваться Docker-контейнером, в котором все необходимое ПО уже установлено. Подробности – на странице Wiki репозитория.

2. Домашние задания в курсе

Каждая статья сопровождается домашним заданием в виде Jupyter Notebook, в который надо дописать код, и на основе этого выбрать правильный ответ в Google-форме. Примеры домашних заданий приведены в статьях серии (в конце).

3. Демонстрация основных методов Pandas

Весь код можно воспроизвести в этом Jupyter notebook. Но актуальная обновляемая версия – только на английском.

Pandas — это библиотека Python, предоставляющая широкие возможности для анализа данных. Данные, с которыми работают датасаентисты, часто хранятся в форме табличек — например, в форматах .csv, .tsv или .xlsx. С помощью библиотеки Pandas такие табличные данные очень удобно загружать, обрабатывать и анализировать с помощью SQL-подобных запросов. А в связке с библиотеками Matplotlib и Seaborn Pandas предоставляет широкие возможности визуального анализа табличных данных.

Основными структурами данных в Pandas являются классы Series и DataFrame. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй – это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Будем показывать основные методы в деле, анализируя набор данных по оттоку клиентов телеком-оператора (скачивать не нужно, он есть в репозитории). Прочитаем данные (метод read_csv ) и посмотрим на первые 5 строк с помощью метода head :

В Jupyter-ноутбуках датафреймы Pandas выводятся в виде вот таких красивых табличек, и print(df.head()) выглядит хуже. По умолчанию Pandas выводит всего 20 столбцов и 60 строк, поэтому если ваш датафрейм больше, воспользуйтесь функцией set_option :

Каждая строка представляет собой одного клиента – это объект исследования. Столбцы – признаки объекта.

Название Описание Тип State Буквенный код штата номинальный Account length Как долго клиент обслуживается компанией количественный Area code Префикс номера телефона количественный International plan Международный роуминг (подключен/не подключен) бинарный Voice mail plan Голосовая почта (подключена/не подключена) бинарный Number vmail messages Количество голосовых сообщений количественный Total day minutes Общая длительность разговоров днем количественный Total day calls Общее количество звонков днем количественный Total day charge Общая сумма оплаты за услуги днем количественный Total eve minutes Общая длительность разговоров вечером количественный Total eve calls Общее количество звонков вечером количественный Total eve charge Общая сумма оплаты за услуги вечером количественный Total night minutes Общая длительность разговоров ночью количественный Total night calls Общее количество звонков ночью количественный Total night charge Общая сумма оплаты за услуги ночью количественный Total intl minutes Общая длительность международных разговоров количественный Total intl calls Общее количество международных разговоров количественный Total intl charge Общая сумма оплаты за международные разговоры количественный Customer service calls Число обращений в сервисный центр количественный

Целевая переменная: Churn – Признак оттока, бинарный признак (1 – потеря клиента, то есть отток). Потом мы будем строить модели, прогнозирующие этот признак по остальным, поэтому мы и назвали его целевым.

Посмотрим на размер данных, названия признаков и их типы.

Видим, что в таблице 3333 строки и 20 столбцов. Выведем названия столбцов:

Чтобы посмотреть общую информацию по датафрейму и всем признакам, воспользуемся методом info :

bool , int64 , float64 и object — это типы признаков. Видим, что 1 признак — логический (bool), 3 признака имеют тип object и 16 признаков — числовые. Также с помощью метода info удобно быстро посмотреть на пропуски в данных, в нашем случае их нет, в каждом столбце по 3333 наблюдения.

Изменить тип колонки можно с помощью метода astype . Применим этот метод к признаку Churn и переведём его в int64 :

Метод describe показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64 ): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

Чтобы посмотреть статистику по нечисловым признакам, нужно явно указать интересующие нас типы в параметре include .

State International plan Voice mail plan count 3333 3333 3333 unique 51 2 2 top WV No No freq 106 3010 2411

Для категориальных (тип object ) и булевых (тип bool ) признаков можно воспользоваться методом value_counts . Посмотрим на распределение данных по нашей целевой переменной — Churn :

2850 пользователей из 3333 — лояльные, значение переменной Churn у них — 0 .

Посмотрим на распределение пользователей по переменной Area code . Укажем значение параметра normalize=True , чтобы посмотреть не абсолютные частоты, а относительные.

Сортировка

DataFrame можно отсортировать по значению какого-нибудь из признаков. В нашем случае, например, по Total day charge ( ascending=False для сортировки по убыванию):

Сортировать можно и по группе столбцов:

спасибо за замечание про устаревший sort makkos

Индексация и извлечение данных

DataFrame можно индексировать по-разному. В связи с этим рассмотрим различные способы индексации и извлечения нужных нам данных из датафрейма на примере простых вопросов.

Для извлечения отдельного столбца можно использовать конструкцию вида DataFrame['Name'] . Воспользуемся этим для ответа на вопрос: какова доля людей нелояльных пользователей в нашем датафрейме?

14,5% — довольно плохой показатель для компании, с таким процентом оттока можно и разориться.

Очень удобной является логическая индексация DataFrame по одному столбцу. Выглядит она следующим образом: df[P(df['Name'])] , где P — это некоторое логическое условие, проверяемое для каждого элемента столбца Name . Итогом такой индексации является DataFrame, состоящий только из строк, удовлетворяющих условию P по столбцу Name .

Воспользуемся этим для ответа на вопрос: каковы средние значения числовых признаков среди нелояльных пользователей?

Скомбинировав предыдущие два вида индексации, ответим на вопрос: сколько в среднем в течение дня разговаривают по телефону нелояльные пользователи?

Какова максимальная длина международных звонков среди лояльных пользователей ( Churn == 0 ), не пользующихся услугой международного роуминга ( 'International plan' == 'No' )?

Датафреймы можно индексировать как по названию столбца или строки, так и по порядковому номеру. Для индексации по названию используется метод loc , по номеру — iloc .

В первом случае мы говорим «передай нам значения для id строк от 0 до 5 и для столбцов от State до Area code», а во втором — «передай нам значения первых пяти строк в первых трёх столбцах».

State Account length Area code 0 KS 128 415 1 OH 107 415 2 NJ 137 415 3 OH 84 408 4 OK 75 415 5 AL 118 510 State Account length Area code 0 KS 128 415 1 OH 107 415 2 NJ 137 415 3 OH 84 408 4 OK 75 415

Если нам нужна первая или последняя строчка датафрейма, пользуемся конструкцией df[:1] или df[-1:] :

Применение функций к ячейкам, столбцам и строкам

Применение функции к каждому столбцу: apply

Метод apply можно использовать и для того, чтобы применить функцию к каждой строке. Для этого нужно указать axis=1 .

Применение функции к каждой ячейке столбца: map

Например, метод map можно использовать для замены значений в колонке, передав ему в качестве аргумента словарь вида :

Аналогичную операцию можно провернуть с помощью метода replace :

Группировка данных

В общем случае группировка данных в Pandas выглядит следующим образом:

К датафрейму применяется метод groupby , который разделяет данные по grouping_columns – признаку или набору признаков.
Выбираем нужные нам столбцы ( columns_to_show ).
К полученным группам применяется функция или несколько функций.

Группирование данных в зависимости от значения признака Churn и вывод статистик по трём столбцам в каждой группе.

Сделаем то же самое, но немного по-другому, передав в agg список функций:

Сводные таблицы

Допустим, мы хотим посмотреть, как наблюдения в нашей выборке распределены в контексте двух признаков — Churn и International plan . Для этого мы можем построить таблицу сопряженности, воспользовавшись методом crosstab :

International plan No Yes Churn 0 2664 186 1 346 137 Voice mail plan No Yes Churn 0 0.602460 0.252625 1 0.120912 0.024002

Мы видим, что большинство пользователей лояльны и при этом пользуются дополнительными услугами (международного роуминга / голосовой почты).

Продвинутые пользователи Excel наверняка вспомнят о такой фиче, как сводные таблицы (pivot tables). В Pandas за сводные таблицы отвечает метод pivot_table , который принимает в качестве параметров:

values – список переменных, по которым требуется рассчитать нужные статистики,
index – список переменных, по которым нужно сгруппировать данные,
aggfunc — то, что нам, собственно, нужно посчитать по группам — сумму, среднее, максимум, минимум или что-то ещё.

Давайте посмотрим среднее число дневных, вечерних и ночных звонков для разных Area code:

Total day calls Total eve calls Total night calls Area code 408 100.496420 99.788783 99.039379 415 100.576435 100.503927 100.398187 510 100.097619 99.671429 100.601190 Преобразование датафреймов

Как и многое другое в Pandas, добавление столбцов в DataFrame осуществимо несколькими способами.

Например, мы хотим посчитать общее количество звонков для всех пользователей. Создадим объект total_calls типа Series и вставим его в датафрейм:

Добавить столбец из имеющихся можно и проще, не создавая промежуточных Series:

Чтобы удалить столбцы или строки, воспользуйтесь методом drop , передавая в качестве аргумента нужные индексы и требуемое значение параметра axis ( 1 , если удаляете столбцы, и ничего или 0 , если удаляете строки):

4. Первые попытки прогнозирования оттока

Посмотрим, как отток связан с признаком "Подключение международного роуминга" (International plan). Сделаем это с помощью сводной таблички crosstab, а также путем иллюстрации с Seaborn (как именно строить такие картинки и анализировать с их помощью графики – материал следующей статьи).

International plan False True All Churn 0 2664 186 2850 1 346 137 483 All 3010 323 3333

Видим, что когда роуминг подключен, доля оттока намного выше – интересное наблюдение! Возможно, большие и плохо контролируемые траты в роуминге очень конфликтогенны и приводят к недовольству клиентов телеком-оператора и, соответственно, к их оттоку.

Далее посмотрим на еще один важный признак – "Число обращений в сервисный центр" (Customer service calls). Также построим сводную таблицу и картинку.

Customer service calls 0 1 2 3 4 5 6 7 8 9 All Churn 0 605 1059 672 385 90 26 8 4 1 0 2850 1 92 122 87 44 76 40 14 5 1 2 483 All 697 1181 759 429 166 66 22 9 2 2 3333

Может быть, по сводной табличке это не так хорошо видно (или скучно ползать взглядом по строчкам с цифрами), а вот картинка красноречиво свидетельствует о том, что доля оттока сильно возрастает начиная с 4 звонков в сервисный центр.

Добавим теперь в наш DataFrame бинарный признак — результат сравнения Customer service calls > 3 . И еще раз посмотрим, как он связан с оттоком.

Churn 0 1 All Many_service_calls 0 2721 345 3066 1 129 138 267 All 2850 483 3333

Объединим рассмотренные выше условия и построим сводную табличку для этого объединения и оттока.

Churn 0 1 row_0 False 2841 464 True 9 19

Значит, прогнозируя отток клиента в случае, когда число звонков в сервисный центр больше 3 и подключен роуминг (и прогнозируя лояльность – в противном случае), можно ожидать около 85.8% правильных попаданий (ошибаемся всего 464 + 9 раз). Эти 85.8%, которые мы получили с помощью очень простых рассуждений – это неплохая отправная точка (baseline) для дальнейших моделей машинного обучения, которые мы будем строить.

В целом до появления машинного обучения процесс анализа данных выглядел примерно так. Прорезюмируем:

Доля лояльных клиентов в выборке – 85.5%. Самая наивная модель, ответ которой "клиент всегда лоялен" на подобных данных будет угадывать примерно в 85.5% случаев. То есть доли правильных ответов (accuracy) последующих моделей должны быть как минимум не меньше, а лучше, значительно выше этой цифры;
С помощью простого прогноза, который условно можно выразить такой формулой: "International plan = True & Customer Service calls > 3 => Churn = 1, else Churn = 0", можно ожидать долю угадываний 85.8%, что еще чуть выше 85.5%. Впоследствии мы поговорим о деревьях решений и разберемся, как находить подобные правила автоматически на основе только входных данных;
Эти два бейзлайна мы получили без всякого машинного обучения, и они служат отправной точной для наших последующих моделей. Если окажется, что мы громадными усилиями увеличиваем долю правильных ответов всего, скажем, на 0.5%, то возможно, мы что-то делаем не так, и достаточно ограничиться простой моделью из двух условий;
Перед обучением сложных моделей рекомендуется немного покрутить данные и проверить простые предположения. Более того, в бизнес-приложениях машинного обучения чаще всего начинают именно с простых решений, а потом экспериментируют с их усложнениями.

5. Домашнее задание №1

Для разминки/подготовки предлагается поанализировать демографические данные с помощью Pandas. Надо заполнить недостающий код в Jupyter-заготовке и выбрать правильные ответы в веб-форме (там же найдете и решение).

Актуальные и обновляемые версии демо-заданий – на английском на сайте курса, вот первое задание. Также по подписке на Patreon ("Bonus Assignments" tier) доступны расширенные домашние задания по каждой теме (только на англ.).

📎📎📎📎📎📎📎📎📎📎