Скачать "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"

"videoThumbnail Data Science пример задачи кредитного скоринга / Урок построения модели ML на python

0:00

Задача кредитного скоринга

0:25

Что необходимо сделать перед построением модели

0:44

Загрузка данных и предварительный анализ

4:07

Главная фишка EDA анализа!!!!! Как делать EDA?

5:29

Рассматриваем гипотезы

6:13

Анализируем целевую переменную (таргет) / Дисбаланс классов

7:11

Первая гипотеза. Распределение возраста в разрезе таргета (seaborn), нормализуем данные

8:11

Вторая гипотеза. Распределение возраста в разрезе образования / boxplot

10:10

Корреляция признаков

10:30

Третья гипотеза. Анализ зарплат в разрезе таргета / образования

12:33

Feature engineering (генерация фичей), как его делать, какие могут быть новые признаки, что делать с признаком типа дата-время, логарифмирование

15:07

Построение модели машинного обучения. 1 этап - бейзлайн (Logistic Regression)

16:46

Как интерпретировать и использовать метрики precision, recall, roc-auc

17:41

Строим roc-auc curve

18:03

Подбор параметров модели с использованием GridSearch

18:40

Сравниваем результаты на графике roc-auc / анализируем метрики

19:32

Анализ важных признаков после обучения модели

20:02

Используем для анализа важных признаков библиотеку shap / Интерпретирует результаты

22:30

Коэффициенты логистической регрессии

23:27

Сравнение важных признаков в разных классов (визуализация различий)

Различие между Искусственным Интеллектом, Машинным обучением и Глубоким обучением

Различие между Искусственным Интеллектом, Машинным обучением и Глубоким обучением

Канал: Etudarium

дата сайентист

data science

data scientist

career in tech

работа в big data

data science interview

саморазвитие

sillicon valley

основы программирования

как проходить интервью

аналитик

Yandex

анализ данных

datascience

карьера в data science

Sysml

data analyst

ods

open data science

машинное обучение

miracl6

PyMagic

deep learning

perceptron

нейронные сети

глубокое обучение

нейронки

нейросеть

pytorch

функция активации

сигмоида

релу

relu

python

00:00:01

построить модель машинного обучения для

00:00:03

задачи кредитного скоринга мы с вами

00:00:06

научимся правильно подходить к анализу

00:00:07

данных разведочного анализу данных

00:00:10

построим саму модель машинного обучения

00:00:12

подберем для нее параметры а также

00:00:15

сделаем вывод на основании данных всем

00:00:17

привет меня зовут никулина анастасия

00:00:19

более четырех лет я работаю в да это

00:00:21

sites а также и обучаю этому направлению

00:00:24

перед тем как построить вашу модель

00:00:25

машинного обучения необходимо провести

00:00:28

предварительную работу это и обсуждение

00:00:30

с бизнесом задач это и сбор требований

00:00:32

это и сбор данных но данные этапы

00:00:36

сегодня мы опустим так как это огромная

00:00:39

но интересная тема для отдельного видео

00:00:41

давайте с вами тогда приступим к самой

00:00:44

задачи я открываю свой предварительно

00:00:47

подготовленный ноутбук здесь на самом

00:00:49

деле все как обычно я импортирую все эти

00:00:51

библиотеки которые мне нужны фиксирую

00:00:54

ран don't stay также вы можете добавлять

00:00:56

всегда необходимые импорт и уже в

00:00:58

процессе давайте посмотрим в чем вообще

00:01:01

заключается наша задача у нас есть

00:01:03

данные по клиента уровень его

00:01:05

образования пол возраст наличие машины

00:01:09

доходы и так далее первое что нужно

00:01:11

всегда делать это нужно посмотреть сны и

00:01:15

самое главное что необходимо здесь

00:01:17

делать это нам нужно предсказать флаг

00:01:20

дефолта по кредиту что это означает вот

00:01:22

вы приходите в банк вы берете например

00:01:25

кредит вам должен понять стоит ли вам

00:01:27

выдавать от кредит или нет если не стоит

00:01:30

то вы для него плохой заемщик а если

00:01:32

стоит то вы для него хороший заемщик так

00:01:35

вот здесь важно нам построить такую

00:01:38

модель который нам будет это все

00:01:39

предсказывать первое мы всегда смотрим

00:01:41

на размер datasette а что здесь

00:01:43

интересно да сайт он небольшой дата сайт

00:01:45

он игрушечный но если у вас будет больше

00:01:49

полей если вы уже работаете где-то в

00:01:51

банке то здесь ничего страшного нет все

00:01:54

эти же самые инструменты

00:01:55

все те же самые подходы применяются и

00:01:57

для большего количества данных строк и

00:01:59

объектов чуть-чуть может быть что-то

00:02:02

видоизменена но подходы те же самые

00:02:04

далее мы всегда смотрим какие у нас есть

00:02:06

типы данных если где-то пропуске

00:02:08

например в признаки образования у нас

00:02:11

есть пропуске соответственно можно

00:02:13

посмотреть например в процентном

00:02:15

соотношении сколько это примерно где-то

00:02:17

0 и 4 процента нет это не так уж мы не

00:02:20

так уж много

00:02:21

можно заполнять модой можно заполнять

00:02:25

просто словом как нам до если у вас

00:02:27

алгоритмы особенности на основании

00:02:29

деревьев можно посмотреть также на

00:02:31

уникальное значение здесь я

00:02:33

предварительно скажем попробовала это

00:02:35

все расшифровать но на самом деле это не

00:02:37

точно если у вас есть какие-то другие

00:02:38

варианты вы можете написать кстати в

00:02:40

комментариях под этим видео можно как я

00:02:44

уже говорил заполнить это все модой так

00:02:46

как пропусков не так много следующий

00:02:48

этап которые вы должны в принципе делать

00:02:50

обязательно еще перед разведочные

00:02:52

анализом данных вы должны посмотреть на

00:02:54

основные статистики на основные

00:02:56

статистики для числовых данных здесь вы

00:02:59

можете посмотреть где у нас есть какие

00:03:01

средне например средняя зарплата в

00:03:04

данном случае у нас будет

00:03:06

сколько 41000 дальше можно посмотреть на

00:03:11

максимальное значение нашей зарплаты и

00:03:13

на минимальное значение нашей зарплаты

00:03:16

также и на возраст также на другие

00:03:18

характеристики клайн танди здесь можно

00:03:20

убрать это в принципе айдишники бы лучше

00:03:22

всегда как бы не включать в анализ можно

00:03:25

посмотреть на количество уникальных

00:03:26

значений

00:03:27

объясню зачем это нам home джесс его в

00:03:31

аркаду с у нас показал как числовые

00:03:33

перемены то есть это по сути числа то

00:03:35

здесь интересно это интересно то что

00:03:38

давайте посмотрим сейчас поближе

00:03:47

там числа 12 3 на самом деле не понятно

00:03:51

то ли это выраженная какая-то степень по

00:03:53

нарастанию то ли нет поэтому я решила

00:03:55

сделать это все типа объект ну и конечно

00:03:58

же посмотреть на основные статистики по

00:04:00

категориальном различным переменам где

00:04:02

что чаще встречаются сколько у нас

00:04:04

уникальных значений в каждом признаки

00:04:06

так далее дальше вот здесь вот очень

00:04:09

самая главная фишка которую вы должны

00:04:10

понять и все даже практикующие достаньте

00:04:13

из перед тем как строить ваш разведочный

00:04:15

анализ данных вы должны прийти к бизнесу

00:04:19

все это обсудить обсудить вашу задачу и

00:04:22

составить несколько гипотез гипотез

00:04:25

здесь в данном конкретном случае мало

00:04:27

поэтому дома вы берете этот ноутбук и

00:04:29

сами пробуйте добавлять еще как минимум

00:04:31

пять гипотез минимум 10 гипотез вы

00:04:34

должны проработать с бизнесом где-то

00:04:36

добавить от себя и что делать дальше с

00:04:38

этими гипотезами а вот по ним вы уже

00:04:41

можете строить разведочный анализ данных

00:04:43

не нужно городить по 100 графиков

00:04:47

абсолютно непонятных ни в какой

00:04:51

неструктурированных непонятно откуда

00:04:53

куда что берется где логика потому что в

00:04:56

особенно на как ли то что я сейчас вижу

00:04:58

это полный какой разнобой и ты видишь

00:05:01

миллион этих графиков и не понимаешь что

00:05:04

к чему и куда тебе приходится их изучать

00:05:06

так вот чтобы этого не повторять чтоб у

00:05:08

вас было все логично структурировано и

00:05:11

вы всегда потом могли ответить на вопрос

00:05:13

бизнеса прописываем гипотезы а уже потом после

00:05:16

них добавляем наши графики статистике

00:05:19

находим и так далее если вы понимаете

00:05:22

что что-то вы еще не до исследовали то

00:05:24

после того как вы это все сделаете

00:05:26

добавляется также дополнительно гипотезы

00:05:28

и строить играть ну например мы

00:05:30

предполагаем что возраст так сказать

00:05:32

хороших заемщиков он будет больше то

00:05:35

есть чем будет больше возраст до если мы

00:05:38

сравним 20-30 лет то человеку как у

00:05:40

которого 30 лет вероятнее всего он

00:05:43

вернет наш кредит до чем по стране с тем

00:05:46

кто кому 20 лет то есть он более

00:05:49

устойчивы на ногах например также с

00:05:51

образованием то есть чем лучше у

00:05:53

человека образа они то есть если у него

00:05:54

высшее образование тем скорее всего

00:05:56

вероятнее она отдаст нам кредит либо же

00:06:00

наоборот человек вообще ничего не

00:06:01

заканчивал кроме школы дай бог 9 классов

00:06:04

понятное дело что для нас это

00:06:06

потенциальные будут риски вот пример

00:06:09

таких гипотез вы можете также

00:06:11

дополнительно еще и составить следующим

00:06:13

делом вы всегда должны смотреть на ваш

00:06:15

торги что я здесь делаю я просто

00:06:17

делаю

00:06:18

скажем такую нормализацию чтобы мне

00:06:21

посмотреть именно в процентном

00:06:22

соотношении я конечно могу посмотреть

00:06:24

это в количественном но мне на самом

00:06:27

деле это не сильно да что то картинка

00:06:29

поэтому всегда лучше при случае это все

00:06:32

нормализовать так вот давайте посмотрим

00:06:34

на нашу таргет переменную если у вас

00:06:36

классификацию смотрите вот такое

00:06:38

процентное соотношение если у вас задача

00:06:41

регрессий то вы смотрите на

00:06:43

распределение вашей целевой переменной

00:06:45

если она очень сильно скажем есть

00:06:48

большие выбросы распредели на

00:06:49

ненормальную у нее модальные так далее

00:06:51

то конечно нужно принимать уже решение

00:06:54

как вы можете трансформировать вашу

00:06:55

целевую переменную мы здесь видим

00:06:58

довольно такой очень хороший дисбаланс

00:07:01

поэтому мы в дальнейшем это обязательно

00:07:04

конечно же должны учесть и при выборе

00:07:06

метрик и оценки метрик и при построении

00:07:08

самой модели

00:07:10

следующий так у нас было гипотеза с

00:07:12

возрастом конечно я беру все мои

00:07:16

данные по возрасту и опять же нормируют

00:07:19

здесь на размер класса потому что если я

00:07:22

здесь не от нормировано размеры классы у

00:07:24

меня все это будет количественно я

00:07:26

никогда не не пойму вот это вот

00:07:28

соотношение здесь я использую библиотеку

00:07:30

сибур везде и в принципе использую вот

00:07:34

эти строки мне просто скажем увеличивают

00:07:37

масштаб моих моего текста по различным

00:07:41

осям а также и подписи но и плюс конечно

00:07:44

же тайтл

00:07:46

смотрите отчасти наша гипотеза

00:07:47

подтвердилась но на самом деле оно

00:07:50

графики разница не сильно поэтому мы

00:07:53

всегда можешь вывести средние и медиану

00:07:56

и вообще наши средний в принципе мы это

00:07:58

мы там видим что действительно разница

00:08:01

есть на 2 на 1 года если мы прям маш

00:08:04

моду то мы здесь можем заметить что

00:08:06

разница аж на 5 лет следующий момент

00:08:09

следующий гипотеза связанные с

00:08:10

образованием

00:08:12

давайте для начала вообще посмотрим на

00:08:14

распределение вот для данного значения

00:08:17

точнее для и сиди да я их назвал

00:08:20

академики довольно заметно что у них

00:08:23

даже возраст смещен больше в правую

00:08:27

сторону то есть большую сторону можно

00:08:29

посмотреть на наши медианы на наши

00:08:32

квантили до чтобы не только по графику

00:08:35

ориентироваться здесь можем посмотреть

00:08:37

распределение здесь вообще и выбросы и

00:08:39

сами значения в особенности средних в

00:08:43

принципе да картинка так и подходит

00:08:45

здесь вы уже самом ноутбуке можете

00:08:47

подробно все прочитать чтобы мы сейчас

00:08:49

не застряли на этом внимание

00:08:51

теперь самое интересное давайте разобьем

00:08:55

это все и по возрасту и по образованию и

00:08:57

по нашему флагу дефолта мы видим здесь

00:09:00

очень интересную картинку в особенности

00:09:03

скажем для академиков до что возраст

00:09:06

плохих заемщиков он чуть выше чем

00:09:08

хороших но что удивительно разброс

00:09:11

значений возраста хороших заемщиков он

00:09:14

довольно большой то есть скорее всего

00:09:16

это просто какие-то могут быть

00:09:17

незначительные отклонения но они не

00:09:19

супер важны будут для модели давайте

00:09:22

смотреть дальше здесь можно вывести уже

00:09:24

чисел ки

00:09:26

следующий график вот здесь он более

00:09:28

интересней я все абсолютно вот здесь

00:09:30

нормирующие раз повторяю на размер

00:09:33

классов на размер объектов с дефолт

00:09:37

равна нулю и на размеру data set a

00:09:40

default равный единице что мы здесь

00:09:42

видим мы видим что вот этот показатель

00:09:43

вот это значение в образовании будет

00:09:46

скорее всего влиять больше на нашу

00:09:47

модель довольно такая хорошая разницы по

00:09:50

сравнению со всеми да а вот этот

00:09:53

параметр он будет влиять как бы более в

00:09:55

другую сторону чем больше мы будем

00:09:57

встречать людей я так понимаю

00:09:59

законченным высшим образованием тем

00:10:01

больше у них шансов получить во-первых

00:10:03

кредит и конечно же вернуть его что для

00:10:06

банка хорошо

00:10:07

ну и конечно вы всегда можете

00:10:09

дополнительно еще посмотреть корреляцию

00:10:11

между между различными числовыми

00:10:14

признаками о здесь в данном случае мы на

00:10:17

самом деле ничего прям интересно вот

00:10:19

такого не видим может быть first time i

00:10:21

и с ней но я думаю это не сильно будет

00:10:24

влиять как то на нашу модель то есть

00:10:27

здесь обратная зависимость получается

00:10:29

что далее это анализ зарплат во-первых

00:10:33

посмотрим на распределение зарплат

00:10:35

относительно плохой заемщик либо хороший

00:10:39

здесь очень довольно плохо видно потому

00:10:42

что разброс он довольно огромный и

00:10:46

во-вторых конечно

00:10:48

сам этот признак он имеет ненормальное

00:10:51

распределение

00:10:53

если мы попытаемся посмотреть на бокс

00:10:56

платы то увидим ну скажем тоже похожую

00:11:00

картинку и что-то здесь оценивать

00:11:03

довольно тяжело я бы лучше посмотрел она

00:11:05

сами значения в данном конкретном случае

00:11:07

и увидела что разницы в в принципе в

00:11:13

средних она

00:11:14

примерно там где-то даже на

00:11:17

сколько-то будет на 10 тысяч ну довольно

00:11:21

существенно что нам говорит о том что

00:11:22

зарплата конечно же она потенциально

00:11:24

тоже может влиять на нашу модель

00:11:27

далее так как у нас переменная

00:11:29

распределена ненормально наш признак

00:11:31

точнее то давайте попробуем его про

00:11:34

логарифмировать также я попробую это все

00:11:36

разбить на

00:11:38

различные категории с точки зрения

00:11:41

образования на различные точнее объекты

00:11:44

плюс это все конечно же

00:11:47

вывести вот в такой вот интересный

00:11:50

график тоже распределение то есть в

00:11:52

зависимости от образования

00:11:53

какой у нас будет распределение дохода

00:11:56

здесь что мы опять наблюдаем что очень

00:11:59

интересно у академиков опять вот это

00:12:01

распределение сдвигается в большую

00:12:02

сторону так что потенциально конечно

00:12:05

можно говорить что там академики и

00:12:08

пейджер сейчас и скажу кто это

00:12:14

так

00:12:17

это аспирант есть ну подозрение что они

00:12:21

скажем более такие хорошие заемщики

00:12:24

ходят в эту категорию но скорее всего

00:12:27

будет как мне кажется влиять больше вот

00:12:31

именно значение этого признака далее

00:12:33

следующий этап это ключ engineering

00:12:35

очень советую в особенно банковской

00:12:37

среде даже в телекоме можно вытащить

00:12:39

различные лаги лет то есть это

00:12:42

предыдущее значение

00:12:44

предыдущая только значения например в

00:12:46

прошлом месяце либо какие-то средние

00:12:48

либо какие-то средние по нескольким

00:12:51

месяцам по сезонам давайте посмотрим как

00:12:54

то мы можем сделать ну во первых я

00:13:00

бы построила различные распределения для

00:13:03

моих числовых данных и как раз о том что

00:13:06

я говорила меня смутил немножко у меня

00:13:08

смутило немножко зарплата и здесь по

00:13:10

графику видео вижу что не только она то

00:13:13

есть возраст и

00:13:15

количество быка и рук в снт количество

00:13:19

вроде запросов быка и она они

00:13:21

распределены не нормально и вот этот еще

00:13:25

показателям тоже распределенными

00:13:26

нормально поэтому конечно лучше его

00:13:28

попробовать нормализовать при помощи

00:13:31

логарифмирования но и можно посмотреть

00:13:33

после этого что нам это все дало видим

00:13:36

что как то более менее все это

00:13:38

сместилась в одну сторону то есть в

00:13:39

данном случае для модели уже как-то

00:13:41

проще будет с таким распределением

00:13:42

справляться сохранились сделали дальше

00:13:46

генерируем новые признаки что касаемо

00:13:48

даты ребят если у вас не временные ряды

00:13:52

то не нужно разбивать в особенности

00:13:55

брать год например да как многие

00:13:57

добавляют еще год потому что если вы

00:13:59

добавите год то представьте у вас были

00:14:02

года с 2000 по 2020 а тут появляется

00:14:05

2021 и вашу модель просто не может

00:14:08

различить она не понимает что это новый

00:14:11

год дадут 1021 поэтому лучше здесь

00:14:15

сделать какие фичи это месяц это сезон

00:14:18

это рабочий или выходной день ну и много

00:14:21

чего еще но главное не привязываться к

00:14:24

тому что если вы подадите на вход новые

00:14:26

данные чтобы они скажем не были новыми

00:14:28

для вашей модели дальше можно делать

00:14:31

различные средние доходы с учетом

00:14:33

рейтинга регион с учетом возраста с

00:14:35

учетом вашего скоро в быка и и

00:14:39

попробуйте сделать еще сами

00:14:41

дополнительно ну хотя бы три или пять

00:14:43

дополнительных свечей

00:14:46

возможно они вам помогут а возможно и

00:14:48

нет это тоже всё нужно тестировать с

00:14:50

ними или без них ну я сохраняю моей

00:14:54

категориальные колоночки чтобы потом их

00:14:57

дампа вать здесь на всякий случай еще

00:15:00

раз смотрю что у меня нигде нет пропуска

00:15:02

какой у меня тип данных да чтоб сравнить

00:15:06

далее приступаем их с вами к разделу

00:15:09

моделирование самые интересные как вы

00:15:11

видите что разведочный анализ данных до

00:15:13

этого он может занимать очень большое

00:15:15

количество времени поэтому нужно всегда

00:15:18

это учитывать и закладывать свое время

00:15:20

при том когда вы будете обсуждать

00:15:22

сколько вам времени необходимо когда

00:15:24

будет вас спрашивать например бизнес я

00:15:27

делаю бинаризации моих признаков

00:15:31

категориальных потому что сегодня я буду

00:15:34

использовать именно

00:15:36

логистическую регрессию потому что так

00:15:38

как у нас и банковские данные так как

00:15:40

это кредитный скоринг тут больше

00:15:42

подходит скажем вот эта модель с учетом

00:15:44

ее интерпретируем асти мы с вами

00:15:46

разбиваем наши данным на тренировочные

00:15:49

тестовые обязательно нужную старте fai ставить в

00:15:52

особенности если у вас здесь баланс

00:15:53

иначе если вы не поставить у вас где-то

00:15:55

перекос например первого класса будет

00:15:57

меньше где то больше то есть он не будет

00:15:59

учитывать это было сироп балансировка

00:16:01

соотношение

00:16:03

следующий этап это bass line что такое

00:16:06

бей зла и это ваша модель без подбора

00:16:08

каких-либо параметров вот какая такая

00:16:10

она есть здесь единственное я добавила

00:16:12

класс уэйд то есть он автоматически

00:16:14

распознает где у нас дисбалансе под это

00:16:16

подстраивается можно попробовать смогут

00:16:19

можно попробовать угар семплинг андерсен

00:16:21

blink но честно они не дают прям

00:16:25

какого-то вау результаты конечно вы

00:16:27

можете потестить но по опыту на прежде

00:16:30

всего этого овир сэмплинг вы просто

00:16:31

можете тупые ли смогут забить памяти на

00:16:34

этом ничего по этому в принципе сами

00:16:36

алгоритмы с этими сами хорошо

00:16:37

справляются

00:16:39

обучаем для rokovoko обязательно не

00:16:41

забываем подавать именно скорее и

00:16:43

посмотрим на наше значение метры здесь

00:16:46

очень важно есть момент для бизнеса

00:16:48

смотрите с ним это нужно обсуждать если

00:16:50

наша ошибка при выдаче кредита нам будет

00:16:53

очень дорого стоить например выдали в

00:16:55

кредит плохому заемщика и он вами его не

00:16:57

вернул и это очень дорогая скажем

00:16:59

операции то лучше конечно в данном

00:17:03

случае будет ориентироваться уже на

00:17:05

метрику recall

00:17:07

если мы несем не такие прям сильные

00:17:10

потери и для нас потери больше когда

00:17:13

человек человеку мы не выдали кредит до

00:17:16

то есть чем больше мы раздали тем больше

00:17:18

мы получили а на самом деле на плохих мы

00:17:20

как-то можем не сильно заострять свое

00:17:22

внимание то тогда лучше смотреть вам на

00:17:26

метр при сижу на плюс конечно всегда

00:17:28

данном случае мы смотрим на рука у кай

00:17:30

на другие наши метрики чтобы сравнить с

00:17:32

бы из лайнам и другими моделями rokovoko

00:17:35

он просто показывает скажем степень того

00:17:37

насколько хорошо вы предсказываете 1

00:17:40

класс я добавлю схемы и метрики в

00:17:42

отдельный dataframe чтобы потом не все

00:17:44

это сравнить пока предварительно такой у

00:17:47

меня получился dataframe

00:17:48

построить свою урок кривую выведу

00:17:51

значения рука ук в принципе хотя бы она

00:17:56

уже больше чем 0 5 ну что если 05 нашу

00:17:59

модель чисто рандомны как бы уже хорошо

00:18:02

уже это радует следующий процесс это

00:18:05

подбор наших параметров здесь может быть

00:18:07

еще даже желательно побольше нужно взять

00:18:10

различных значений сразу предупреждаю

00:18:12

что угрызешь может работать долго и два

00:18:15

часа и полтора часа зависит от модели

00:18:17

зависит от вашей начинки компьютера

00:18:19

поэтому я предварительно уже но нашла с

00:18:22

учетом этого наилучшие параметры

00:18:24

написала их в отдельный словарик и

00:18:28

просто падаю на вход своей логистической

00:18:31

регрессии и

00:18:32

обучаю свою новую модель

00:18:35

обязательно вывожу метрики здесь я хочу

00:18:39

вывести рукаву который у меня был на

00:18:41

предыдущем шаге а теперь на этом который

00:18:44

на этом у меня будет зеленым цветом они

00:18:46

кстати принципе практически

00:18:48

лежат на одной прямой это говорит о том

00:18:51

что мы и не прям так сильно дать у нелли

00:18:53

нашу модель можем посмотреть уже на

00:18:56

метрики в таблице я еще дополнительные

00:18:58

здесь раскрасила да у нас чуть-чуть

00:19:01

поднялись метрики что нам очень важно у

00:19:03

нас довольно хорошо поднялся прикол при

00:19:07

сезон не так сильно но так как мы

00:19:09

например хотим заострить внимание на

00:19:11

точности то мы говорим что уже как бы

00:19:14

хорошо лучше добавить сюда

00:19:16

дополнительные какие-либо параметры с

00:19:18

этим поиграться также в конечно можете

00:19:21

служить для вашей практики чисто

00:19:23

посмотреть и другие модели и по

00:19:25

сравнивать их например деревья например

00:19:28

бусинки я думаю что они отработают даже

00:19:30

лучше следующий этап после того как вы

00:19:33

выбрали свою модель сравнению с бы zloy

00:19:36

нами сравнении с другими моделями то

00:19:39

данный этап будет называться как анализ

00:19:42

важных признаков сегодня мы с вами

00:19:43

рассмотрим такую библиотеку как шоб она

00:19:46

довольно в принципе интересны и полезны

00:19:48

но необязательно конечно всегда ее

00:19:50

использовать а в особенности она очень

00:19:53

сложно будет для бизнеса поэтому вам

00:19:55

придется какое-то дополнительное усилие

00:19:57

отравить чтобы они поняли либо делать

00:19:59

какие-то сноски сейчас вы поймете почему

00:20:01

так как у нас линейная модель я

00:20:04

использую такой

00:20:06

линейный экспандер дальше здесь подаю

00:20:09

саму модель на вход подаю свой 3-ий ну и

00:20:13

конечно же на expander подаю тестовые

00:20:16

данные и

00:20:17

вывожу сам график

00:20:20

давайте разбираться во первых как это

00:20:24

все работает данная библиотека именно

00:20:27

находит важность по значением шепли она

00:20:31

вычисляется отдельно то есть там есть

00:20:33

некоторые статистические приемы

00:20:36

как этот график читать смотрите

00:20:39

красненьким это значение признака выше

00:20:43

синеньким это значение признака ниже вот

00:20:47

эта ось это как бы говорит о нашей такой

00:20:50

целевой переменой то есть в эту сторону

00:20:52

ближе к единичке об эту сторону ближе к

00:20:56

нулю то есть ноль это наши хорошие

00:20:58

заемщики единичка это наши плохие

00:21:01

заемщик и кстати признаки расположены по

00:21:04

степени и убывания важности то есть

00:21:07

первый самый важный признак это score из

00:21:09

бака и так что ребят дать у него им свой

00:21:13

score кредитный score и заботимся о нем

00:21:16

читаем график чем больше получается

00:21:19

возрастает этот признак до красненьким

00:21:22

тем выше вероятность что заемщик будет

00:21:25

плахе

00:21:27

чем ниже значение

00:21:29

скоро быка и тем больше вероятность что

00:21:32

заемщик будет хороший и он обернет

00:21:34

кредит что интересно у нас в топ-2 выпал

00:21:38

выпало образования как раз о том что о

00:21:41

том чем я вам говорил а чем больше

00:21:44

это значение образованию если там стоит

00:21:47

единичка да тем выше вероятность что

00:21:50

заемщик плохой вот как раз о том что мы

00:21:54

делали с вами предварительные выводы это

00:21:55

и показал сам возраст это показало

00:21:57

самообразование и чем она ниже

00:22:00

если оно равно 0 икуто заемщику нас

00:22:03

пульт хороший рейтинг региона что тоже

00:22:06

очень интересно чем ниже рейтинг региона

00:22:08

тем выше вероятность что заемщик плохой

00:22:11

чем выше значение этого показателя тем

00:22:15

выше вероятность что заемщик хороший то

00:22:17

есть видимо еще от региона они смотрят

00:22:19

хорошие либо плохой заемщик ну и также у

00:22:22

нас вывелся полу что интересно месяц и

00:22:26

другие показатели также в эти показатели

00:22:29

сможете посмотреть и выгрузив

00:22:31

коэффициенты вашего генетической

00:22:33

агрессии можно посмотреть предварительно

00:22:36

на это топ я его записала в отдельный

00:22:38

dataframe и что интересно до 1 даже наши

00:22:40

две фичи совпали но если посмотреть

00:22:43

внимательно то у нас 4 позиции будет

00:22:47

другой тип образование здесь они где-то

00:22:50

могут отличаться потому что сам подход и

00:22:53

расчета важности признаков он немного

00:22:55

отличается это как бы нормально но здесь

00:22:57

нужно учитывать что этот веса при модель

00:22:59

поэтому можно в принципе объединить эти

00:23:02

важные признаки и уже на основании их

00:23:04

ориентироваться дальнейшем можно кстати

00:23:07

посмотреть скорби к и просто стало даже

00:23:09

интересно значение мы видим что даже с

00:23:12

медиана и значение для хороших заемщиков

00:23:15

она получается ниже чем для плохих при

00:23:18

speedo так оно и есть

00:23:22

так можно это все в принципе объединить

00:23:25

можно это все посмотреть да можно

00:23:28

посмотреть еще на числовые признаки я

00:23:30

всегда очень рекомендую когда вы нашли

00:23:32

важные признаки просто возьмите их из

00:23:35

data set a и сделайте например для

00:23:37

числовых признаков это различные среды

00:23:39

то различные квантили чтобы посмотреть

00:23:41

именно на разницу и вам эти графики

00:23:43

потом могут пригодится если мы говорим

00:23:46

про категориальные переменные то так же

00:23:48

можно посмотреть там как часто

00:23:50

встречаются те или иные значения что

00:23:52

тоже будет довольно интересно и во

00:23:54

первых для вас для понимания сами данных

00:23:56

ну и конечно же помочь бизнесу потому

00:23:59

что не всегда все

00:24:01

процессы скажем состоят из модели

00:24:04

машинного обучения где-то вот именно

00:24:06

данной информации может помочь при

00:24:08

формировании например различных промыта

00:24:10

также будет довольно им все очень

00:24:12

интересно я очень надеюсь что вам

00:24:14

понравился этот разбор задачи по да это

00:24:17

сайнс поэтому если вы хотите каких-то

00:24:19

еще новых разборов и других задач

00:24:21

обязательно пишите комментарии под этим

00:24:23

видео и всем тогда до скорой встречи

00:24:25

всем пока

Описание:

Авторский курс по Data Science для начинающих https://pymagic.ru/ Код на Boosty https://boosty.to/miracl6/posts/96b1fe98-d4ea-455c-b1a1-670a2b90668b?share=post_link Разбираем задачу по Data Science кредитный скоринг с использованием модели логистической регрессии. Учимся грамотно подходить к разведочному анализу данных EDA, а также обучать модель ML и интерпретировать результаты для бизнеса. Новая группа ВКонтакте https://vk.com/pymagic Датасет https://www.kaggle.com/c/sf-dst-scoring Таймкоды: 00:00 Задача кредитного скоринга 00:25 Что необходимо сделать перед построением модели 00:44 Загрузка данных и предварительный анализ 04:07 Главная фишка EDA анализа!!!!! Как делать EDA? 05:29 Рассматриваем гипотезы 06:13 Анализируем целевую переменную (таргет) / Дисбаланс классов 07:11 Первая гипотеза. Распределение возраста в разрезе таргета (seaborn), нормализуем данные 08:11 Вторая гипотеза. Распределение возраста в разрезе образования / boxplot 10:10 Корреляция признаков 10:30 Третья гипотеза. Анализ зарплат в разрезе таргета / образования 12:33 Feature engineering (генерация фичей), как его делать, какие могут быть новые признаки, что делать с признаком типа дата-время, логарифмирование 15:07 Построение модели машинного обучения. 1 этап - бейзлайн (Logistic Regression) 16:46 Как интерпретировать и использовать метрики precision, recall, roc-auc 17:41 Строим roc-auc curve 18:03 Подбор параметров модели с использованием GridSearch 18:40 Сравниваем результаты на графике roc-auc / анализируем метрики 19:32 Анализ важных признаков после обучения модели 20:02 Используем для анализа важных признаков библиотеку shap / Интерпретирует результаты 22:30 Коэффициенты логистической регрессии 23:27 Сравнение важных признаков в разных классов (визуализация различий) Instagram* https://www.facebook.com/unsupportedbrowser Группы в ВКонтакте https://vk.com/pymagic Telegram https://t.me/pymagic *Компания Meta - организация, деятельность которой запрещена на территории Российской Федерации

Готовим варианты загрузки

Популярные

HD видео

Только звук

Все форматы

* — Если видео проигрывается в новой вкладке, перейдите в неё, а затем кликните по видео правой кнопкой мыши и выберите пункт "Сохранить видео как..."

** — Ссылка предназначенная для онлайн воспроизведения в специализированных плеерах

Вопросы о скачивании видео

Как можно скачать видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"?

Сайт http://unidownloader.com/ — лучший способ скачать видео или отдельно аудиодорожку, если хочется обойтись без установки программ и расширений. Расширение UDL Helper — удобная кнопка, которая органично встраивается на сайты YouTube, Instagram и OK.ru для быстрого скачивания контента.
Программа UDL Client (для Windows) — самое мощное решение, поддерживающее более 900 сайтов, социальных сетей и видеохостингов, а также любое качество видео, которое доступно в источнике.
UDL Lite — представляет собой удобный доступ к сайту с мобильного устройства. С его помощью вы можете легко скачивать видео прямо на смартфон.

Какой формат видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python" выбрать?

Наилучшее качество имеют форматы FullHD (1080p), 2K (1440p), 4K (2160p) и 8K (4320p). Чем больше разрешение вашего экрана, тем выше должно быть качество видео. Однако следует учесть и другие факторы: скорость скачивания, количество свободного места, а также производительность устройства при воспроизведении.

Почему компьютер зависает при загрузке видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"?

Полностью зависать браузер/компьютер не должен! Если это произошло, просьба сообщить об этом, указав ссылку на видео. Иногда видео нельзя скачать напрямую в подходящем формате, поэтому мы добавили возможность конвертации файла в нужный формат. В отдельных случаях этот процесс может активно использовать ресурсы компьютера.

Как скачать видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python" на телефон?

Вы можете скачать видео на свой смартфон с помощью сайта или pwa-приложения UDL Lite. Также есть возможность отправить ссылку на скачивание через QR-код с помощью расширения UDL Helper.

Как скачать аудиодорожку (музыку) в MP3 "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"?

Самый удобный способ — воспользоваться программой UDL Client, которая поддерживает конвертацию видео в формат MP3. В некоторых случаях MP3 можно скачать и через расширение UDL Helper.

Как сохранить кадр из видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"?

Эта функция доступна в расширении UDL Helper. Убедитесь, что в настройках отмечен пункт «Отображать кнопку сохранения скриншота из видео». В правом нижнем углу плеера левее иконки «Настройки» должна появиться иконка камеры, по нажатию на которую текущий кадр из видео будет сохранён на ваш компьютер в формате JPEG.

Сколько это всё стоит?

Нисколько. Наши сервисы абсолютно бесплатны для всех пользователей. Здесь нет PRO подписок, нет ограничений на количество или максимальную длину скачиваемого видео.