background top icon
background center wave icon
background filled rhombus icon
background two lines icon
background stroke rhombus icon

Скачать "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"

input logo icon
"videoThumbnail Data Science пример задачи кредитного скоринга / Урок построения модели ML на python
Оглавление
|

Оглавление

0:00
Задача кредитного скоринга
0:25
Что необходимо сделать перед построением модели
0:44
Загрузка данных и предварительный анализ
4:07
Главная фишка EDA анализа!!!!! Как делать EDA?
5:29
Рассматриваем гипотезы
6:13
Анализируем целевую переменную (таргет) / Дисбаланс классов
7:11
Первая гипотеза. Распределение возраста в разрезе таргета (seaborn), нормализуем данные
8:11
Вторая гипотеза. Распределение возраста в разрезе образования / boxplot
10:10
Корреляция признаков
10:30
Третья гипотеза. Анализ зарплат в разрезе таргета / образования
12:33
Feature engineering (генерация фичей), как его делать, какие могут быть новые признаки, что делать с признаком типа дата-время, логарифмирование
15:07
Построение модели машинного обучения. 1 этап - бейзлайн (Logistic Regression)
16:46
Как интерпретировать и использовать метрики precision, recall, roc-auc
17:41
Строим roc-auc curve
18:03
Подбор параметров модели с использованием GridSearch
18:40
Сравниваем результаты на графике roc-auc / анализируем метрики
19:32
Анализ важных признаков после обучения модели
20:02
Используем для анализа важных признаков библиотеку shap / Интерпретирует результаты
22:30
Коэффициенты логистической регрессии
23:27
Сравнение важных признаков в разных классов (визуализация различий)
Теги видео
|

Теги видео

дата сайентист
data science
data scientist
career in tech
работа в big data
data science interview
саморазвитие
sillicon valley
основы программирования
как проходить интервью
аналитик
Yandex
анализ данных
datascience
карьера в data science
Sysml
data analyst
ods
open data science
машинное обучение
miracl6
PyMagic
deep learning
perceptron
нейронные сети
глубокое обучение
нейронки
нейросеть
pytorch
функция активации
сигмоида
релу
relu
python
Субтитры
|

Субтитры

subtitles menu arrow
  • enАнглийский
Скачать
00:00:01
построить модель машинного обучения для
00:00:03
задачи кредитного скоринга мы с вами
00:00:06
научимся правильно подходить к анализу
00:00:07
данных разведочного анализу данных
00:00:10
построим саму модель машинного обучения
00:00:12
подберем для нее параметры а также
00:00:15
сделаем вывод на основании данных всем
00:00:17
привет меня зовут никулина анастасия
00:00:19
более четырех лет я работаю в да это
00:00:21
sites а также и обучаю этому направлению
00:00:24
перед тем как построить вашу модель
00:00:25
машинного обучения необходимо провести
00:00:28
предварительную работу это и обсуждение
00:00:30
с бизнесом задач это и сбор требований
00:00:32
это и сбор данных но данные этапы
00:00:36
сегодня мы опустим так как это огромная
00:00:39
но интересная тема для отдельного видео
00:00:41
давайте с вами тогда приступим к самой
00:00:44
задачи я открываю свой предварительно
00:00:47
подготовленный ноутбук здесь на самом
00:00:49
деле все как обычно я импортирую все эти
00:00:51
библиотеки которые мне нужны фиксирую
00:00:54
ран don't stay также вы можете добавлять
00:00:56
всегда необходимые импорт и уже в
00:00:58
процессе давайте посмотрим в чем вообще
00:01:01
заключается наша задача у нас есть
00:01:03
данные по клиента уровень его
00:01:05
образования пол возраст наличие машины
00:01:09
доходы и так далее первое что нужно
00:01:11
всегда делать это нужно посмотреть сны и
00:01:15
самое главное что необходимо здесь
00:01:17
делать это нам нужно предсказать флаг
00:01:20
дефолта по кредиту что это означает вот
00:01:22
вы приходите в банк вы берете например
00:01:25
кредит вам должен понять стоит ли вам
00:01:27
выдавать от кредит или нет если не стоит
00:01:30
то вы для него плохой заемщик а если
00:01:32
стоит то вы для него хороший заемщик так
00:01:35
вот здесь важно нам построить такую
00:01:38
модель который нам будет это все
00:01:39
предсказывать первое мы всегда смотрим
00:01:41
на размер datasette а что здесь
00:01:43
интересно да сайт он небольшой дата сайт
00:01:45
он игрушечный но если у вас будет больше
00:01:49
полей если вы уже работаете где-то в
00:01:51
банке то здесь ничего страшного нет все
00:01:54
эти же самые инструменты
00:01:55
все те же самые подходы применяются и
00:01:57
для большего количества данных строк и
00:01:59
объектов чуть-чуть может быть что-то
00:02:02
видоизменена но подходы те же самые
00:02:04
далее мы всегда смотрим какие у нас есть
00:02:06
типы данных если где-то пропуске
00:02:08
например в признаки образования у нас
00:02:11
есть пропуске соответственно можно
00:02:13
посмотреть например в процентном
00:02:15
соотношении сколько это примерно где-то
00:02:17
0 и 4 процента нет это не так уж мы не
00:02:20
так уж много
00:02:21
можно заполнять модой можно заполнять
00:02:25
просто словом как нам до если у вас
00:02:27
алгоритмы особенности на основании
00:02:29
деревьев можно посмотреть также на
00:02:31
уникальное значение здесь я
00:02:33
предварительно скажем попробовала это
00:02:35
все расшифровать но на самом деле это не
00:02:37
точно если у вас есть какие-то другие
00:02:38
варианты вы можете написать кстати в
00:02:40
комментариях под этим видео можно как я
00:02:44
уже говорил заполнить это все модой так
00:02:46
как пропусков не так много следующий
00:02:48
этап которые вы должны в принципе делать
00:02:50
обязательно еще перед разведочные
00:02:52
анализом данных вы должны посмотреть на
00:02:54
основные статистики на основные
00:02:56
статистики для числовых данных здесь вы
00:02:59
можете посмотреть где у нас есть какие
00:03:01
средне например средняя зарплата в
00:03:04
данном случае у нас будет
00:03:06
сколько 41000 дальше можно посмотреть на
00:03:11
максимальное значение нашей зарплаты и
00:03:13
на минимальное значение нашей зарплаты
00:03:16
также и на возраст также на другие
00:03:18
характеристики клайн танди здесь можно
00:03:20
убрать это в принципе айдишники бы лучше
00:03:22
всегда как бы не включать в анализ можно
00:03:25
посмотреть на количество уникальных
00:03:26
значений
00:03:27
объясню зачем это нам home джесс его в
00:03:31
аркаду с у нас показал как числовые
00:03:33
перемены то есть это по сути числа то
00:03:35
здесь интересно это интересно то что
00:03:38
давайте посмотрим сейчас поближе
00:03:47
там числа 12 3 на самом деле не понятно
00:03:51
то ли это выраженная какая-то степень по
00:03:53
нарастанию то ли нет поэтому я решила
00:03:55
сделать это все типа объект ну и конечно
00:03:58
же посмотреть на основные статистики по
00:04:00
категориальном различным переменам где
00:04:02
что чаще встречаются сколько у нас
00:04:04
уникальных значений в каждом признаки
00:04:06
так далее дальше вот здесь вот очень
00:04:09
самая главная фишка которую вы должны
00:04:10
понять и все даже практикующие достаньте
00:04:13
из перед тем как строить ваш разведочный
00:04:15
анализ данных вы должны прийти к бизнесу
00:04:19
все это обсудить обсудить вашу задачу и
00:04:22
составить несколько гипотез гипотез
00:04:25
здесь в данном конкретном случае мало
00:04:27
поэтому дома вы берете этот ноутбук и
00:04:29
сами пробуйте добавлять еще как минимум
00:04:31
пять гипотез минимум 10 гипотез вы
00:04:34
должны проработать с бизнесом где-то
00:04:36
добавить от себя и что делать дальше с
00:04:38
этими гипотезами а вот по ним вы уже
00:04:41
можете строить разведочный анализ данных
00:04:43
не нужно городить по 100 графиков
00:04:47
абсолютно непонятных ни в какой
00:04:51
неструктурированных непонятно откуда
00:04:53
куда что берется где логика потому что в
00:04:56
особенно на как ли то что я сейчас вижу
00:04:58
это полный какой разнобой и ты видишь
00:05:01
миллион этих графиков и не понимаешь что
00:05:04
к чему и куда тебе приходится их изучать
00:05:06
так вот чтобы этого не повторять чтоб у
00:05:08
вас было все логично структурировано и
00:05:11
вы всегда потом могли ответить на вопрос
00:05:13
бизнеса прописываем гипотезы а уже потом после
00:05:16
них добавляем наши графики статистике
00:05:19
находим и так далее если вы понимаете
00:05:22
что что-то вы еще не до исследовали то
00:05:24
после того как вы это все сделаете
00:05:26
добавляется также дополнительно гипотезы
00:05:28
и строить играть ну например мы
00:05:30
предполагаем что возраст так сказать
00:05:32
хороших заемщиков он будет больше то
00:05:35
есть чем будет больше возраст до если мы
00:05:38
сравним 20-30 лет то человеку как у
00:05:40
которого 30 лет вероятнее всего он
00:05:43
вернет наш кредит до чем по стране с тем
00:05:46
кто кому 20 лет то есть он более
00:05:49
устойчивы на ногах например также с
00:05:51
образованием то есть чем лучше у
00:05:53
человека образа они то есть если у него
00:05:54
высшее образование тем скорее всего
00:05:56
вероятнее она отдаст нам кредит либо же
00:06:00
наоборот человек вообще ничего не
00:06:01
заканчивал кроме школы дай бог 9 классов
00:06:04
понятное дело что для нас это
00:06:06
потенциальные будут риски вот пример
00:06:09
таких гипотез вы можете также
00:06:11
дополнительно еще и составить следующим
00:06:13
делом вы всегда должны смотреть на ваш
00:06:15
торги что я здесь делаю я просто
00:06:17
делаю
00:06:18
скажем такую нормализацию чтобы мне
00:06:21
посмотреть именно в процентном
00:06:22
соотношении я конечно могу посмотреть
00:06:24
это в количественном но мне на самом
00:06:27
деле это не сильно да что то картинка
00:06:29
поэтому всегда лучше при случае это все
00:06:32
нормализовать так вот давайте посмотрим
00:06:34
на нашу таргет переменную если у вас
00:06:36
классификацию смотрите вот такое
00:06:38
процентное соотношение если у вас задача
00:06:41
регрессий то вы смотрите на
00:06:43
распределение вашей целевой переменной
00:06:45
если она очень сильно скажем есть
00:06:48
большие выбросы распредели на
00:06:49
ненормальную у нее модальные так далее
00:06:51
то конечно нужно принимать уже решение
00:06:54
как вы можете трансформировать вашу
00:06:55
целевую переменную мы здесь видим
00:06:58
довольно такой очень хороший дисбаланс
00:07:01
поэтому мы в дальнейшем это обязательно
00:07:04
конечно же должны учесть и при выборе
00:07:06
метрик и оценки метрик и при построении
00:07:08
самой модели
00:07:10
следующий так у нас было гипотеза с
00:07:12
возрастом конечно я беру все мои
00:07:16
данные по возрасту и опять же нормируют
00:07:19
здесь на размер класса потому что если я
00:07:22
здесь не от нормировано размеры классы у
00:07:24
меня все это будет количественно я
00:07:26
никогда не не пойму вот это вот
00:07:28
соотношение здесь я использую библиотеку
00:07:30
сибур везде и в принципе использую вот
00:07:34
эти строки мне просто скажем увеличивают
00:07:37
масштаб моих моего текста по различным
00:07:41
осям а также и подписи но и плюс конечно
00:07:44
же тайтл
00:07:46
смотрите отчасти наша гипотеза
00:07:47
подтвердилась но на самом деле оно
00:07:50
графики разница не сильно поэтому мы
00:07:53
всегда можешь вывести средние и медиану
00:07:56
и вообще наши средний в принципе мы это
00:07:58
мы там видим что действительно разница
00:08:01
есть на 2 на 1 года если мы прям маш
00:08:04
моду то мы здесь можем заметить что
00:08:06
разница аж на 5 лет следующий момент
00:08:09
следующий гипотеза связанные с
00:08:10
образованием
00:08:12
давайте для начала вообще посмотрим на
00:08:14
распределение вот для данного значения
00:08:17
точнее для и сиди да я их назвал
00:08:20
академики довольно заметно что у них
00:08:23
даже возраст смещен больше в правую
00:08:27
сторону то есть большую сторону можно
00:08:29
посмотреть на наши медианы на наши
00:08:32
квантили до чтобы не только по графику
00:08:35
ориентироваться здесь можем посмотреть
00:08:37
распределение здесь вообще и выбросы и
00:08:39
сами значения в особенности средних в
00:08:43
принципе да картинка так и подходит
00:08:45
здесь вы уже самом ноутбуке можете
00:08:47
подробно все прочитать чтобы мы сейчас
00:08:49
не застряли на этом внимание
00:08:51
теперь самое интересное давайте разобьем
00:08:55
это все и по возрасту и по образованию и
00:08:57
по нашему флагу дефолта мы видим здесь
00:09:00
очень интересную картинку в особенности
00:09:03
скажем для академиков до что возраст
00:09:06
плохих заемщиков он чуть выше чем
00:09:08
хороших но что удивительно разброс
00:09:11
значений возраста хороших заемщиков он
00:09:14
довольно большой то есть скорее всего
00:09:16
это просто какие-то могут быть
00:09:17
незначительные отклонения но они не
00:09:19
супер важны будут для модели давайте
00:09:22
смотреть дальше здесь можно вывести уже
00:09:24
чисел ки
00:09:26
следующий график вот здесь он более
00:09:28
интересней я все абсолютно вот здесь
00:09:30
нормирующие раз повторяю на размер
00:09:33
классов на размер объектов с дефолт
00:09:37
равна нулю и на размеру data set a
00:09:40
default равный единице что мы здесь
00:09:42
видим мы видим что вот этот показатель
00:09:43
вот это значение в образовании будет
00:09:46
скорее всего влиять больше на нашу
00:09:47
модель довольно такая хорошая разницы по
00:09:50
сравнению со всеми да а вот этот
00:09:53
параметр он будет влиять как бы более в
00:09:55
другую сторону чем больше мы будем
00:09:57
встречать людей я так понимаю
00:09:59
законченным высшим образованием тем
00:10:01
больше у них шансов получить во-первых
00:10:03
кредит и конечно же вернуть его что для
00:10:06
банка хорошо
00:10:07
ну и конечно вы всегда можете
00:10:09
дополнительно еще посмотреть корреляцию
00:10:11
между между различными числовыми
00:10:14
признаками о здесь в данном случае мы на
00:10:17
самом деле ничего прям интересно вот
00:10:19
такого не видим может быть first time i
00:10:21
и с ней но я думаю это не сильно будет
00:10:24
влиять как то на нашу модель то есть
00:10:27
здесь обратная зависимость получается
00:10:29
что далее это анализ зарплат во-первых
00:10:33
посмотрим на распределение зарплат
00:10:35
относительно плохой заемщик либо хороший
00:10:39
здесь очень довольно плохо видно потому
00:10:42
что разброс он довольно огромный и
00:10:46
во-вторых конечно
00:10:48
сам этот признак он имеет ненормальное
00:10:51
распределение
00:10:53
если мы попытаемся посмотреть на бокс
00:10:56
платы то увидим ну скажем тоже похожую
00:11:00
картинку и что-то здесь оценивать
00:11:03
довольно тяжело я бы лучше посмотрел она
00:11:05
сами значения в данном конкретном случае
00:11:07
и увидела что разницы в в принципе в
00:11:13
средних она
00:11:14
примерно там где-то даже на
00:11:17
сколько-то будет на 10 тысяч ну довольно
00:11:21
существенно что нам говорит о том что
00:11:22
зарплата конечно же она потенциально
00:11:24
тоже может влиять на нашу модель
00:11:27
далее так как у нас переменная
00:11:29
распределена ненормально наш признак
00:11:31
точнее то давайте попробуем его про
00:11:34
логарифмировать также я попробую это все
00:11:36
разбить на
00:11:38
различные категории с точки зрения
00:11:41
образования на различные точнее объекты
00:11:44
плюс это все конечно же
00:11:47
вывести вот в такой вот интересный
00:11:50
график тоже распределение то есть в
00:11:52
зависимости от образования
00:11:53
какой у нас будет распределение дохода
00:11:56
здесь что мы опять наблюдаем что очень
00:11:59
интересно у академиков опять вот это
00:12:01
распределение сдвигается в большую
00:12:02
сторону так что потенциально конечно
00:12:05
можно говорить что там академики и
00:12:08
пейджер сейчас и скажу кто это
00:12:14
так
00:12:17
это аспирант есть ну подозрение что они
00:12:21
скажем более такие хорошие заемщики
00:12:24
ходят в эту категорию но скорее всего
00:12:27
будет как мне кажется влиять больше вот
00:12:31
именно значение этого признака далее
00:12:33
следующий этап это ключ engineering
00:12:35
очень советую в особенно банковской
00:12:37
среде даже в телекоме можно вытащить
00:12:39
различные лаги лет то есть это
00:12:42
предыдущее значение
00:12:44
предыдущая только значения например в
00:12:46
прошлом месяце либо какие-то средние
00:12:48
либо какие-то средние по нескольким
00:12:51
месяцам по сезонам давайте посмотрим как
00:12:54
то мы можем сделать ну во первых я
00:13:00
бы построила различные распределения для
00:13:03
моих числовых данных и как раз о том что
00:13:06
я говорила меня смутил немножко у меня
00:13:08
смутило немножко зарплата и здесь по
00:13:10
графику видео вижу что не только она то
00:13:13
есть возраст и
00:13:15
количество быка и рук в снт количество
00:13:19
вроде запросов быка и она они
00:13:21
распределены не нормально и вот этот еще
00:13:25
показателям тоже распределенными
00:13:26
нормально поэтому конечно лучше его
00:13:28
попробовать нормализовать при помощи
00:13:31
логарифмирования но и можно посмотреть
00:13:33
после этого что нам это все дало видим
00:13:36
что как то более менее все это
00:13:38
сместилась в одну сторону то есть в
00:13:39
данном случае для модели уже как-то
00:13:41
проще будет с таким распределением
00:13:42
справляться сохранились сделали дальше
00:13:46
генерируем новые признаки что касаемо
00:13:48
даты ребят если у вас не временные ряды
00:13:52
то не нужно разбивать в особенности
00:13:55
брать год например да как многие
00:13:57
добавляют еще год потому что если вы
00:13:59
добавите год то представьте у вас были
00:14:02
года с 2000 по 2020 а тут появляется
00:14:05
2021 и вашу модель просто не может
00:14:08
различить она не понимает что это новый
00:14:11
год дадут 1021 поэтому лучше здесь
00:14:15
сделать какие фичи это месяц это сезон
00:14:18
это рабочий или выходной день ну и много
00:14:21
чего еще но главное не привязываться к
00:14:24
тому что если вы подадите на вход новые
00:14:26
данные чтобы они скажем не были новыми
00:14:28
для вашей модели дальше можно делать
00:14:31
различные средние доходы с учетом
00:14:33
рейтинга регион с учетом возраста с
00:14:35
учетом вашего скоро в быка и и
00:14:39
попробуйте сделать еще сами
00:14:41
дополнительно ну хотя бы три или пять
00:14:43
дополнительных свечей
00:14:46
возможно они вам помогут а возможно и
00:14:48
нет это тоже всё нужно тестировать с
00:14:50
ними или без них ну я сохраняю моей
00:14:54
категориальные колоночки чтобы потом их
00:14:57
дампа вать здесь на всякий случай еще
00:15:00
раз смотрю что у меня нигде нет пропуска
00:15:02
какой у меня тип данных да чтоб сравнить
00:15:06
далее приступаем их с вами к разделу
00:15:09
моделирование самые интересные как вы
00:15:11
видите что разведочный анализ данных до
00:15:13
этого он может занимать очень большое
00:15:15
количество времени поэтому нужно всегда
00:15:18
это учитывать и закладывать свое время
00:15:20
при том когда вы будете обсуждать
00:15:22
сколько вам времени необходимо когда
00:15:24
будет вас спрашивать например бизнес я
00:15:27
делаю бинаризации моих признаков
00:15:31
категориальных потому что сегодня я буду
00:15:34
использовать именно
00:15:36
логистическую регрессию потому что так
00:15:38
как у нас и банковские данные так как
00:15:40
это кредитный скоринг тут больше
00:15:42
подходит скажем вот эта модель с учетом
00:15:44
ее интерпретируем асти мы с вами
00:15:46
разбиваем наши данным на тренировочные
00:15:49
тестовые обязательно нужную старте fai ставить в
00:15:52
особенности если у вас здесь баланс
00:15:53
иначе если вы не поставить у вас где-то
00:15:55
перекос например первого класса будет
00:15:57
меньше где то больше то есть он не будет
00:15:59
учитывать это было сироп балансировка
00:16:01
соотношение
00:16:03
следующий этап это bass line что такое
00:16:06
бей зла и это ваша модель без подбора
00:16:08
каких-либо параметров вот какая такая
00:16:10
она есть здесь единственное я добавила
00:16:12
класс уэйд то есть он автоматически
00:16:14
распознает где у нас дисбалансе под это
00:16:16
подстраивается можно попробовать смогут
00:16:19
можно попробовать угар семплинг андерсен
00:16:21
blink но честно они не дают прям
00:16:25
какого-то вау результаты конечно вы
00:16:27
можете потестить но по опыту на прежде
00:16:30
всего этого овир сэмплинг вы просто
00:16:31
можете тупые ли смогут забить памяти на
00:16:34
этом ничего по этому в принципе сами
00:16:36
алгоритмы с этими сами хорошо
00:16:37
справляются
00:16:39
обучаем для rokovoko обязательно не
00:16:41
забываем подавать именно скорее и
00:16:43
посмотрим на наше значение метры здесь
00:16:46
очень важно есть момент для бизнеса
00:16:48
смотрите с ним это нужно обсуждать если
00:16:50
наша ошибка при выдаче кредита нам будет
00:16:53
очень дорого стоить например выдали в
00:16:55
кредит плохому заемщика и он вами его не
00:16:57
вернул и это очень дорогая скажем
00:16:59
операции то лучше конечно в данном
00:17:03
случае будет ориентироваться уже на
00:17:05
метрику recall
00:17:07
если мы несем не такие прям сильные
00:17:10
потери и для нас потери больше когда
00:17:13
человек человеку мы не выдали кредит до
00:17:16
то есть чем больше мы раздали тем больше
00:17:18
мы получили а на самом деле на плохих мы
00:17:20
как-то можем не сильно заострять свое
00:17:22
внимание то тогда лучше смотреть вам на
00:17:26
метр при сижу на плюс конечно всегда
00:17:28
данном случае мы смотрим на рука у кай
00:17:30
на другие наши метрики чтобы сравнить с
00:17:32
бы из лайнам и другими моделями rokovoko
00:17:35
он просто показывает скажем степень того
00:17:37
насколько хорошо вы предсказываете 1
00:17:40
класс я добавлю схемы и метрики в
00:17:42
отдельный dataframe чтобы потом не все
00:17:44
это сравнить пока предварительно такой у
00:17:47
меня получился dataframe
00:17:48
построить свою урок кривую выведу
00:17:51
значения рука ук в принципе хотя бы она
00:17:56
уже больше чем 0 5 ну что если 05 нашу
00:17:59
модель чисто рандомны как бы уже хорошо
00:18:02
уже это радует следующий процесс это
00:18:05
подбор наших параметров здесь может быть
00:18:07
еще даже желательно побольше нужно взять
00:18:10
различных значений сразу предупреждаю
00:18:12
что угрызешь может работать долго и два
00:18:15
часа и полтора часа зависит от модели
00:18:17
зависит от вашей начинки компьютера
00:18:19
поэтому я предварительно уже но нашла с
00:18:22
учетом этого наилучшие параметры
00:18:24
написала их в отдельный словарик и
00:18:28
просто падаю на вход своей логистической
00:18:31
регрессии и
00:18:32
обучаю свою новую модель
00:18:35
обязательно вывожу метрики здесь я хочу
00:18:39
вывести рукаву который у меня был на
00:18:41
предыдущем шаге а теперь на этом который
00:18:44
на этом у меня будет зеленым цветом они
00:18:46
кстати принципе практически
00:18:48
лежат на одной прямой это говорит о том
00:18:51
что мы и не прям так сильно дать у нелли
00:18:53
нашу модель можем посмотреть уже на
00:18:56
метрики в таблице я еще дополнительные
00:18:58
здесь раскрасила да у нас чуть-чуть
00:19:01
поднялись метрики что нам очень важно у
00:19:03
нас довольно хорошо поднялся прикол при
00:19:07
сезон не так сильно но так как мы
00:19:09
например хотим заострить внимание на
00:19:11
точности то мы говорим что уже как бы
00:19:14
хорошо лучше добавить сюда
00:19:16
дополнительные какие-либо параметры с
00:19:18
этим поиграться также в конечно можете
00:19:21
служить для вашей практики чисто
00:19:23
посмотреть и другие модели и по
00:19:25
сравнивать их например деревья например
00:19:28
бусинки я думаю что они отработают даже
00:19:30
лучше следующий этап после того как вы
00:19:33
выбрали свою модель сравнению с бы zloy
00:19:36
нами сравнении с другими моделями то
00:19:39
данный этап будет называться как анализ
00:19:42
важных признаков сегодня мы с вами
00:19:43
рассмотрим такую библиотеку как шоб она
00:19:46
довольно в принципе интересны и полезны
00:19:48
но необязательно конечно всегда ее
00:19:50
использовать а в особенности она очень
00:19:53
сложно будет для бизнеса поэтому вам
00:19:55
придется какое-то дополнительное усилие
00:19:57
отравить чтобы они поняли либо делать
00:19:59
какие-то сноски сейчас вы поймете почему
00:20:01
так как у нас линейная модель я
00:20:04
использую такой
00:20:06
линейный экспандер дальше здесь подаю
00:20:09
саму модель на вход подаю свой 3-ий ну и
00:20:13
конечно же на expander подаю тестовые
00:20:16
данные и
00:20:17
вывожу сам график
00:20:20
давайте разбираться во первых как это
00:20:24
все работает данная библиотека именно
00:20:27
находит важность по значением шепли она
00:20:31
вычисляется отдельно то есть там есть
00:20:33
некоторые статистические приемы
00:20:36
как этот график читать смотрите
00:20:39
красненьким это значение признака выше
00:20:43
синеньким это значение признака ниже вот
00:20:47
эта ось это как бы говорит о нашей такой
00:20:50
целевой переменой то есть в эту сторону
00:20:52
ближе к единичке об эту сторону ближе к
00:20:56
нулю то есть ноль это наши хорошие
00:20:58
заемщики единичка это наши плохие
00:21:01
заемщик и кстати признаки расположены по
00:21:04
степени и убывания важности то есть
00:21:07
первый самый важный признак это score из
00:21:09
бака и так что ребят дать у него им свой
00:21:13
score кредитный score и заботимся о нем
00:21:16
читаем график чем больше получается
00:21:19
возрастает этот признак до красненьким
00:21:22
тем выше вероятность что заемщик будет
00:21:25
плахе
00:21:27
чем ниже значение
00:21:29
скоро быка и тем больше вероятность что
00:21:32
заемщик будет хороший и он обернет
00:21:34
кредит что интересно у нас в топ-2 выпал
00:21:38
выпало образования как раз о том что о
00:21:41
том чем я вам говорил а чем больше
00:21:44
это значение образованию если там стоит
00:21:47
единичка да тем выше вероятность что
00:21:50
заемщик плохой вот как раз о том что мы
00:21:54
делали с вами предварительные выводы это
00:21:55
и показал сам возраст это показало
00:21:57
самообразование и чем она ниже
00:22:00
если оно равно 0 икуто заемщику нас
00:22:03
пульт хороший рейтинг региона что тоже
00:22:06
очень интересно чем ниже рейтинг региона
00:22:08
тем выше вероятность что заемщик плохой
00:22:11
чем выше значение этого показателя тем
00:22:15
выше вероятность что заемщик хороший то
00:22:17
есть видимо еще от региона они смотрят
00:22:19
хорошие либо плохой заемщик ну и также у
00:22:22
нас вывелся полу что интересно месяц и
00:22:26
другие показатели также в эти показатели
00:22:29
сможете посмотреть и выгрузив
00:22:31
коэффициенты вашего генетической
00:22:33
агрессии можно посмотреть предварительно
00:22:36
на это топ я его записала в отдельный
00:22:38
dataframe и что интересно до 1 даже наши
00:22:40
две фичи совпали но если посмотреть
00:22:43
внимательно то у нас 4 позиции будет
00:22:47
другой тип образование здесь они где-то
00:22:50
могут отличаться потому что сам подход и
00:22:53
расчета важности признаков он немного
00:22:55
отличается это как бы нормально но здесь
00:22:57
нужно учитывать что этот веса при модель
00:22:59
поэтому можно в принципе объединить эти
00:23:02
важные признаки и уже на основании их
00:23:04
ориентироваться дальнейшем можно кстати
00:23:07
посмотреть скорби к и просто стало даже
00:23:09
интересно значение мы видим что даже с
00:23:12
медиана и значение для хороших заемщиков
00:23:15
она получается ниже чем для плохих при
00:23:18
speedo так оно и есть
00:23:22
так можно это все в принципе объединить
00:23:25
можно это все посмотреть да можно
00:23:28
посмотреть еще на числовые признаки я
00:23:30
всегда очень рекомендую когда вы нашли
00:23:32
важные признаки просто возьмите их из
00:23:35
data set a и сделайте например для
00:23:37
числовых признаков это различные среды
00:23:39
то различные квантили чтобы посмотреть
00:23:41
именно на разницу и вам эти графики
00:23:43
потом могут пригодится если мы говорим
00:23:46
про категориальные переменные то так же
00:23:48
можно посмотреть там как часто
00:23:50
встречаются те или иные значения что
00:23:52
тоже будет довольно интересно и во
00:23:54
первых для вас для понимания сами данных
00:23:56
ну и конечно же помочь бизнесу потому
00:23:59
что не всегда все
00:24:01
процессы скажем состоят из модели
00:24:04
машинного обучения где-то вот именно
00:24:06
данной информации может помочь при
00:24:08
формировании например различных промыта
00:24:10
также будет довольно им все очень
00:24:12
интересно я очень надеюсь что вам
00:24:14
понравился этот разбор задачи по да это
00:24:17
сайнс поэтому если вы хотите каких-то
00:24:19
еще новых разборов и других задач
00:24:21
обязательно пишите комментарии под этим
00:24:23
видео и всем тогда до скорой встречи
00:24:25
всем пока

Описание:

Авторский курс по Data Science для начинающих https://pymagic.ru/ Код на Boosty https://boosty.to/miracl6/posts/96b1fe98-d4ea-455c-b1a1-670a2b90668b?share=post_link Разбираем задачу по Data Science кредитный скоринг с использованием модели логистической регрессии. Учимся грамотно подходить к разведочному анализу данных EDA, а также обучать модель ML и интерпретировать результаты для бизнеса. Новая группа ВКонтакте https://vk.com/pymagic Датасет https://www.kaggle.com/c/sf-dst-scoring Таймкоды: 00:00 Задача кредитного скоринга 00:25 Что необходимо сделать перед построением модели 00:44 Загрузка данных и предварительный анализ 04:07 Главная фишка EDA анализа!!!!! Как делать EDA? 05:29 Рассматриваем гипотезы 06:13 Анализируем целевую переменную (таргет) / Дисбаланс классов 07:11 Первая гипотеза. Распределение возраста в разрезе таргета (seaborn), нормализуем данные 08:11 Вторая гипотеза. Распределение возраста в разрезе образования / boxplot 10:10 Корреляция признаков 10:30 Третья гипотеза. Анализ зарплат в разрезе таргета / образования 12:33 Feature engineering (генерация фичей), как его делать, какие могут быть новые признаки, что делать с признаком типа дата-время, логарифмирование 15:07 Построение модели машинного обучения. 1 этап - бейзлайн (Logistic Regression) 16:46 Как интерпретировать и использовать метрики precision, recall, roc-auc 17:41 Строим roc-auc curve 18:03 Подбор параметров модели с использованием GridSearch 18:40 Сравниваем результаты на графике roc-auc / анализируем метрики 19:32 Анализ важных признаков после обучения модели 20:02 Используем для анализа важных признаков библиотеку shap / Интерпретирует результаты 22:30 Коэффициенты логистической регрессии 23:27 Сравнение важных признаков в разных классов (визуализация различий) Instagram* https://www.facebook.com/unsupportedbrowser Группы в ВКонтакте https://vk.com/pymagic Telegram https://t.me/pymagic *Компания Meta - организация, деятельность которой запрещена на территории Российской Федерации

Готовим варианты загрузки

popular icon
Популярные
hd icon
HD видео
audio icon
Только звук
total icon
Все форматы
* — Если видео проигрывается в новой вкладке, перейдите в неё, а затем кликните по видео правой кнопкой мыши и выберите пункт "Сохранить видео как..."
** — Ссылка предназначенная для онлайн воспроизведения в специализированных плеерах

Вопросы о скачивании видео

mobile menu iconКак можно скачать видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"?mobile menu icon

  • Сайт http://unidownloader.com/ — лучший способ скачать видео или отдельно аудиодорожку, если хочется обойтись без установки программ и расширений. Расширение UDL Helper — удобная кнопка, которая органично встраивается на сайты YouTube, Instagram и OK.ru для быстрого скачивания контента.

  • Программа UDL Client (для Windows) — самое мощное решение, поддерживающее более 900 сайтов, социальных сетей и видеохостингов, а также любое качество видео, которое доступно в источнике.

  • UDL Lite — представляет собой удобный доступ к сайту с мобильного устройства. С его помощью вы можете легко скачивать видео прямо на смартфон.

mobile menu iconКакой формат видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python" выбрать?mobile menu icon

  • Наилучшее качество имеют форматы FullHD (1080p), 2K (1440p), 4K (2160p) и 8K (4320p). Чем больше разрешение вашего экрана, тем выше должно быть качество видео. Однако следует учесть и другие факторы: скорость скачивания, количество свободного места, а также производительность устройства при воспроизведении.

mobile menu iconПочему компьютер зависает при загрузке видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"?mobile menu icon

  • Полностью зависать браузер/компьютер не должен! Если это произошло, просьба сообщить об этом, указав ссылку на видео. Иногда видео нельзя скачать напрямую в подходящем формате, поэтому мы добавили возможность конвертации файла в нужный формат. В отдельных случаях этот процесс может активно использовать ресурсы компьютера.

mobile menu iconКак скачать видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python" на телефон?mobile menu icon

  • Вы можете скачать видео на свой смартфон с помощью сайта или pwa-приложения UDL Lite. Также есть возможность отправить ссылку на скачивание через QR-код с помощью расширения UDL Helper.

mobile menu iconКак скачать аудиодорожку (музыку) в MP3 "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"?mobile menu icon

  • Самый удобный способ — воспользоваться программой UDL Client, которая поддерживает конвертацию видео в формат MP3. В некоторых случаях MP3 можно скачать и через расширение UDL Helper.

mobile menu iconКак сохранить кадр из видео "Data Science пример задачи кредитного скоринга / Урок построения модели ML на python"?mobile menu icon

  • Эта функция доступна в расширении UDL Helper. Убедитесь, что в настройках отмечен пункт «Отображать кнопку сохранения скриншота из видео». В правом нижнем углу плеера левее иконки «Настройки» должна появиться иконка камеры, по нажатию на которую текущий кадр из видео будет сохранён на ваш компьютер в формате JPEG.

mobile menu iconСколько это всё стоит?mobile menu icon

  • Нисколько. Наши сервисы абсолютно бесплатны для всех пользователей. Здесь нет PRO подписок, нет ограничений на количество или максимальную длину скачиваемого видео.