background top icon
background center wave icon
background filled rhombus icon
background two lines icon
background stroke rhombus icon

Скачать "Аналитика категориальных переменных: поподробнее про хи-квадрат"

input logo icon
Теги видео
|

Теги видео

Анатолий Карпов
Аналитика
машинное обучение
data science
SQL
база данных
Python
pandas
визуализация
карьера
зарплата аналитика
курсы
karpov courses
курсы по программированию
курсы по аналитике
курсы по стастистике
dataframe
ML
stepik
data engineer
roapmap
roadmap data engineer
роадмап
инженер данных
пути развития
карьера инженера данных
Субтитры
|

Субтитры

subtitles menu arrow
  • enАнглийский
Скачать
00:00:08
всем привет меня зовут кирилл соколов я
00:00:10
преподаватель курсов и сегодня мы с вами
00:00:12
разберём урок аналитика категориальных
00:00:15
переменных мы с вами в статистике много
00:00:17
сталкивались как раз таки с чистыми
00:00:19
переменными таких как средний чек такие
00:00:22
как количество заказов на пользователи
00:00:23
не только эти с этими параметрами
00:00:26
достаточно легко работать на них
00:00:27
работает большое количество физических
00:00:29
критериев такие как t-критерий стьюдента
00:00:30
такие как bootstrap и другие методы
00:00:33
также с ними легко работать даже при
00:00:35
задачах моделирования очень легко
00:00:37
построить зависимость между например
00:00:39
средним ростом человек и средним весом
00:00:40
человека ну либо ростом и весом человека
00:00:42
с категориальными признаками все
00:00:44
чуть-чуть посложнее там необходимо
00:00:47
понимать как преобразовать признак в
00:00:49
какой-то фактор который позволит себя
00:00:52
использовать внутри статистики и мы
00:00:55
сегодня с вами разберём несколько
00:00:56
подходов в первую очередь мы с вами
00:00:58
разберём применение критерий хи-квадрат
00:01:00
и посмотрим как он может позволить
00:01:04
работать играми признаками и во вторую
00:01:06
очередь мы с вами разберём подход связан
00:01:09
с линейной регрессии на так называемых
00:01:12
дамми-переменных он позволит нам оценить
00:01:14
влияние наших факторов таких как
00:01:17
категориальные факторы на какую-либо
00:01:19
метрику при этом хочу заметить то что
00:01:22
оба этих подхода достаточно близки к
00:01:24
теме оба тестирования потому что
00:01:26
критерий хи-квадрат очень часто
00:01:28
применяется во первых как один из тестов
00:01:30
адаба тестирования если вы проводите
00:01:32
проверку какой-то гипотезы связанный с
00:01:34
верандами да например с конверсиями то с
00:01:37
помощью к это критерий хи-квадрат вы
00:01:38
можете сравнить конверсии но также
00:01:40
критерий хи-квадрат очень обряду стоит в
00:01:43
такой практики как аа тесты я чуть
00:01:45
подробнее сегодня расскажу а также тот
00:01:48
подход который расскажу про линейной
00:01:50
регрессии и оценку промо с помощью
00:01:51
линейной регрессии позволит нам
00:01:53
достаточно хорошо подготовиться к а а по
00:01:56
тесту на то есть сначала предположить
00:01:58
какое влияние мы ожидаем а потом уже
00:02:01
реализовать опыт с для того чтобы
00:02:03
проверить эту нашу гипотезу давайте
00:02:05
перейдем к первой части обсудим клин
00:02:08
применение критерий хи-квадрат а для
00:02:10
одной случайной величины и разберем это
00:02:12
на примере классической задачи про
00:02:14
подбрасывании шестигранного кубика
00:02:15
представьте себе то что вас есть
00:02:17
шестигранный кубик и на нем есть числа 1
00:02:20
2 3 4 5 6 из обычных вот таких жизненных
00:02:25
предположений кажется что кубик должен
00:02:27
быть достаточно ровным аккуратным и
00:02:29
каждое число должно управлять с равной
00:02:31
вероятностью если быть точнее то
00:02:33
собираться 1 6
00:02:35
нас есть какая-то выборка до предположим
00:02:38
мы получили выборку из 6 подбрасываний и
00:02:40
значение 70100 10 20 30 40 и 60 у нас
00:02:45
есть огромное желание проверить
00:02:46
насколько хорошо и точно работает наш
00:02:49
кубик дату из является ли этот кубик
00:02:51
правильным или неправильным правильный
00:02:54
кубик соответственно он обладает равно
00:02:56
мир с этими на каждое число неправильно
00:02:58
кубик обладает неравным вероятностями и
00:03:00
воспользуемся мы как раз и здесь такая
00:03:03
вещь как критерий хи-квадрат
00:03:05
он же называется критерий согласие
00:03:06
персона критерий согласия либо критерий
00:03:09
однородности здесь имеется по под
00:03:11
критериям согласие либо однородности
00:03:12
здесь понимается как раз таки история с
00:03:14
тем что
00:03:16
объекты и категории должно быть
00:03:18
однородные по вероятности с сравниваем
00:03:21
объектам в нашей ситуации сравниваем
00:03:23
объектом будет идеальный кубик на
00:03:25
относительно нашей выборке которая
00:03:27
предполагает собой возможный идеальный
00:03:29
кубик возможно не идеален кубик при этом
00:03:31
стоит проговорить то что у критерия
00:03:33
пирсона а он же критерий хи-квадрат как
00:03:35
и говорил имеется несколько требований
00:03:38
для проведения первое это то что все
00:03:41
наблюдение зависимым в нашем случае все
00:03:43
6 подбрасываний будем независимо у нас
00:03:45
нет такого то что у нас от результаты
00:03:47
предыдущего броска зависит следующий
00:03:49
бросок а также количестве наблюдений в
00:03:51
каждой ячейке должно быть больше пяти
00:03:53
грубо говоря это требование гарантирует
00:03:56
том что у нас имеется больше пяти точек
00:03:59
на каждый элемент то есть не было не
00:04:01
должно быть такого что если вы
00:04:02
подбрасывали кубик у вас в
00:04:04
среди 6 подбрасываний
00:04:07
качаешь среди шести вариантов в одном из
00:04:09
вариантов выпадает песок один из
00:04:12
вариантов падает всего три раза он
00:04:13
должен быть больше количество раз пока
00:04:16
вы не наберете нужную статического не
00:04:17
сможете при не критерий хи-квадрат это
00:04:19
одно из требований одну из уст
00:04:21
критерий хи-квадрат соответствуют he
00:04:23
распределения раз приедем хи-квадрат как
00:04:25
раз таки и так же как те критерии также
00:04:29
как и z критерий обладает своими
00:04:32
критическими значениями которые можно
00:04:34
будет получить таблицу вот давайте
00:04:36
попробуем применить нашу наш к краске
00:04:38
критерий хи-квадрат для того чтобы
00:04:40
проверить наш кубик со значениями со
00:04:43
значениями которые мы собрали и
00:04:45
проверить как раз таки его частности для
00:04:49
этого мы сделаем самый первый самый
00:04:50
первый самое главная вещь сформулируем 0
00:04:53
альтернативную гипотезу а также
00:04:54
фиксируем или уровень значимости
00:04:55
критерий хи-квадрат нулевая гипотеза
00:04:57
фиксирует следующим образом имеется
00:05:00
предположение о том что распределение
00:05:02
категориального признака соответствует
00:05:04
какому-то заранее задумал распределению
00:05:06
вот это равна 0 гипотеза который говорит
00:05:09
о том что распределение нашего
00:05:10
наблюдаемой случайной величиной до
00:05:11
категориальный равно заданному
00:05:13
теоретическому в нашей ситуации
00:05:15
наблюдаемое это наша выборка когда мы
00:05:18
несколько раз подбрасываем кубик а
00:05:20
теоретическое это
00:05:22
распределение которое имеется у
00:05:25
реального кубика идеального кубика
00:05:27
равномерное распределение поэтому каждое
00:05:30
число которое она совпадает хоть один
00:05:32
хоть 2 х 34 х 56
00:05:34
должно выпадать равное количество раз
00:05:36
именно это в коде мы мы и к краске
00:05:39
изобразим в первую очередь мы завели
00:05:41
такой массив как куб в массиве киев у
00:05:45
нас хранятся к краске результата
00:05:46
подбрасывания нашего идеального кубика
00:05:48
ну предположительно недельного
00:05:50
получается яичко выпало повторю 70 раз
00:05:53
двойка выпал 110 расстройка выпало 20
00:05:55
раз 4 по 300 раз пятерка выпала 40 раз
00:05:58
шторка около 60 раз в нашем случае
00:06:02
идеальным кубиком должен быть кубику
00:06:05
которую выпадает равное количество на
00:06:08
каждый из чисел суммарно 1 кубик мы
00:06:11
подбрасывали 600 раз второй кубик мы
00:06:13
сделаем также 600 бросков и тогда если
00:06:16
мы предполагаем равномерное количество у
00:06:18
нас будет 100 100 100 100 100 и 100 на
00:06:20
каждый из чисел отлично мы зафиксировали
00:06:23
с вами нулевую гипотезу мы зафиксировали
00:06:25
с вами альтернативную гипотезу который
00:06:27
является отрицанием нулевой гипотезы да
00:06:29
то есть если у нас нулевая гипотеза это
00:06:31
равенство 1 распыления другому выбор
00:06:33
когда-то альтернативная гипотеза в нашей
00:06:35
ситуации это неравенство давайте теперь
00:06:37
зафиксируем уровень значимости уровень
00:06:39
значимости мы здесь возьмем 5 процентов
00:06:41
это некоторый стандарт при статических
00:06:44
проверки гипотез связано это в первую
00:06:45
очередь с тем то что если брать уровень
00:06:47
значимости ниже то есть вместо таки
00:06:50
процент например один процент либо ноль
00:06:51
один процент то мы рискуем ждать слишком
00:06:54
долго пока накопится необходимое
00:06:56
количество данных под эксперимент потому
00:06:58
что уровни значимости нелинейно
00:07:00
зависимости относительно объема данных и
00:07:02
повышая к краске понижает очень уровне
00:07:04
зачем значимости повышать уверенность в
00:07:08
эксперименте мы сильно увеличиваем объем
00:07:10
выборки что увеличивает сроки
00:07:11
прохождения теста и так пришла пора
00:07:14
после того как мы зафиксировали гипотезы
00:07:16
уровень значимости зафиксировали выборки
00:07:18
рассчитать как раз таки значение
00:07:20
статистики хи-квадрат этого мы
00:07:22
воспользуемся формулой
00:07:24
подставим в эту формулу нашей известный
00:07:27
известное нам числа на помню то что в
00:07:29
этой формуле п это это наша вероятность
00:07:32
наша вероятность которая соответствует
00:07:34
теоретическом теоретическом распыление
00:07:36
она равна числу 1 6 соответственно если
00:07:41
мы подставим ся наше значение из двух
00:07:43
выборок из тестовой и эзотерической
00:07:46
выборки в нашем спереди мы получим
00:07:49
значение равно 526 это второй рисунок
00:07:51
который у нас проведем вторая формула и
00:07:53
для того чтобы дальше проверить верна ли
00:07:57
нулевая гипотеза точнее принимаем ли мы
00:07:59
ну его и к потянули отвергаем 0 гипотезу
00:08:01
нам надо сделать следующие действия нам
00:08:03
надо обратиться к таблицам который
00:08:05
соответствует раз при нем распределению
00:08:08
хи-квадрат посмотреть на значение у
00:08:11
статических и квадратов конкретном
00:08:13
квантили нашем случае эта канитель
00:08:15
соответствует 95 процентам у persantine
00:08:17
нам и
00:08:19
посмотреть чему равно значение
00:08:21
критической статистики в нашей ситуации
00:08:23
при пяти процентам уровне значимости
00:08:25
критическое значение
00:08:26
критерий хи-квадрат а равно 1250 926
00:08:30
грубо говоря а мы получили статистику
00:08:32
равно 526
00:08:34
чаще всего и в нашем случае тоже если
00:08:38
критическое значение сильно ниже чем
00:08:40
полученная статистика то мы должны
00:08:42
отвергнуть 0 гипотезу в пользу
00:08:44
альтернативной мы как какие-то случаи
00:08:46
здесь и наблюдаем 500 вашей сильно
00:08:48
больше чем 12 6 поэтому мы должны
00:08:50
отвергнуть его и гипотезу и сказать себе
00:08:53
честно что наш тестовый кубик на самом
00:08:56
деле нечестный он не идеальный и это
00:09:00
подтверждает краски критерий хи-квадрат
00:09:01
вот мы только что сами рассчитали руками
00:09:04
критерий хи-квадрат то есть зале
00:09:05
подставили формулы считали давайте
00:09:07
воспользуемся питоном для того чтобы
00:09:08
упростить эту ситуацию мы возьмем
00:09:11
библиотеку стал смотался возьмем нее из
00:09:13
нее модуль studs и возьмем как орске
00:09:15
критерий хи-квадрат он называется числе
00:09:17
и под одним в него как раз таки два
00:09:20
наших массива массив куб и массив traced
00:09:24
куб massive cock напомню это наш
00:09:26
тестовый массив массив трасс сетку это
00:09:28
массив который соответствует
00:09:29
теоретическому распылению то есть
00:09:30
идеальному кубику
00:09:32
получится так то что рассчитанное
00:09:35
значение сосиски также равно 526 то есть
00:09:37
мы не ошиблись и в целом библиотека не
00:09:39
врет при расчете статистике также
00:09:42
через сквер позволяет вывести значение
00:09:45
пи вылью пиво или здесь у нас получается
00:09:47
19 в на 10 минут 111 то есть чрезвычайно
00:09:50
низкое значение пиво или очень низкая
00:09:52
что говорит о том что
00:09:54
наша нулевая гипотеза гарантированно
00:09:58
отвергается то есть в пользу
00:09:59
альтернативной гипотезы итог что вручную
00:10:03
что с помощью питона мы подтвердили то
00:10:05
что наш кубик не является идеальным этом
00:10:08
задачка решена давайте передём к
00:10:09
следующему случаю и так как мы только
00:10:11
что решили задачу на 1 выборочной
00:10:13
критерий хи-квадрат то есть мы сравнили
00:10:16
распределение категориальные фичи в
00:10:19
тестовой выборке с каким-то
00:10:20
теоретическим распределением кроме того
00:10:22
распределите квадрат можно использовать
00:10:24
случае если у нас имеется две выборки
00:10:26
для разных выборки особенно это полезно
00:10:29
в случае если у нас есть различные
00:10:31
варианты одного и того же распределения
00:10:33
например предположим что наше
00:10:34
предложение работать несколько разных
00:10:36
городах таких как москва санкт-петербург
00:10:38
новосибирск сочи казань и екатеринбург а
00:10:40
другие да у нас есть первых два варианта
00:10:43
который я хочу привести это две разные
00:10:45
операционные системы на мобильных
00:10:46
телефонов это ios и android для того
00:10:49
чтобы сравнить если у нас не какое-то
00:10:50
различия распыление по городам мы можем
00:10:52
как раз использовать к этой реки квадрат
00:10:54
для этого вы можете посмотреть на
00:10:58
значения в 20 cities который мы
00:11:00
использовали для того чтобы
00:11:01
продемонстрировать мощность а точнее
00:11:03
прямо стрелять варианты работы с крита
00:11:06
рaмкaх квадрат можете посмотреть на
00:11:08
количество пользователей которые у нас
00:11:09
имеются по
00:11:12
каждому из разряда то есть в городе
00:11:14
москва айос у нас тысячи пользователей в
00:11:17
москве с хандрой 920 поле и так далее из
00:11:20
леса мы получили некоторое распределение
00:11:22
категориальное для ios и для android по
00:11:25
каждому из городов напомню should we
00:11:26
реальная сейчас здесь это город и далее
00:11:29
мы должны так же как и в случае с 1
00:11:31
выборочным критериям зафиксировать
00:11:33
сначала нулевую гипотезу в нашем случае
00:11:35
она говорит о том то что категориальное
00:11:36
распределение городов для ios и для
00:11:38
андроидов одинаковая ты зафиксировать
00:11:40
альтернативную гипотезу она опровергает
00:11:43
наши нулевую гипотезу из говорит о том
00:11:45
что наше распределение для различных
00:11:48
платформ как для ее стакана для android
00:11:49
но по городам она разная и фиксируем
00:11:52
уровень значимости уровень значимости
00:11:54
фиксируем как пять процентов ну то есть
00:11:57
стандартный уровень значимости кое как я
00:11:59
и говорила и вы не поверите но мы здесь
00:12:02
можем воспользоваться сразу же критерию
00:12:04
хи-квадрат который у нас был только что
00:12:05
из библиотеки статус и подать него сразу
00:12:08
же два наших различных 2 наших различных
00:12:11
групп и до группу и из группы android
00:12:14
вы можете заметить то что на самом деле
00:12:16
то что операция который мы сейчас
00:12:18
проводим практически ничем не отличается
00:12:20
от предыдущей операции для 1 выборочного
00:12:22
критерия только для для выборочного
00:12:24
теста мы брали теоретическое
00:12:25
распределение
00:12:26
задавая ему сами дело его равномерным
00:12:29
здесь же мы задаем 2 разных выборки и
00:12:32
вместе эротического распределения подаем
00:12:35
распределение нашей конкурирующие группы
00:12:37
мы здесь получим значение статистики
00:12:39
равны 12 7 для 5 процентного уровня
00:12:42
значимости это достаточно высокое
00:12:44
значение статистики ну как высок от
00:12:45
очень невысокая она чуть больше чем наша
00:12:47
так наша критическая статистика потому
00:12:50
что критическая равна 1259 из-за этого
00:12:53
мы получим пиво или равное 0 0 26 что на
00:12:56
самом деле достаточно низко то есть
00:12:58
этапе воля который ниже чем заявлено
00:13:00
уровень значимости она ниже чем пять
00:13:02
процентов из за этого мы вынуждены опять
00:13:04
же отвергнуть нулевую гипотезу и сказать
00:13:06
то что на текущий момент в распределении
00:13:09
в котельной фичи города имеется различие
00:13:12
между платформами ios и android данный
00:13:14
подход можно использовать в например в
00:13:17
тестах в первую очередь это необходимо
00:13:21
нам для того чтобы мы смогли сравнить
00:13:24
равенство групп в тестах по каким-то к
00:13:27
игральным переменным вот например мы
00:13:29
можем сравнить группу а и а до в валютах
00:13:32
нашего теста по делу на то есть по
00:13:35
какому-то конкретному городу критерий
00:13:38
хи-квадрат позволит проверить нам эту
00:13:39
гипотезу то есть проверить правильность
00:13:41
распыление категориальной фичи в одной и
00:13:43
в другой группах а при проведении а
00:13:45
теста алогично можно делать для платформ
00:13:48
то есть для ios и для android логично
00:13:49
можем делать для полов для версий для
00:13:52
версии к краске приложений и так далее в
00:13:56
целом критерий хи-квадрат достаточно
00:13:57
полезный инструмент для того чтобы вы
00:13:59
могли его применять напомню все три
00:14:01
варианта его применения первый это
00:14:03
сравнение распределений тестовый
00:14:06
теоретическую второе это сравнение
00:14:08
распределение двух тестовых например вот
00:14:10
как сейчас мы делали распыление по
00:14:11
городам а также третий вариант мы можем
00:14:13
поменять критерий хи-квадрат для того
00:14:15
чтобы проводить
00:14:17
абэ тест на конверсиях например это тоже
00:14:21
вариант который нельзя отметать и вот
00:14:23
как минимум три статистических подхода к
00:14:26
оценке и работе с игральными переменными

Описание:

Учитесь Data Science с нами: https://karpov.courses/

Готовим варианты загрузки

popular icon
Популярные
hd icon
HD видео
audio icon
Только звук
total icon
Все форматы
* — Если видео проигрывается в новой вкладке, перейдите в неё, а затем кликните по видео правой кнопкой мыши и выберите пункт "Сохранить видео как..."
** — Ссылка предназначенная для онлайн воспроизведения в специализированных плеерах

Вопросы о скачивании видео

mobile menu iconКак можно скачать видео "Аналитика категориальных переменных: поподробнее про хи-квадрат"?mobile menu icon

  • Сайт http://unidownloader.com/ — лучший способ скачать видео или отдельно аудиодорожку, если хочется обойтись без установки программ и расширений. Расширение UDL Helper — удобная кнопка, которая органично встраивается на сайты YouTube, Instagram и OK.ru для быстрого скачивания контента.

  • Программа UDL Client (для Windows) — самое мощное решение, поддерживающее более 900 сайтов, социальных сетей и видеохостингов, а также любое качество видео, которое доступно в источнике.

  • UDL Lite — представляет собой удобный доступ к сайту с мобильного устройства. С его помощью вы можете легко скачивать видео прямо на смартфон.

mobile menu iconКакой формат видео "Аналитика категориальных переменных: поподробнее про хи-квадрат" выбрать?mobile menu icon

  • Наилучшее качество имеют форматы FullHD (1080p), 2K (1440p), 4K (2160p) и 8K (4320p). Чем больше разрешение вашего экрана, тем выше должно быть качество видео. Однако следует учесть и другие факторы: скорость скачивания, количество свободного места, а также производительность устройства при воспроизведении.

mobile menu iconПочему компьютер зависает при загрузке видео "Аналитика категориальных переменных: поподробнее про хи-квадрат"?mobile menu icon

  • Полностью зависать браузер/компьютер не должен! Если это произошло, просьба сообщить об этом, указав ссылку на видео. Иногда видео нельзя скачать напрямую в подходящем формате, поэтому мы добавили возможность конвертации файла в нужный формат. В отдельных случаях этот процесс может активно использовать ресурсы компьютера.

mobile menu iconКак скачать видео "Аналитика категориальных переменных: поподробнее про хи-квадрат" на телефон?mobile menu icon

  • Вы можете скачать видео на свой смартфон с помощью сайта или pwa-приложения UDL Lite. Также есть возможность отправить ссылку на скачивание через QR-код с помощью расширения UDL Helper.

mobile menu iconКак скачать аудиодорожку (музыку) в MP3 "Аналитика категориальных переменных: поподробнее про хи-квадрат"?mobile menu icon

  • Самый удобный способ — воспользоваться программой UDL Client, которая поддерживает конвертацию видео в формат MP3. В некоторых случаях MP3 можно скачать и через расширение UDL Helper.

mobile menu iconКак сохранить кадр из видео "Аналитика категориальных переменных: поподробнее про хи-квадрат"?mobile menu icon

  • Эта функция доступна в расширении UDL Helper. Убедитесь, что в настройках отмечен пункт «Отображать кнопку сохранения скриншота из видео». В правом нижнем углу плеера левее иконки «Настройки» должна появиться иконка камеры, по нажатию на которую текущий кадр из видео будет сохранён на ваш компьютер в формате JPEG.

mobile menu iconСколько это всё стоит?mobile menu icon

  • Нисколько. Наши сервисы абсолютно бесплатны для всех пользователей. Здесь нет PRO подписок, нет ограничений на количество или максимальную длину скачиваемого видео.