Скачать "10 вопросов про A/B-тесты | Часть 2 | Валерий Бабушкин | karpov.courses"

"videoThumbnail 10 вопросов про A/B-тесты | Часть 2 | Валерий Бабушкин | karpov.courses

Docker. Поднимаем PostgreSQL, ClickHouse и Superset | karpov.courses

Docker. Поднимаем PostgreSQL, ClickHouse и Superset | karpov.courses

Канал: karpov.courses

ML System Design с Валерием Бабушкиным | Выпуск 2 | Собеседование | karpov.courses

ML System Design с Валерием Бабушкиным | Выпуск 2 | Собеседование | karpov.courses

Канал: karpov.courses

Анатолий Карпов

Аналитика

машинное обучение

data science

SQL

база данных

Python

pandas

визуализация

карьера

зарплата аналитика

курсы

karpov courses

курсы по программированию

курсы по аналитике

курсы по стастистике

ML

stepik

data engineer

roapmap

роадмап

инженер данных

пути развития

карьера инженера данных

курсы карпова

карпов

machine learning

карьера в IT

работа в IT

дата сайнс

школа data science

00:00:02

[музыка]

00:00:11

сдавай мне свои вопросы и отвечу на них

00:00:14

все [музыка]

00:00:25

в целом тяжело говорить о каком-то

00:00:27

больном обтесте легче говорить о больной

00:00:29

платформе a/b-тестов и вот здесь

00:00:32

классически как проверяю через а-тесты

00:00:35

но в принципе и больной тест можно

00:00:36

проверить через аа тест это То есть

00:00:38

когда не там Не там нет изменения мы

00:00:41

запустили одно и то же мы видим что

00:00:43

между ним есть статистически значимая

00:00:44

разница

00:00:45

на одном на одном тесте такое можно

00:00:48

заметить если Ну такой в принципе бывает

00:00:50

мы нам стоит этого ожидается в

00:00:53

определенном количестве случаев

00:00:54

рассмотрим очень простой пример если у

00:00:57

нас Пиво или 005 то мы можем ожидать что

00:01:00

в 5 случаях из 100 у нас будет со

00:01:01

значимой разница даже если нет то есть у

00:01:04

нас принципе пяти случаях а тесты 100 в

00:01:07

среднем должен расходиться но если мы

00:01:09

видим что на нашей платформе мы

00:01:10

запускаем 10 тысяч а тестов Из них 2000

00:01:13

расходятся то есть 20 процентов уже явно

00:01:16

у нас не соответствует заявленным то

00:01:18

есть в любой платформе AB тестов должен

00:01:20

быть встроенный механизм валидирования

00:01:22

результатов неважно чего

00:01:25

замке первого рода ошибки второго рода

00:01:27

Ну и косвенно а тест позволяет нам

00:01:30

оценить здоровье какого-то отдельного б

00:01:33

теста Хотя нужно понимать что картинка

00:01:35

видна в большом объеме то есть опять же

00:01:38

один отдельный а тест разашедший ни о

00:01:40

чем не говорит но можно только Отметь

00:01:41

весь этот АБ и запустить еще раз об

00:01:44

чтобы он не расходился ну и Попробуйте

00:01:46

метрикам смотреть опять же здесь нужно

00:01:48

как статистике зачастую смотрят все-таки

00:01:50

на распределение

00:01:53

как с монеткой

00:01:55

Если ты один раз бросил монетку она

00:01:57

выпала орлом ты не можешь утверждать что

00:01:59

монетка теперь всегда выпадает орлом

00:02:03

[музыка]

00:02:05

это можно рисовать дерево возможных

00:02:08

ситуаций правда ведь то есть допустим мы

00:02:11

какого выраженного эффекта ожидаем от

00:02:14

своих нововведений то есть мы же чего-то

00:02:16

ожидаем если мы поменяли кнопку с

00:02:19

красным на кирпичный скорее всего это

00:02:22

действие которое не имеет смысла

00:02:24

оценивать через Хотя если трафика полно

00:02:27

это просто Почему бы не оценить через

00:02:29

abts его Но если ситуация такая что это

00:02:32

дорого и долго то Мы всегда чем

00:02:34

руководствуемся тем чего мы ожидаем в

00:02:38

плане размера эффекта от этого бы теста

00:02:40

и второй момент немаловажный он чаще

00:02:44

бывает в оффлайн ритейле потому что в

00:02:47

онлайне Ну даже не в оффлайн ритейле это

00:02:49

оффлайн ритуал Это мой опыт А в оффлайне

00:02:51

потому что в онлайне обычно как если это

00:02:53

изменение подготовил дальше тебе их

00:02:55

раскидать что на одного человека что на

00:02:56

всех примерно одинаково стоит ты нажал

00:02:58

кнопку распылил этот трафик в оффлайне

00:03:02

если например что-то меняешь в одном

00:03:03

магазине 10 вставили в тысячи понятно

00:03:06

что это пропорционально дороже то есть

00:03:09

второй момент это то как дорого

00:03:12

раскатывает на всех людей и вообще Имеет

00:03:15

ли смысл это раскатывать на всех людей

00:03:16

то есть размер эффекта плюс-минус

00:03:18

потенциальный и как дорого раскатывать

00:03:20

если размер эффекта маленький и

00:03:23

раскатывать дешево а делать АБС дорого

00:03:26

Ну кажется что очевидно с другой стороны

00:03:29

если мы много вложили в изменения

00:03:30

которые раскатываем наверное хочется все

00:03:33

Ну значит много что-то поменяли и

00:03:35

Наверное мы на что-то во многом

00:03:36

воздействием в противном случае наверное

00:03:39

не стоило много инвестировать в эти

00:03:40

изменения то здесь скорее всего имеет

00:03:42

смысл вкладываться в Ну а дальше вопрос

00:03:45

еще может быть у вас об этом делается

00:03:47

что можно их в 10 раз ускорить и тогда

00:03:49

можно видеть вас больше обоих правда

00:03:51

может быть проблема недорогой дня в том

00:03:55

что б можно сделать быстрее

00:03:57

[музыка]

00:04:01

можно в целом есть неплохая статья

00:04:04

чуваков по-моему из airbnb где они

00:04:07

говорили что у них этого звала проблема

00:04:09

потому что неравномерный трафик

00:04:10

разливался но тем не менее в принципе мы

00:04:13

вспомним формулу то если у нас может

00:04:15

быть группа 20-20 процентов если мы

00:04:18

делаем группу 280 у нас уменьшается

00:04:20

дисперсия в группе где 80 процентов Но

00:04:24

это гораздо менее эффективно чем если

00:04:26

просто накидать 50 процентов туда и туда

00:04:28

потому что в таком случае дисперсия Ну

00:04:31

кратно уменьшится по сравнению с первым

00:04:34

случаем но так делать Можно да можно

00:04:36

даже математические посчитать что это

00:04:39

работает но Гораздо Не очень оптимально

00:04:44

[музыка]

00:04:53

можно есть статья по моему от Гугла

00:04:56

которая как раз посвящена тому как

00:04:58

делать правильно строить пересечение в

00:05:01

симуляторе этому тоже будет посвящен

00:05:03

раздел потому что Да можно нарезать

00:05:04

таким образом чтобы пересекалась так все

00:05:07

логично мы сделали одно изменение другое

00:05:11

изменение А дальше мы смотрим изменения

00:05:12

1.2 То есть как известно если поесть

00:05:14

просто огурцы или просто пить молока это

00:05:17

ничего А вот если это вместе то Метрика

00:05:20

может стать негативной то есть Это давно

00:05:23

было известно еще столетием на столетие

00:05:26

назад нужно просто использовать опыт

00:05:27

поколений

00:05:32

[музыка]

00:05:37

я очень отношусь к этому скептически

00:05:40

вообще скептически настроен к многим

00:05:42

агентствам по крайней мере со стороны

00:05:44

статистической статистической науки

00:05:47

потому что мы общались не как-то в свое

00:05:49

время одно агентство пообщавшись с нами

00:05:51

не получила миллиардный контракт

00:05:52

размещение рекламы потому что они начали

00:05:55

говорить на какую-то абсолютную чушь Ну

00:05:58

а что тут сказать в целом это возможно

00:06:01

то здесь ничего невозможного нет трафика

00:06:03

много если считать что-то там применять

00:06:05

другой вопрос как часто считать может

00:06:07

быть какие-то бальские Бандиты у них там

00:06:10

бегают однорукие многорукие непонятно то

00:06:15

есть такое бывает реализовать это можно

00:06:17

реализовано ли у этого конкретного

00:06:19

агентства Я не знаю надо начинать от

00:06:21

этого человека который там инженер

00:06:23

напоить его подкупить его или найти

00:06:25

Компромат Компромат шантажировать и

00:06:28

узнать А собственно стандарты и методы

00:06:30

приведения в любой индустрии только что

00:06:33

сейчас Обозначил перенимания опыта и

00:06:35

лучших практик

00:06:40

а можно в принципе но нужно понимать что

00:06:44

у нас

00:06:45

таким образом страдает

00:06:47

репрезентативность Ну во-первых как

00:06:48

только начинаем что-то сравнивать

00:06:49

попарно мы сразу переходим в область

00:06:51

многократного сравнения множественного

00:06:54

тестирования с другой стороны условно

00:06:56

говоря если я начинаю испытывать

00:06:58

какое-то лекарство только на мужчинах

00:07:01

старше 40 лет и проверяю группу I группы

00:07:04

мужчины старше 40 лет а то же самое Да

00:07:06

похожие пользователи я не могу делать

00:07:09

выводы о том что это будет также

00:07:11

действенно на остальных группах мужчинах

00:07:15

младше 40 женщинах детях и так далее То

00:07:18

есть у нас есть репрезентативность

00:07:20

охватываем мы все или нет И у нас есть

00:07:22

какие-то страты с которыми можем

00:07:23

работать да со стратами работаем снижаем

00:07:25

дисперсию это очень похоже опять же на

00:07:28

матч мы их смачили но мы выводы делаем

00:07:30

тоже только на эти страты это тоже

00:07:32

близко к горным анализу частично

00:07:38

Ну подходы это матчинг которым бы я

00:07:41

относил стратификацию в том числе

00:07:43

хотя в принципе статьи от того же

00:07:46

netflix или Microsoft хотя там две

00:07:48

статьи вышло они пытаются показать что

00:07:50

матч что стратификация то же самое что

00:07:52

вычитание ковариата Но я считаю что

00:07:55

значит матчинг это одно из стратификация

00:07:58

как простой матчанг а кьюпид или

00:08:01

вычитание предиктов это другой то есть

00:08:03

вычитание какой-то ковариата мы можем

00:08:05

либо замачивать либо посмотреть остатки

00:08:08

по сравнению с прогнозом это второй

00:08:11

подход третий подход это переходить

00:08:13

другое признаковое пространство например

00:08:15

линеаризация на мой взгляд этому следует

00:08:18

Ну и четвертый который Хотя можно

00:08:20

отправить в третий это изменение метрики

00:08:22

проксиметрия

00:08:24

другой Метрика в пространстве другой

00:08:26

признак пространство вот на мой взгляд

00:08:28

три основных метода не считая того что

00:08:31

можно править какие-то косяки правильно

00:08:33

распределять трафик и далее так далее

00:08:44

нет Ну принеси то не знаю что сходи туда

00:08:48

не знаю куда В принципе есть разные

00:08:49

подходы например Гэри Кинг советует

00:08:52

постоянно делать матчинг и Он утверждает

00:08:54

что мачень позволяет снизить ошибку на

00:08:57

600 процентов Ну и вообще в целом

00:08:59

понятно что такое мальчик Мальчик

00:09:00

говорит о том что вместо того чтобы

00:09:02

просто всех во сенов сравнивать со всеми

00:09:04

Во сенами мы находим максимально похожих

00:09:06

друг на друга в осинов и сравниваем их

00:09:08

Ну это примерно как анализ Близнецов

00:09:10

если мы какой-то лекарство испытываем то

00:09:13

в идеале у нас люди должны быть

00:09:14

максимально одинаковые правда тогда мы

00:09:16

компенсируемся вариации в них их уровень

00:09:19

физической активности возраст пол и так

00:09:22

далее так далее так далее если какой-то

00:09:24

лекарство работает на пожилых мужчинах

00:09:27

Не факт что она будет работать так же

00:09:29

хорошо на молодых женщинах это в

00:09:30

принципе понимаем примерно то же самое в

00:09:32

матчнике то есть мы можем попробовать

00:09:34

мочить наши образцы и таким образом

00:09:37

снизить дисперсию это раз есть другие

00:09:40

методы снижения дисперсии те же кова

00:09:44

стратификация которая во многом

00:09:46

стратификация кстати похожа на матчинг

00:09:48

только она условно говоря использует

00:09:49

например одну фичу А в матчанге можем

00:09:51

использовать много фичей там есть экзакт

00:09:54

матчанг и так далее так далее так далее

00:09:55

третий вариант это как я уже несколько

00:09:57

раз заявлял мы можем переходить на

00:09:59

другую более чувствительную метрику то

00:10:01

есть что такое более чувствительная

00:10:02

Метрика например есть Метрика конверсия

00:10:03

в покупке Но есть же Метрика клики То

00:10:06

есть у нас что есть показы клики покупки

00:10:08

Окей если мы можем утверждать что ctr то

00:10:12

есть конверсия в показов коррелирует с

00:10:15

показом клика в покупку она скорее всего

00:10:18

как коррелирует можем перейти на уровень

00:10:19

замера этой метрики и пытаться делать

00:10:22

выводы основываясь на это тут Конечно

00:10:24

можно какой-то момент завершится и

00:10:26

как-то повышать тебе только клики и

00:10:28

привести кликбейту Но это утрированный

00:10:30

пример но тем не менее тоже вариант то

00:10:32

есть матчинг который позволяет снижать

00:10:34

дисперсию снижение дисперсии переход в

00:10:36

другое пространство метрик например та

00:10:39

же линейка так работает или переход на

00:10:43

другие

00:10:49

а ну то есть что такое многорукий бандит

00:10:51

рассмотрим сначала небольшой небольшой

00:10:54

водную у нас при а б какая есть проблема

00:10:58

что если у нас вариация B лучше чем

00:10:59

вариация А мы все равно на вариацию B

00:11:02

направляем только небольшую часть

00:11:04

трафика допустим 20 процентов а 80

00:11:06

процентов нас по-прежнему вариация А нам

00:11:09

бы хотелось чтобы если там реально лучше

00:11:10

туда направлялось все больше и больше

00:11:12

трафика правильно обратный вариант тоже

00:11:14

есть вариации B оказалась плохой нам

00:11:16

хочется чтобы трафик оттуда постепенно

00:11:17

уходил поэтому мы что делаем мы

00:11:20

постепенно тоненький ручеек направляем

00:11:23

на B и потом используя базисскую

00:11:26

статистику каждый раз выбираем Куда нам

00:11:28

направить следующий сэмпл держать его

00:11:30

все еще в контроле или направить его в

00:11:32

группу B Потому что если подумать мы в

00:11:34

группу B в принципе любой момент там

00:11:36

есть какие-то ограничения но мы из

00:11:37

группы А из контроля группы B всегда

00:11:39

можем перекинуть вот уже потом

00:11:41

перекинуть обратно в контроль мы не

00:11:42

можем правильно то есть соответственно

00:11:44

какую локацию трафика И постепенно Это

00:11:48

должно сходиться к чему-то То есть

00:11:50

какая-то если там действительно есть

00:11:52

какая-то группа лучше она должна В итоге

00:11:54

победить и забрать львиную долю трафика

00:11:56

и можно вводить разные критерии например

00:11:58

останавливаем тогда когда уже 80 трафик

00:12:00

процентов трафика в какую-то группу

00:12:02

перетекло или прошло какое-то количество

00:12:04

времени и так далее так далее так далее

00:12:06

но это такой двен стопик в который нужно

00:12:09

обсуждать а имеет смысл это делать тогда

00:12:10

когда мы хотим сразу на выигрышную

00:12:14

вариацию кидать большинство трафика ну

00:12:16

или когда мы чем-то рискуем то есть мы

00:12:18

боимся что это что-то испортит и мы

00:12:20

хотим постепенно на это смотреть

00:12:27

сетевым эффектом работает очень тяжело

00:12:29

нужно во-первых читать то что пишут в

00:12:33

своих статьях и блогах компании которые

00:12:35

работают сетевым эффектом всякие убери

00:12:36

дурдеши лингвины То есть тут есть

00:12:39

множество подходов Switch Back

00:12:41

тестирования например есть подходы когда

00:12:43

просто бьют по кластерам стараются

00:12:45

как-то ограничивать есть подход когда

00:12:48

просто стараются строить какой-то

00:12:50

прогнозную модель на основе неё отходить

00:12:52

но нужно каждый смотреть Потому что

00:12:54

каждый Нетворк эффект он свой то есть в

00:12:57

такси Ну можно стараться сравнивать

00:13:00

очень похожие города и говорит что эти

00:13:02

города одинаковые ничем не отличаются

00:13:05

и тут легко изолировать Да один город от

00:13:08

другого то есть мы считаем что мнение в

00:13:09

Москве вряд ли у нас тут же повлияет на

00:13:11

Новосибирск

00:13:12

есть закономерно такие хорошие методы

00:13:15

например всякие синтетические контроли

00:13:17

есть для этого тут тоже мы не будем

00:13:20

говорить всякие методы

00:13:22

тройной разницы которые мне не нравится

00:13:25

синтетические контроль неплохо есть даже

00:13:27

статьи которые

00:13:28

синтетические контроль

00:13:30

объединяют Switch Back неплохо изоляция

00:13:33

неплохо нужно смотреть

00:13:40

[музыка]

Описание:

Симулятор A/B-тестов: https://karpov.courses/simulator-ab Первая часть: https://www.youtube.com/watch?v=IQUt9qTsQ0s Всегда ли для проверки гипотезы необходимо использовать A/B-тест? Можно ли сравнивать попарно несколько разных категорий пользователей? Какие есть подходы к повышению чувствительности A/B-тестов? На эти и ещё более узконаправленные вопросы, которые вы задавали Валерию Бабушкину, ответим сегодня во второй части «10 вопросов»

Готовим варианты загрузки

Популярные

HD видео

Только звук

Все форматы

* — Если видео проигрывается в новой вкладке, перейдите в неё, а затем кликните по видео правой кнопкой мыши и выберите пункт "Сохранить видео как..."

** — Ссылка предназначенная для онлайн воспроизведения в специализированных плеерах

Вопросы о скачивании видео

Как можно скачать видео "10 вопросов про A/B-тесты | Часть 2 | Валерий Бабушкин | karpov.courses"?

Сайт http://unidownloader.com/ — лучший способ скачать видео или отдельно аудиодорожку, если хочется обойтись без установки программ и расширений. Расширение UDL Helper — удобная кнопка, которая органично встраивается на сайты YouTube, Instagram и OK.ru для быстрого скачивания контента.
Программа UDL Client (для Windows) — самое мощное решение, поддерживающее более 900 сайтов, социальных сетей и видеохостингов, а также любое качество видео, которое доступно в источнике.
UDL Lite — представляет собой удобный доступ к сайту с мобильного устройства. С его помощью вы можете легко скачивать видео прямо на смартфон.

Какой формат видео "10 вопросов про A/B-тесты | Часть 2 | Валерий Бабушкин | karpov.courses" выбрать?

Наилучшее качество имеют форматы FullHD (1080p), 2K (1440p), 4K (2160p) и 8K (4320p). Чем больше разрешение вашего экрана, тем выше должно быть качество видео. Однако следует учесть и другие факторы: скорость скачивания, количество свободного места, а также производительность устройства при воспроизведении.

Почему компьютер зависает при загрузке видео "10 вопросов про A/B-тесты | Часть 2 | Валерий Бабушкин | karpov.courses"?

Полностью зависать браузер/компьютер не должен! Если это произошло, просьба сообщить об этом, указав ссылку на видео. Иногда видео нельзя скачать напрямую в подходящем формате, поэтому мы добавили возможность конвертации файла в нужный формат. В отдельных случаях этот процесс может активно использовать ресурсы компьютера.

Как скачать видео "10 вопросов про A/B-тесты | Часть 2 | Валерий Бабушкин | karpov.courses" на телефон?

Вы можете скачать видео на свой смартфон с помощью сайта или pwa-приложения UDL Lite. Также есть возможность отправить ссылку на скачивание через QR-код с помощью расширения UDL Helper.

Как скачать аудиодорожку (музыку) в MP3 "10 вопросов про A/B-тесты | Часть 2 | Валерий Бабушкин | karpov.courses"?

Самый удобный способ — воспользоваться программой UDL Client, которая поддерживает конвертацию видео в формат MP3. В некоторых случаях MP3 можно скачать и через расширение UDL Helper.

Как сохранить кадр из видео "10 вопросов про A/B-тесты | Часть 2 | Валерий Бабушкин | karpov.courses"?

Эта функция доступна в расширении UDL Helper. Убедитесь, что в настройках отмечен пункт «Отображать кнопку сохранения скриншота из видео». В правом нижнем углу плеера левее иконки «Настройки» должна появиться иконка камеры, по нажатию на которую текущий кадр из видео будет сохранён на ваш компьютер в формате JPEG.

Сколько это всё стоит?

Нисколько. Наши сервисы абсолютно бесплатны для всех пользователей. Здесь нет PRO подписок, нет ограничений на количество или максимальную длину скачиваемого видео.