А/B тестирование и анализ данных в Python // Урок 6 от Skypro

Хотите сменить работу, но не определились с профессией?
Пройдите тест и получите бесплатную карьерную консультацию:
go.sky.pro/proftest_youtube
Это шестой урок «Python для анализа данных», и вы узнаете, как правильно создавать а/б тесты и как грамотно анализировать данные этих тестов.
Содержание видео:
00:00:00 Вступление про курс
00:00:47 Интро: Зачем АБ-тестирование в курсе про Python
00:01:08 Что нам предстоит в этом блоке
00:01:54 Суть АБ-тестирования (Метрика)
00:04:32 Дизайн эксперимента (Проектирование эксперимента)
00:05:42 Первый подход к анализу. Окно конверсии (Пример)
00:07:32 Как правильно считать конверсию
00:09:48 Школа Skypro (Описание курсов, преимущества)
00:10:51 Сырые данные и сегменты
00:15:45 Проверка сегментов (Анализ результатов и корректировка эксперимента)
00:18:03 Проверка стат. гипотезы
00:18:44 Статистический критерий и ошибка первого рода (Нулевая и Альтернативная гипотезы)
00:21:49 Как работает стат.критерий (p-value), Хи-квадрат
00:24:18 Влияние эксперимента на другие метрики (Подвыборки с возвращением)
00:28:32 Bootstrap - знакомимся с функцией и готовим данные
00:30:20 Bootstrap - применяем функцию
00:30:56 Мощность (Мощность теста)
00:34:21 Рассчитываем количество наблюдений (Минимальный обнаруженный эффект)
00:36:26 Итоги (Чек-лист А/B теста)

Пікірлер: 42

  • @skypro.university
    @skypro.university3 жыл бұрын

    💪 Записывайтесь на программу «Аналитик данных» по ссылке go.sky.pro/da_youtube Подписывайтесь на канал, чтобы не пропустить следующие уроки!

  • @lemonadejoe9036
    @lemonadejoe90362 ай бұрын

    Прекрасное видео! Ведущая чудо! Слушать приятно и понятно)

  • @3dport
    @3dport2 жыл бұрын

    Очень классно преподнесено. Всё по полочкам и в правильной последовательности. Спасибо большое за видео!

  • @Aleksandrsvideo
    @Aleksandrsvideo6 ай бұрын

    Спасибо большое за видео! 👍 Всё очень интересно и довольно понятно рассказано.

  • @user-jk6fv6do8h
    @user-jk6fv6do8h4 ай бұрын

    Отличное видео, важные моменты обозначены

  • @user-jg3qe4tp1p
    @user-jg3qe4tp1p2 жыл бұрын

    Добрый день, в домашнем задании к этому уроку в расчете мощности =52%, остальные две больше 80, как это правильно трактовать ? общая мощность без разбивки на устройства около 95% а составляющая mobile_power меньше 80, считать ли данный тест корректным ?

  • @user-cx6op3qb6w
    @user-cx6op3qb6w Жыл бұрын

    После понимания p-value я понял A/B тестирование!

  • @smm6280

    @smm6280

    Жыл бұрын

    спустя время я вроде понял полностью A/B тестирование

  • @BariLav
    @BariLav Жыл бұрын

    а где скачать материал чтобы сделать дз? В ссылке что пришла нет дз материала

  • @user-jg3qe4tp1p
    @user-jg3qe4tp1p2 жыл бұрын

    добрый день, а в данном случае выборки у нас при сравнение ср чека несвязанные ? я попробовал применить тест мана уитни , и результаты противоречащие бутсрепу, не могли бы объяснить почему

  • @skypro.university

    @skypro.university

    2 жыл бұрын

    Добрый день! Выборки предполагаются несвязанными. Критерий Манна-Уитни имеет другую нулевую гипотезу: вместо того, чтобы проверять, что средние равны, он проверяет, что распределения двух выборок равны. Результаты t-test (как и бутстрапа) не обязаны давать такой же результат, как критерий Манна-Уитни, так как можно встретить ситуацию, когда у двух выборок или равны средние, но не равны распределения, или, наоборот, равны распределения, но не равны средние.

  • @user-zd5zz6bd6f
    @user-zd5zz6bd6f4 ай бұрын

    Добрый день, а где можно найти датасет. на котором вы работали?

  • @user-rr9lu3sv1l
    @user-rr9lu3sv1l Жыл бұрын

    Добрый день, а где найти файлы к дз? По ссылке доступа их нет, убрали…?

  • @user-jg3qe4tp1p
    @user-jg3qe4tp1p2 жыл бұрын

    И еще 1 вопрос про доверительный интервал, значени 0, это конкретно для этой задачи ? или это вообще и применима для всех задач ?

  • @skypro.university

    @skypro.university

    2 жыл бұрын

    Здравствуйте, Михаил! Для того чтобы подтвердить или опровергнуть гипотезу о наличии разницы между двумя выборками с точки зрения среднего, необходимо сформулировать нулевую гипотезу следующим образом: AVG1 = AVG2 (среднее в первой выборке = среднее во второй выборке). Можно переформулировать как: AVG1 - AVG2 = 0. Соответственно, получая в бутстрапе множество различных выборочных значений AVG1 - AVG2, мы проверяем, что 95% этих значений разницы включают в себя ноль, как гипотетическую разницу из нулевой гипотезы. То есть это применимо ко всем задачам, где нулевая гипотеза имеет такой вид.

  • @user-yn6ee5wy1p
    @user-yn6ee5wy1p2 жыл бұрын

    Добрый день. Не в укор говорю, а ради интереса. Где можно найти подверждение тому, что т-тест не применим к биномиальному распределению?

  • @skypro.university

    @skypro.university

    2 жыл бұрын

    Здравствуйте, Максим. T-тест нацелен на сравнение средних для выборок с нормальным распределением. А случайная величина, подчиняющаяся биноминальному распределению - это, по сути, количество успехов в серии из какого-то числа одинаковых независимых испытаний Бернулли. То есть для неё вообще некорректно считать среднее значение по выборке. Подробнее можно почитать тут: samoedd.com/soft/r-t-test ru.wikipedia.org/wiki/%D0%91%D0%B8%D0%BD%D0%BE%D0%BC%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5

  • @maximgrigoriev1174

    @maximgrigoriev1174

    2 жыл бұрын

    @@skypro.university здравствуйте. Но разве питоновский т-тест под капотом не нормализует биномиальное распределение, после чего сравнивает средние? У меня скромный опыт, но по моим наблюдениям т-тест зачастую показывает те же результаты, что хи2

  • @skypro.university

    @skypro.university

    2 жыл бұрын

    @@maximgrigoriev1174 Что вы имеете ввиду под "питоновским т-тестом"? Т-тест из какой библиотеки имеется ввиду? Что вы понимаете с математической точки зрения под "нормализацией биномиального распределения"?

  • @m-a-khozin

    @m-a-khozin

    2 жыл бұрын

    @@maximgrigoriev1174 есть такая штука, как центральная предельная теорема. Если у вас очень большая выборка, то среднее значение (а именно его и анализирует ttest будет распределена нормально). То есть если вы работаете в условиях асимптотического распределения, то у вас всё прекрасно взлетит. Кстати, в этом смысле так же не будет разницы между ttest и ztest (теста на основе нормального распределения). Но по своему дизайну тест Стьюдента (ttest) создавался для малых объемов выборок. И вот как раз тут всё сломается. Попробуйте погонять тесты с объемами данных от 10 до 50. И посмотрите на результаты.

  • @m-a-khozin

    @m-a-khozin

    2 жыл бұрын

    Можно открыть оригинальную статью про распределение Стьюдента. Или любой учебник по статистике. Применять-то можно любой тест к любому набору данных. Но математически строгих результатов вы при этом не получите. То есть, например, посчитанное значение p-value не будет соответствовать вероятности ошибки. И в итоге вы ошибетесь в интерпретации результатов.

  • @giokut
    @giokut3 жыл бұрын

    А домашнее задание только при покупке курса можно пройти?

  • @skypro.university

    @skypro.university

    2 жыл бұрын

    Выложили в открытый доступ, спасибо что обратили внимание: sky.pro/python_yt_assets

  • @ioeeen

    @ioeeen

    2 жыл бұрын

    У Вас не осталось материалов по курсу? сейчас уже недоступны

  • @atlant1707
    @atlant17075 ай бұрын

    Не совсем понятно, зачем вводится понятие "окно конверсии", если в итоге для определения времени эксперимента считается минимальный детектируемый эффект? Если нам интересна конкретная атрибуции, то это можно допустить, но и то с большой натяжкой, так как не понятно какая может быть причина так усложнять тест.

  • @alex_iceberg
    @alex_iceberg2 жыл бұрын

    если бы в университетах рассказывали так, как девушка на видео, не было бы потерянных людей после окончания данных заведений...

  • @skypro.university

    @skypro.university

    2 жыл бұрын

    Спасибо!)

  • @denisdolzhenkov4992
    @denisdolzhenkov4992 Жыл бұрын

    Было бы хорошо, поверить правильно ли решил домашнее задание, вычислил все построил, а так ли? в 5 задании 0 ни в одной группе не попал в доверительный интервал...

  • @salivona
    @salivona2 жыл бұрын

    Спасибо за видео, ввел почту на сайте, ничего не пришло втч не в спам.

  • @skypro.university

    @skypro.university

    2 жыл бұрын

    Александр, здравствуйте. Видим две ваших заявки на почту в gmail. Уточните, пожалуйста: письмо так и не пришло? Проверяли спам? Обратите внимание, что в Gmail во "входящих" есть также выбор разделов "соц.сети", "промо-акции" - проверяли их?

  • @skypro.university

    @skypro.university

    2 жыл бұрын

    Александр, на всякий случай продублировали вам письмо. У нас происходит смена платформ рассылок, возможны баги. В любом случае, спасибо что написали о проблеме!

  • @BlackOrangeSunshine

    @BlackOrangeSunshine

    2 жыл бұрын

    @@skypro.university Здравствуйте! очень нравится эта серия уроков, крайне познавательно, НО, к сожалению, ни материалы, ни домашние задания по ссылке мне тоже не пришли (проверила все папки на почте, запрос делала дважды) :(

  • @user-sw2uk8xu2i
    @user-sw2uk8xu2i2 жыл бұрын

    Статистически неверно брать такие процентили при построении доверительного интервала в бустрепе. Нужно учитывать ваше стандартное отклонение по выборке(стандартую ошибку среднего) и брать 96 процентный интервал через mean (+-) 2 * std, в таком случае вы не потеряете нужные миллиметры и все будет сделано аргументировано. По такой логике я могу брать интервалы в 50 процентов и принимать все альтернативные гипотезы

  • @one_advice
    @one_advice8 ай бұрын

    Может исключить ненужную воду и лишнюю эмоциональную болтовню?

  • @ivanshipilov4265
    @ivanshipilov42652 жыл бұрын

    Смотрю это и многие подобные видео и не могу понять. А нафиг нужен питон. На 100% уверен, что подобные вещи без проблем можно посчитать в какой либо прикладной программе да даже в том же эксель на много быстрее. А тут нужно писать код. Мало того, что помнить как все эти заклинания пишутся, так еще и придумать когда какое из них нужно. Зачем делать сложно то что можно сделать просто? Это как в уроке где человек экспортировал при помощи питона таблицу для анализа из вордовского файла. ... Чтобы написать код и заставить его работать на конкретном документе человек потратил минут 40. При этом многое осталось за кадром. В то время как если бы он просто даже не скопировал и вставил, а вручную перепечатал с клавиатуры он бы потратил не больше 4 минут.... Не понимаю. ЗАЧЕМ? Все равно что микроскопом гвозди заколачивать.

  • @skypro.university

    @skypro.university

    2 жыл бұрын

    Изучение Excel тоже входит в обучающую программу на аналитика данных. Но если говорить именно о применимости Python, то стоит отметить, что Excel не является инструментом для анализа данных и имеет свои ограничения (до 1 048 576 строк и до 16 384 столбцов). Python же универсален и отлично подходит для работы с неограниченным объемом данных. Кроме того, он очень удобен для автоматизации процессов. Также используя этот инструмент можно одновременно работать с данными из нескольких источников, например CSV, Excel, JSON, SQL. Аналитики экономят много времени проводя расчеты, создавая отчеты или динамические дашборды, тогда как в Excel многие данные приходится вводить вручную. Python поддерживает множество продвинутых инструментов, которых нет в Excel, например Matplotlib, Streamlit, Numpy и т.д. Ну и наконец воспроизводимость. По этому параметру Excel тоже далеко позади. Все это, естественно, не означает, что Excel бесполезен. Для небольших объемов данных он отлично подходит. Но если аналитик данных претендует на работу с большими числами, на рост своих компетенций, на работу в крупных и международных компаниях, тогда без Python не обойтись. Сегодня это уже стандарт индустрии.

  • @osvab000

    @osvab000

    2 жыл бұрын

    Таблица Эксель со связанными формулами - это страшно тяжелый, непроворотливый файл. Попробуй в него загрузить данных, ну тысяч на 500 строк! Поймешь тогда чем отличается Питоновская прога от Экселевской таблицы!

  • @ivanshipilov4265

    @ivanshipilov4265

    2 жыл бұрын

    @@osvab000 Ну. Такие вопросы на раз два решает PQuery и PPivot встроенный в Excell. Работают быстро и результат виден сразу + - 10М строк обработать не вопрос. Другое дело когда нужно обработать что-то не локально, а напрямую на сайте или сервере, ну да тогда придется загеморроиться с Питоном или сделать что-то не стандартное. Большой плюс питона (он же минус) что он может работать с любой размерности числами (которые как правило не нужны), ну и сам формат хранения чисел. Например 1,2345 - 1 в питоне будет 0.2345000000000006. А в Эксель будет =0.2345 Я не говорю что он не нужен. Но обрабатывать локальные файлы из экселя или ворда на + - 500 000 строк питоном.... это как из пушки по воробьям. Отдельного упоминания стоят алгоритмы сортировки данных. Если в SQL и PowerPivot (как никак БД) есть индексы. То питон прогоняет данные в сыром виде. Со всеми вытекающими. Разным кораблям разные торпеды.

  • @ivanshipilov4265

    @ivanshipilov4265

    Жыл бұрын

    @@ivana_frank Есть такая вещь как целесообразность. Пока данные легко влезают в эксель и не требуют никаких дополнительных танцев с бубном, зато нужно посчитать здесь и сейчас - их проще и быстрее обработать в экселе. Если же его функционала не достаточно, то тогда уже что-то посерьезнее, тот же питон к примеру. Вот правда любят разработчики многое усложнять. Например месяц назад видел как 5 человек вместо того чтобы просто написать свои регистрационные данные в одинаковых документах убили 90 минут только для того чтобы придумать код, как им быстро внести свои данные в договоры. Вот только нахрена, если заполнить 5 одинаковых форм требуется 5х2=10 минут (максимум). Когда у человека слишком много мозгов, он начинает пытаться жарить яичницу на термоядерном ректоре (который перед этим проектирует и строит), вместо того чтобы использовать любую электроплиту, а оставшееся свободное время посвятить чему-нибудь более полезному. И еще нужно перед тем как заморачиваться выяснить, а кто собственно конечный потребитель. И в каком формате ему эти данные нужны.

  • @ivanshipilov4265

    @ivanshipilov4265

    Жыл бұрын

    ​@@ivana_frank Есть бизнес большой и есть малый. Есть большие деньги и есть малые. Есть большие данные, есть очень большие, а есть несколько десятков тысяч или сотня тысяч записей в месяц, а то и год. Не все компании оперируют такими объемами. И не у всех бизнес в облаках. Атомная электростанция это хорошо и мега круто . Но только не в том случае когда она строится исключительно ради 10 лампочек в соседнем сарае. И потому я принципиально не понимаю ситуацию когда вокруг таблички в 100 - 1000 строк пляшут с бубном питон разрабтчики. Только ради того чтобы почесать свое ЧСВ.

  • @user-td9jh2cm7x
    @user-td9jh2cm7x5 ай бұрын

    На кого рассчитано это видео? На тех, кто уже собаку съел в части статистики? У вас же курс для тех, кто только начинает знакомиться с этой профессией. А тут после 10-ой минуты рассказчик уходит в какие-то непонятные неискушенному зрителю дебри, причем рассказывает это с максимально возможной скоростью. Можно было бы еще усилить эффект, добавляя слово "очевидно" после каждого нового термина. Тогда бы слушатель окончательно понял, что он полное ничтожество в обсуждаемом вопросе и в аналитике в общем

  • @TheRoba33
    @TheRoba33 Жыл бұрын

    Что за жестикулирование руками странное? Вы прошли какой-то психологический тренинг?

Келесі