A / B тестирование - A/B testing

Пример A / B-тестирования на сайте. Посредством случайного обслуживания посетителей двух версий веб-сайта, которые отличаются только дизайном одного элемента кнопки, можно измерить относительную эффективность этих двух дизайнов.

A / B-тестирование (также известное как групповое тестирование или раздельное тестирование ) - это методология исследования пользовательского опыта . A / B-тесты состоят из рандомизированного эксперимента с двумя вариантами, A и B. Он включает в себя применение статистической проверки гипотез или « двухвыборочной проверки гипотез », как это используется в области статистики . A / B-тестирование - это способ сравнения двух версий одной переменной , обычно путем тестирования реакции субъекта на вариант A по сравнению с вариантом B и определения того, какой из двух вариантов более эффективен.

Обзор

A / B-тестирование - это сокращение от простого контролируемого эксперимента. в котором сравниваются две выборки (A и B) одной векторной переменной . Эти значения похожи, за исключением одного варианта, который может повлиять на поведение пользователя. A / B-тесты широко считаются простейшей формой контролируемого эксперимента. Однако при добавлении к тесту большего количества вариантов его сложность возрастает.

A / B-тесты полезны для понимания вовлеченности пользователей и удовлетворенности онлайн-функциями, такими как новая функция или продукт. Крупные сайты социальных сетей, такие как LinkedIn , Facebook и Instagram, используют A / B-тестирование, чтобы сделать пользовательский опыт более успешным и как способ оптимизации своих услуг.

Сегодня A / B-тесты используются также для проведения сложных экспериментов по таким темам, как сетевые эффекты, когда пользователи находятся в автономном режиме, как онлайн-сервисы влияют на действия пользователей и как пользователи влияют друг на друга. Многие профессии используют данные A / B-тестов. Сюда входят инженеры по обработке данных, маркетологи, дизайнеры, инженеры-программисты и предприниматели. Многие позиции полагаются на данные A / B-тестов, поскольку они позволяют компаниям понять рост, увеличить доход и оптимизировать удовлетворенность клиентов.

Версия A может быть версией, используемой в настоящее время (таким образом, формируя контрольную группу), в то время как версия B в некотором отношении модифицирована по сравнению с версией A (лечение). Например, на веб-сайте электронной коммерции воронка покупок обычно является хорошим кандидатом для A / B-тестирования, поскольку даже незначительное снижение количества отказов может дать значительный прирост продаж. Существенные улучшения иногда можно увидеть с помощью элементов тестирования, таких как текст, макеты, изображения и цвета, но не всегда. В этих тестах пользователи видят только одну из двух версий, поскольку цель состоит в том, чтобы определить, какая из двух версий предпочтительнее.

Многовариантное тестирование или полиномиальное тестирование похоже на A / B-тестирование, но может тестировать более двух версий одновременно или использовать больше элементов управления. Простые A / B-тесты неприменимы для наблюдательных , квазиэкспериментальных или других неэкспериментальных ситуаций - обычное дело с данными опросов, автономными данными и другими, более сложными явлениями.

Некоторые утверждают, что A / B-тестирование является изменением философии и бизнес-стратегии в определенных нишах, хотя подход идентичен межпредметному дизайну , который обычно используется в различных исследовательских традициях. A / B-тестирование как философия веб-разработки приводит эту область в соответствие с более широким движением к практике, основанной на фактах . Считается, что преимущества A / B-тестирования заключаются в том, что его можно выполнять непрерывно практически на чем угодно, тем более что большинство программного обеспечения для автоматизации маркетинга теперь обычно имеют возможность проводить A / B-тесты на постоянной основе.

Общая статистика теста

«Тесты гипотез с двумя выборками» подходят для сравнения двух выборок, где выборки делятся на два контрольных случая в эксперименте. Z-тесты подходят для сравнения средних значений при строгих условиях относительно нормальности и известного стандартного отклонения. T-критерии Стьюдента подходят для сравнения средних значений в расслабленных условиях, когда предполагается меньшее. T-критерий Велча предполагает наименьшее количество и, следовательно, является наиболее часто используемым тестом в тесте гипотез с двумя выборками, когда среднее значение показателя должно быть оптимизировано. В то время как среднее значение оптимизируемой переменной является наиболее распространенным методом оценки , регулярно используются и другие.

Для сравнения двух биномиальных распределений, таких как рейтинг кликов, можно использовать точный критерий Фишера .

Предполагаемое распространение Пример случая Стандартный тест Альтернативный тест
Гауссовский Средний доход на пользователя T-критерий Велча (непарный t-критерий) T-критерий Стьюдента
Биномиальный CTR Точный тест Фишера Тест Барнарда
Пуассон Транзакций на одного платящего пользователя Электронный тест C-тест
Полиномиальный Количество каждого приобретенного продукта Критерий хи-квадрат
Неизвестный U-критерий Манна – Уитни Выборка Гиббса

История

Как и в большинстве полей, установить дату появления нового метода сложно. Первое рандомизированное двойное слепое испытание для оценки эффективности гомеопатического препарата произошло в 1835 году. Эксперименты с рекламными кампаниями, которые сравнивали с современным A / B-тестированием, начались в начале двадцатого века. Пионер рекламы Клод Хопкинс использовал рекламные купоны для проверки эффективности своих кампаний. Однако этот процесс, который Хопкинс описал в своей « Научной рекламе» , не включал таких понятий, как статистическая значимость и нулевая гипотеза , которые используются при проверке статистических гипотез . Современные статистические методы оценки значимости выборочных данных были разработаны отдельно в тот же период. Эта работа была проделана в 1908 году Уильямом Сили Госсетом, когда он изменил Z-критерий для создания t-критерия Стьюдента .

С развитием Интернета стали доступны новые способы выборки населения. Инженеры Google провели свой первый A / B-тест в 2000 году, пытаясь определить, какое оптимальное количество результатов будет отображаться на странице результатов поисковой системы. Первый тест был неудачным из-за сбоев, вызванных медленной загрузкой. Дальнейшие исследования A / B-тестирования будут более продвинутыми, но основа и основные принципы в целом останутся прежними, и в 2011 году, через 11 лет после первого теста Google, Google провел более 7000 различных A / B-тестов.

В 2012 году сотрудник Microsoft, работавший над поисковой системой Microsoft Bing, провел эксперимент по тестированию различных способов отображения рекламных заголовков. В течение нескольких часов альтернативный формат привел к увеличению доходов на 12% без влияния на показатели пользовательского опыта. Сегодня такие компании, как Microsoft и Google, ежегодно проводят более 10 000 A / B-тестов.

Многие компании сейчас используют подход «спланированного эксперимента» для принятия маркетинговых решений, ожидая, что соответствующие результаты выборки могут улучшить положительные результаты конверсии. Это становится все более распространенной практикой, поскольку инструменты и опыт в этой области растут.

Примеры

Рекламная рассылка

Компания с клиентской базой данных из 2000 человек решает создать кампанию по электронной почте с кодом скидки, чтобы увеличить продажи через свой веб-сайт. Он создает две версии электронного письма с разным призывом к действию (та часть текста, которая побуждает клиентов что-то сделать - в случае кампании продаж - совершить покупку) и идентифицирующим промокодом.

  • 1000 человек отправляет электронное письмо с призывом к действию: «Предложение заканчивается в эту субботу! Используйте код A1»,
  • и еще 1000 человек он отправляет электронное письмо с призывом к действию, в котором говорится: «Предложение скоро заканчивается! Используйте код B1».

Все остальные элементы копии и макета писем идентичны. Затем компания отслеживает, какая кампания имеет более высокий уровень успеха, анализируя использование промокодов. Электронная почта с использованием коды A1 имеет 5% скорость реакции (50 из 1000 людей отправляет письма использовали код , чтобы купить продукт), а также адрес электронной почты с использованием коды B1 имеет скорость отклика 3% (30 из получателей использовали код купить товар). Поэтому компания определяет, что в этом случае первый призыв к действию более эффективен, и будет использовать его в будущих продажах. Более тонкий подход будет включать применение статистического тестирования, чтобы определить, были ли различия в уровне ответов между A1 и B1 статистически значимыми (то есть с большой вероятностью, что различия являются реальными, повторяемыми, а не случайными).

В приведенном выше примере цель теста - определить, какой способ побудить клиентов совершить покупку является более эффективным. Если, однако, цель теста заключалась в том, чтобы увидеть, какое электронное письмо вызовет более высокий рейтинг кликов,  то есть количество людей, которые фактически переходят на веб-сайт после получения электронного письма, тогда результаты могли бы быть другими.

Например, даже если на веб-сайт обратилось больше клиентов, получивших код B1, поскольку в Призыве к действию не указана дата окончания акции, многие из них могут не чувствовать необходимости совершать немедленную покупку. Следовательно, если бы целью теста было просто увидеть, какое электронное письмо принесет больше трафика на веб-сайт, то электронное письмо, содержащее код B1, могло бы быть более успешным. A / B-тест должен иметь определенный результат, который можно измерить, например, количество произведенных продаж, конверсию по рейтингу кликов или количество людей, которые подписываются / регистрируются.

A / B-тестирование цен на продукты

Для определения подходящей цены на продукт можно использовать A / B-тестирование, поскольку это, пожалуй, одна из самых сложных задач при запуске нового продукта или услуги.

A / B-тестирование (особенно актуально для цифровых товаров) - отличный способ выяснить, какая цена и какое предложение максимизируют общий доход.

Политическое A / B-тестирование

A / B-тесты используются не только для корпораций, но также являются движущей силой политических кампаний . В 2007 году президентская кампания Барака Обамы использовала A / B-тестирование как способ привлечь внимание в Интернете и понять, что избиратели хотели видеть от кандидата в президенты. Например, команда Обамы протестировала четыре отдельные кнопки на своем веб-сайте, которые побуждали пользователей подписываться на информационные бюллетени. Кроме того, команда использовала шесть различных сопроводительных изображений, чтобы привлечь внимание пользователей. С помощью A / B-тестирования сотрудники смогли определить, как эффективно привлечь избирателей и вызвать дополнительный интерес.

HTTP-маршрутизация и тестирование функций API

HTTP-маршрутизатор с A / B-тестированием

A / B-тестирование очень распространено при развертывании более новой версии API. Для тестирования взаимодействия с пользователем в режиме реального времени обратный прокси-сервер HTTP Layer-7 настроен таким образом, что N % HTTP- трафика поступает в более новую версию внутреннего экземпляра, а оставшиеся 100-N % HTTP-трафика попадают в (стабильная) более старая версия серверной службы HTTP-приложений. Обычно это делается для того, чтобы ограничить доступ клиентов к новому экземпляру серверной части, так что, если есть ошибка в более новой версии, только N % от общего числа пользовательских агентов или клиентов будут затронуты, в то время как другие будут перенаправлены на стабильную серверную часть, которая это обычный механизм контроля проникновения.

Сегментация и таргетинг

A / B-тесты чаще всего применяют один и тот же вариант (например, элемент пользовательского интерфейса) с равной вероятностью для всех пользователей. Однако в некоторых случаях ответы на варианты могут быть неоднородными. То есть, в то время как вариант A может иметь более высокий уровень отклика в целом, вариант B может иметь еще более высокий уровень отклика в конкретном сегменте клиентской базы.

Например, в приведенном выше примере разбивка ответов по полу могла быть следующей:

Пол Общий Мужчины Женщины
Всего отправлено 2 000 1,000 1,000
Всего ответов 80 35 год 45
Вариант А 50/ 1,000 (5%) 10/ 500 (2%) 40/ 500 (8%)
Вариант Б 30/ 1,000 (3%) 25/ 500 (5%) 5/ 500 (1%)

В этом случае мы можем видеть, что, хотя вариант A имел более высокий процент ответов в целом, вариант B на самом деле имел более высокий уровень ответов с мужчинами.

В результате компания может выбрать сегментированную стратегию в результате теста A / B, рассылая вариант B мужчинам и вариант A женщинам в будущем. В этом примере сегментированная стратегия приведет к увеличению ожидаемого количества ответов с до - что составляет 30% -ное увеличение.

Если от A / B-теста ожидаются сегментированные результаты, тест должен быть правильно спроектирован с самого начала, чтобы он был равномерно распределен по ключевым атрибутам клиента, таким как пол. То есть тест должен как (а) содержать репрезентативную выборку мужчин и женщин, так и (б) случайным образом назначать мужчин и женщин каждому «варианту» (вариант А против варианта В). Невыполнение этого требования может привести к смещению эксперимента и ошибочным выводам, которые будут сделаны на основе теста.

Этот подход к сегментации и таргетингу может быть дополнительно обобщен для включения нескольких атрибутов клиента, а не одного атрибута клиента - например, возраста и пола клиентов - для выявления более тонких закономерностей, которые могут существовать в результатах тестирования.

Смотрите также

использованная литература