A/B测试是哪些?怎么做?有哪些作用呢?本篇文章为你们分享了几种应用场景及案例,告诉你们怎样在团队中有效推动A/B测试。
在互联网下半场竞争中实现科学下降,切实让A/B测试发挥下降引擎的作用是应有之义。
本文分享了A/B测试对业务转化率提高带来的价值,以及怎样在团队中有效推动A/B测试及A/B测试系统科学设计实践等内容。
一、今日头条下降秘诀:A/B测试驱动
抖音可以说是现今下降最火爆的公司,流行于大街小巷行走的人们手机之中,它让腾讯倍感深深的危机感,被迫应对,从2017年下半年开始,抖音就呈现出现象级爆发式下降。
其母公司字节跳动,估值750亿美元,本身就是一个十分讲求实验、以A/B测试驱动科学下降的公司。
A/B测试对头条系产品来讲是很自然的事情,整个公司从最高管理层张一鸣开始就十分重视。36Kr曾在一篇报导中写道,“头条发布一个新APP,其名子都必须打N个包放在各大应用市场进行多次A/B测试而决定,张一鸣告诉朋友:哪怕你有99.9%的掌握那是最好的一个名子,测一下又有神马关系呢?”
今日头条从起名子开始就运用了数据思维,创始团队没有头脑风暴,没有投票,没有老大拍板儿,而是采用科学实验的方法,通过数据观测确定了头条的名称。
他们将App Store上各种免费榜单的前10名整理下来,然后按照名子归类(朗朗上口白话类,内涵情结类,模拟特殊声音类,公司名+用途类等),分析那各种数目占比。分析推论是朗朗上口的大白话疗效最好。
其次,分渠道A/B测试,确定先验疗效类似的发布渠道,分别投放,界面功能logo完全一样,统计各个渠道的用户下载和活跃等核心数据指标,最后测得《今日头条》疗效最好。
二、什么是A/B测试?
A/B 测试是一种产品优化的方式,为同一个优化目标制订两个方案(比如两个页面),让一部分用户使用 A 方案,同时另一部分用户使用 B 方案,统计并对比不同方案的转化率、点击量、留存率等指标,以判定不同方案的利弊并进行决策。
上面图示就是一个典型的A/B测试范例。
在A/B测试比较成熟的公司中,可能并不局限于只有A、B两个版本,可能会有ABC测试、ABCD测试,甚至是ABCDE测试。
有一些情况,可能会出现比较特殊的A/B测试,比如说AAB测试,因为须要验证整个AB测试系统的准确度,需要设置两个对照组,所以叫AAB测试。
不管同时运行几个实验,我们都可以将它们合称为A/B测试,英文为ABtest或ABtest。
结合公开数据和行业深度调查,我们整理了行业A/B测试频度概览图,其中可以看见,公司估值或体量与A/B测试频度呈正相关关系。
像微软等大体量公司,它本身具有较为成熟的A/B测试系统与数据剖析平台,平均每周A/B测试就多达2000个A/B测试,其中包括一些相对复杂的实验,如推荐算法A/B测试,也有相对简单的A/B测试。至于国外BAT等一线互联网公司,它们每周也会进行上百个A/B测试。
在与我们合作的大部分公司当中,行业分布广泛,比如互联网金融、电商、O2O等厂商,它们自身没有能力和精力自研一套成熟的A/B测试平台,所以她们选择与Testin A/B测试合作,将A/B测试服务快速应用到业务中。
比如,某互联网金融用户,在使用Testin A/B测试前,每周只能做0.1个A/B测试a b测试工具 吆喝科技,使用了云测A/B测试服务后,大大提高了A/B测试频度,每周跑大约30个A/B测试实验。
当然,在其每周30个实验中,约有1/3的实验会取得转化率指标提高5%-30%的疗效,剩余2/3的实验疗效并不理想,未取得较好的数据指标提高。
通过这个反例,我们可以看出,大概2/3的产品构想并不符合预期,就是说转化率虽然没有原始版本好。这个也是为何须要A/B测试的根本缘由,凭借产品直觉去做产品决策,但2/3的改进并不是最优解。
上述图表展示的是微软必应搜索引擎A/B测试增长曲线,覆盖Bing从2008年到2015年的时间的A/B测试实验下降情况。
可以见到,在Bing产品早期,每周A/B测试频度维持在10~50个,到2012年以后,Bing A/B测试每周频度步入快速下降。
图表右下角红色曲线,是Bing移动端的A/B测试频度下降曲线。通过该图表,我们可以看见,Bing特别看重并认真施行A/B测试实验,以驱动数据下降,促进业务发展。
三、A/B测试应用场景及案例
我们先看下A/B测试在联通应用中的四大应用场景,分别是App、落地页、后端算法和小程序。
APP端是目前联通互联网下降的主要载体,PC或H5(如常见的朋友圈刷屏活动)或者广告投放落地页面等则可以归为落地页,还有前端算法场景,如推荐算法、广告算法、千人千面等等。
目前下降最快的应用场景,则是小程序。
在不同的场景,A/B测试的优缺也有不同,但最核心目标仍旧都是围绕业务的下降展开,也就是你们所熟悉的「北极星指标」,或者是 DAU、MAU等在A/B测试中设定的具体目标。
案例一:相机拍照类应用
以Camera360为案例,它选用Testin A/B测试服务帮助其进行产品优化决策。
该案例是其产品商业化过程中的一个尝试,希望提高商店中表情包或道具的付费比列,但要完成付费指标,首先要提高商店入口点击率。
所以,他们设定了多个商店入口方案(更改图标款式、文案),通过A/B测试来验证那个方案可以最大化提高商店入口点击率。
在验证过程中,他们也针对人群目标做了相关定向测试,如美国、中国、韩国等区域,最终她们针对这一入口同时上线7~8个测试版本,通过A/B测试,将整体点击率提高了80%左右。
案例二
本案例为互联网理财行业的App,他们期望通过修改签到按键的文案提升签到人数,从而提升留存率,按钮文案由「签到」改为「签到挣钱」,并进行A/B测试,为A、B版本分配了各5%的流量。
在经过测试后发觉新版本的签到次数比原始版本签到次数提升4.17%,其中95%置信区间结果显示小范围人群的试验结果推广到全量用户以后,有95%机率获得1.7% 至 6.6%的提高;p-value大于0.05,显示新老版本有明显统计差别,Power 为100%,说明统计功效明显。
通过此次简单的A/B测试,就极大提高了App留存率。
本次测试,也利用Testin A/B测试的可视化功能,直接更改相关元素属性就实现了对照功能,无需开发人员介入。
那产品什么时候须要A/B测试呢?
我们晓得进行A/B测试须要成本,比如须要开发多套版本,需要搭建可用的A/B测试及数据剖析平台等。
从投入产出比考虑,进行A/B测试平台有2个必要条件,一是产品决策影响大,二是产品方案选择困难。
如果某决策对产品影响很大,但选择不困难,则没有必要进行A/B测试,比方是否决定给App降低陌陌及第三方登陆形式,这对产品影响很大但决策并不困难,因为业界已有常见的解决方案。
再比方说,添加某很细小的功能,且该功能入口极深、用户量不大,那么A/B测试优先级也并不高。只有当一个产品决策同时满足影响大和选择难这两个条件的时侯,才最适宜进行A/B测试。
拿我们自身进行的测试来说,我们会基于功能影响大小、选择困难程度,对要做测试的功能做好优先级排序,然后判定什么功能要做A/B测试。
四、A/B测试落地三要素
通过与我们的合作伙伴,如自如、36氪、子弹短信或51信用卡等诸多下降团队交流,我们发觉A/B测试做到落地有三大关键要素:
展开来说,在「人」的角度上,要求整个团队具备数据驱动下降、A/B测试驱动决策的思维习惯,这是最重要的事情。
同时,如果下降或产品团队负责人本身不具备这些意识,认为A/B测试无关紧要,比较依赖经验进行产品优化决策,那么A/B测试做上去也很困难。
对APP也好,包括现今的小程序也好,新型产品层出不穷,产品面对的竞争也异常激烈。加之目前互联网流量红利期逐步结束,获客成本降低,如果想继续获得业务下降,目前最有效的办法就是落地A/B测试、以数据驱动下降这一路径。
行业发展趋势决定所有团队就会渐渐迁移到用科学的实验进行下降这条路上来,即使你如今的团队推动A/B测试困难,但是我相信不远的将来,A/B测试将是最重要的产品下降驱动力。
我曾与较多欧美下降同行进行过深入交流,有一个很深体会就是她们的互联网企业中 A/B测试气氛更强,主要由于日本人工成本相对较高,他们非常重视投入产出比,所以她们很早步入到精细化营运阶段。
在业务流程上:
在工具方面,一种是自研,另外一种是使用第三方服务。
自研的话,在可控性、业务耦合方面有一定的优越性,但对通常企业来讲,其研制成本、人力成本很高,开发A/B测试服务还涉及到较为严格的数据统计,需要配置专业的数据分析师。
如果使用目前市面上的第三方工具,比如Testin A/B测试服务,可以最大化增加成本、加速业务落地A/B测试服务。
比如,某小程序用户当日接入Testin A/B测试服务后,当天就运行起三个A/B测试实验。无论是自研还是使用第三方工具,关键在于适宜自身团队。
五、A/B测试最佳流程实践
A/B测试最佳流程,可分成四个步骤:
这里须要你们注意,不是所有的实验就会被证明对指标下降有明显疗效,如果是这样,我们就没有必要进行实验了。
如果碰到这些情况,需要告诉自己的团队成员不要沮丧,正由于个别实验被证明无效,我们就会找到有效的下降方法。
实验失败是大几率风波,我们最好的办法就是降低测试频度、持续测试a b测试工具 吆喝科技,而非浅尝辄止,又回到经验主义决策的老路上。
如果你的团队从来没有做过A/B测试,有三点建议给到你们:
从最简单的文案A/B测试开始,比如说测试关键按键中不同文案的转化率;多做团队间的经验分享,多分享你的成功经验,有疗效的事情你们都乐意尝试;不要天天去分享失败的经验,如果过多分享失败经验,会让你包括你的团队对A/B测试形成指责,影响团队斗志;可以优先使用第三方免费的A/B测试工具,比如Testin A/B测试,目前支持App、Web/H5、小程序。六、企业A/B测试成熟度模型
上面介绍了落地A/B测试的三大关键诱因,以及A/B测试的最佳实践流程。在这部份,为你们分享企业A/B测试成熟度模型。
我们把企业A/B测试分成四个阶段,分别是起步阶段、成长阶段、成熟阶段和大规模应用阶段。该能力的成熟度最核心指标,就是每周能做多少个A/B测试。
处于起步阶段,平均每周能做0~1个A/B测试,整个组织构架处于开始尝试A/B测试阶段,但内部没有成形的A/B测试实验平台,仍使用最简单的分流形式和数据剖析方式进行实验。
此时的A/B测试并不是一个标准的A/B测试,从实验评价体系角度来看,已经设定一个最基本的指标,比如说转化率,但仍没有体系化。
何为体系化指标?也就是从单一指标演化为多维度指标体系,系统跟踪实验对产品的多方面影响。
第三个阶段就是相对比较成熟的阶段,这个时侯每周能做到3~10个测试,A/B测试早已成为产品迭代流程的一部分,并须要可视化A/B测试,后端A/B测试等中级功能,以便满足多样的A/B测试需求。
在成熟和大规模应用阶段,提到了一个名词OEC。OEC,可以理解成综合评价指标,可能是复合型指标,在好多单项指标通过加权平均后得到。 通过OEC的设定,指导整个组织的业绩发展。
七、A/B测试系统设计能力
上面分享了怎样落地A/B测试。接下来,跟你们分享下设计一个典型的A/B测试系统,需要具备哪几点能力或特点:
1. 科学流量分割
包括唯一性、均匀性、灵活性、定向性及分层分流。
唯一性是指通过精准且高效的Hash算法,确保单个用户每次登入应用时被分到的试验版本是惟一的;均匀性,则是确保分流人群,各维度分配比列均匀;灵活性,则须要支持用户随时在实验的进行过程中,调节实验版本之间的流量分配比列;定向性,则是可以依据用户标签来实现精准定向分流,如按照用户设备标签及其他自定义标签特定分流;分层分流,则可以满足并行进行大量A/B测试需求。
左:未开启分层分流机制;右:开启分层分流机制
这里重点介绍下为何须要分层流量分割机制。如果没有分层流量机制,则存在如下限制:
有了分层流量分割机制,就可以挺好地满足并行进行不同业务或不同场景,或者不同产品模块之间的A/B测试需求。
2. 科学统计算法
上面就是基本的分享内容,限于篇幅,更多A/B测试前面有机会再与你们分享。
作者:陈冠诚,Testin副总裁、Testin A/B测试业务负责人。师从欧洲科学院教授Per Stenstrom院士,发表过6篇大数据国际论文和8项国际专利,为美图、宜人财富等企业搭建了A/B测试驱动下降的数据体系。公众号:云测数据(testindata),数据驱动下降的坚定实行者