一说起A/B测试,相信很多产品经理都对这个名称不陌生,他们会拿出一副看外星人的眼光,心里默默的说:“太out了吧,这个概念又不是什么新概念。”诸位别急,就像那本经典的书名说的:你以为你以为的就是你以为的吗?
我最早入行的时候,在一家外包做网站的公司,我作为项目经理,公司分配我服务一家大型的国有旅游集团,这家公司成立早,在业内非常有名,主要做的是入境游业务,当时国内的线上旅游产品不像现在这么百花齐放,这家公司占据了入境游60%以上的业务。坦白讲,我接到这样的项目内心是无比激动的,做了无数的竞品分析,推翻N多次的产品原型,而这家企业也不像传统的央企,可能是因为涉外较多,他们的思路很开放,很多专业的意见他们也会接受,双方配合的很默契。
做过网站的人都知道,项目中第一个重要的里程碑就是首页设计稿,首页设计稿决定了全站的设计风格和调性,又是一家网站的“门面”,因此该企业对首页设计稿的设计是万众期待,不仅仅是领导,还有所有员工,都对这次网站首页十分的期待,这种情绪感染了我,我带着设计团队不眠不休的干了一周,出了三版设计方案,摆到了领导的桌前。
领导看到我们的成果,首先表扬了我们的工作态度,此处省略一万字,然后在拍板做决定的时候,领导真的是为难了,并不是他不知道选哪个,而是他不敢选,因为他很清楚公司上下对设计稿的期待,更清楚外界对本次网站改版的关注,毕竟该企业在中国入境游领域的话语权分量很重。领导看了我一眼,说,要不,让下面的人一起看看?我当时头就大了,下面那么多人一起看,一人提一句意见,一人提一个想法,做过乙方的都知道,我们的设计基本上就会重新推翻,我们一周的努力基本上就付水东流了啊!为了不让兄弟们的辛苦白费,我建议领导让所有人在三版设计风格中进行投票,决定设计风格走向,票数多的那个就作为最终的设计风格,并且冠上了一个“A/B测试”的名头,让领导觉得这件事的科学性和严谨性。
三版设计,A版本在整个设计中演绎了该企业的LOGO,最大的特点是更国企,如果各位不明白,请参照中石油官网;B版本我们用了大量的风景图片,最大的特点突出其“入境游”的旅游特性;C版本是我们推荐的版本,使用了颜色绚丽的设计风格,并且手绘了一个熊猫的卡通图形,整个网站的风格更加偏向国外旅游网站,因为毕竟这个网站的受众是外国人。我们一致认定,C版本必胜!但是,投票当天的结果大出意料,最后A版本选票最多,因为这家企业的员工都认为,既然是做自己企业的网站,那就必须围绕自己的企业做文章。
这件事回过头来看,其实发现当时做的A/B测试实在是称不上科学的实验,因为犯了以下几个错误:
1.采样不准确。在A/B测试中,采样是一件很重要的事情,如果采样不准确,那整个实验就算是有结果,其结果也是不准确的。什么是采样的准确?就拿上文中的例子,我们的采样就是该企业的员工,这些员工首先不是网站的受众,其次他们看问题的角度会有局限,我们想当然就把员工的想法等同于用户的想法,而这个网站的用户都是黄头发蓝眼睛的外国人,想法差距就更大了。
2.样本数量太少。该企业的入境游业务占了中国入境游的半壁江山,而他们的员工只有200多人,200多人的样本不能完全代表全流量的用户,就像我们不能说抛十次硬币如果8次正面,2次反面,我们就说抛硬币的概率就是80%的正面,这很可笑。
3.实验变量太多。科学的A/B测试为了保证实验的准确性,在变量设置上不会很多,很多时候就是改动一个按钮的颜色,或者是一句文案的改变,就是为了尽量减少变量对数据结果的影响,如果变量太多,那就算有实验结果,作为实验设计者也并不清楚,到底是哪个变量导致的数据变化。
4.实验结果分析。做A/B测试不是全民投票,票数决定一切。A/B测试的结果要经过统计学的分析,结合正态分布和随机变量等计算得出的结果才是可信的。
从上我们可以看到,一次成功的A/B测试并不是那么容易的,那有没有可以借助的工具呢?
吆喝科技的A/B测试云服务倒是可以解决上述的问题,首先我们来看看采样的问题,在吆喝科技的A/B测试后台,有一个流量控制面板,如果我们需要在运行控制界面中为实验的每个版本分配试验流量,百分比为占用全部流量的比例,控制流量可以通过一个按钮实现。
科学的流量分割一定要保证流量的选取具备代表性,如果试验结果显示B优于A有可能应用B版本到全体用户中之后,它的表现反而比A版本差,Appadhoc A/B Testing通过科学的试验流量分割算法,保证不同版本的用户都具有相同的代表性,对比结果是科学可信的。为保证用户体验,通常参与过某一个试验版本的用户,再次进入应用时,依然会看到这个版本,除非在试验运行之后调整过流量。吆喝科技建议在开始运行试验时分配较小的流量,之后为获取更准确的试验结果可逐步提升流量。
其次是对实验结果的分析,一次科学的A/B测试实验完成后,实验数据的分析和统计也决定了这是否是一次成功的实验。在吆喝科技的A/B测试后台,引入了一个置信区间的概念,置信区间描述了试验版本比对照版本提升的范围,95%指的是实际提升出现在这个范围内的概率。查看置信区间,如果上下限同为正,说明试验版本比原始版本有了提升;如果同为负,说明试验版本不如原始版本。如果置信区间的上下限位一正一负,则说明试验版本和原始版本没有显著差别,或者试验数据还不足以判断结果,需要运行试验更长时间,收集更多数据。
我们做A/B测试的目的就是为了验证实验的结果推广到全流量可信,这需要大量的统计学进行分析,吆喝科技的后台整合了这些计算方式,把最终的结果展现在实验者面前,节省了大量的时间。
这只是吆喝科技A/B测试后台的部分功能,更多的功能还需要慢慢发掘。
本文作者李龙@吆喝科技,原创发表于吆喝科技博客,转载请联系吆喝科技(微信:appadhoc)
图像版权路透图片标题山坡上许多房子倒塌大雨后摄政 至少有600人失踪后泥石流和洪水摧
副总统便士周三表示,他在总统特朗普的批评下表示赞成,他的言论指责了在白俄罗斯的夏
布里吉特Macron采访中证实,它将在星期五杂志,它的作用将是非依据一项法律,而是章程,阐
在星期三举行的仪式上,希瑟海耶(Heather Heyer)是一名32岁的受害者的母亲苏珊布罗
康沃尔郡的海鲜餐馆已经加冕最好的在英国每年食物指南,肘击坎布里亚郡L Enclume后到了