> 资讯 >

正文 >一个资深旅游行业项目经理的无奈：那些年做过的伪A/B测试

一个资深旅游行业项目经理的无奈：那些年做过的伪A/B测试

2016-10-11 21:04 作者：编辑：郭晴天

字号：T T

一说起A/B测试，相信很多产品经理都对这个名称不陌生，他们会拿出一副看外星人的眼光，心里默默的说：“太out了吧，这个概念又不是什么新概念。”诸位别急，就像那本经典的书名说的：你以为你以为的就是你以为的吗？

我最早入行的时候，在一家外包做网站的公司，我作为项目经理，公司分配我服务一家大型的国有旅游集团，这家公司成立早，在业内非常有名，主要做的是入境游业务，当时国内的线上旅游产品不像现在这么百花齐放，这家公司占据了入境游60%以上的业务。坦白讲，我接到这样的项目内心是无比激动的，做了无数的竞品分析，推翻N多次的产品原型，而这家企业也不像传统的央企，可能是因为涉外较多，他们的思路很开放，很多专业的意见他们也会接受，双方配合的很默契。

做过网站的人都知道，项目中第一个重要的里程碑就是首页设计稿，首页设计稿决定了全站的设计风格和调性，又是一家网站的“门面”，因此该企业对首页设计稿的设计是万众期待，不仅仅是领导，还有所有员工，都对这次网站首页十分的期待，这种情绪感染了我，我带着设计团队不眠不休的干了一周，出了三版设计方案，摆到了领导的桌前。

领导看到我们的成果，首先表扬了我们的工作态度，此处省略一万字，然后在拍板做决定的时候，领导真的是为难了，并不是他不知道选哪个，而是他不敢选，因为他很清楚公司上下对设计稿的期待，更清楚外界对本次网站改版的关注，毕竟该企业在中国入境游领域的话语权分量很重。领导看了我一眼，说，要不，让下面的人一起看看？我当时头就大了，下面那么多人一起看，一人提一句意见，一人提一个想法，做过乙方的都知道，我们的设计基本上就会重新推翻，我们一周的努力基本上就付水东流了啊！为了不让兄弟们的辛苦白费，我建议领导让所有人在三版设计风格中进行投票，决定设计风格走向，票数多的那个就作为最终的设计风格，并且冠上了一个“A/B测试”的名头，让领导觉得这件事的科学性和严谨性。

三版设计，A版本在整个设计中演绎了该企业的LOGO，最大的特点是更国企，如果各位不明白，请参照中石油官网；B版本我们用了大量的风景图片，最大的特点突出其“入境游”的旅游特性；C版本是我们推荐的版本，使用了颜色绚丽的设计风格，并且手绘了一个熊猫的卡通图形，整个网站的风格更加偏向国外旅游网站，因为毕竟这个网站的受众是外国人。我们一致认定，C版本必胜！但是，投票当天的结果大出意料，最后A版本选票最多，因为这家企业的员工都认为，既然是做自己企业的网站，那就必须围绕自己的企业做文章。

这件事回过头来看，其实发现当时做的A/B测试实在是称不上科学的实验，因为犯了以下几个错误：

1.采样不准确。在A/B测试中，采样是一件很重要的事情，如果采样不准确，那整个实验就算是有结果，其结果也是不准确的。什么是采样的准确？就拿上文中的例子，我们的采样就是该企业的员工，这些员工首先不是网站的受众，其次他们看问题的角度会有局限，我们想当然就把员工的想法等同于用户的想法，而这个网站的用户都是黄头发蓝眼睛的外国人，想法差距就更大了。

2.样本数量太少。该企业的入境游业务占了中国入境游的半壁江山，而他们的员工只有200多人，200多人的样本不能完全代表全流量的用户，就像我们不能说抛十次硬币如果8次正面，2次反面，我们就说抛硬币的概率就是80%的正面，这很可笑。

3.实验变量太多。科学的A/B测试为了保证实验的准确性，在变量设置上不会很多，很多时候就是改动一个按钮的颜色，或者是一句文案的改变，就是为了尽量减少变量对数据结果的影响，如果变量太多，那就算有实验结果，作为实验设计者也并不清楚，到底是哪个变量导致的数据变化。

4.实验结果分析。做A/B测试不是全民投票，票数决定一切。A/B测试的结果要经过统计学的分析，结合正态分布和随机变量等计算得出的结果才是可信的。

从上我们可以看到，一次成功的A/B测试并不是那么容易的，那有没有可以借助的工具呢？

吆喝科技的A/B测试云服务倒是可以解决上述的问题，首先我们来看看采样的问题，在吆喝科技的A/B测试后台，有一个流量控制面板，如果我们需要在运行控制界面中为实验的每个版本分配试验流量，百分比为占用全部流量的比例，控制流量可以通过一个按钮实现。

一个资深旅游行业项目经理的无奈：那些年做过的伪A/B测试

科学的流量分割一定要保证流量的选取具备代表性，如果试验结果显示B优于A有可能应用B版本到全体用户中之后，它的表现反而比A版本差，Appadhoc A/B Testing通过科学的试验流量分割算法，保证不同版本的用户都具有相同的代表性，对比结果是科学可信的。为保证用户体验，通常参与过某一个试验版本的用户，再次进入应用时，依然会看到这个版本，除非在试验运行之后调整过流量。吆喝科技建议在开始运行试验时分配较小的流量，之后为获取更准确的试验结果可逐步提升流量。

其次是对实验结果的分析，一次科学的A/B测试实验完成后，实验数据的分析和统计也决定了这是否是一次成功的实验。在吆喝科技的A/B测试后台，引入了一个置信区间的概念，置信区间描述了试验版本比对照版本提升的范围，95%指的是实际提升出现在这个范围内的概率。查看置信区间，如果上下限同为正，说明试验版本比原始版本有了提升；如果同为负，说明试验版本不如原始版本。如果置信区间的上下限位一正一负，则说明试验版本和原始版本没有显著差别，或者试验数据还不足以判断结果，需要运行试验更长时间，收集更多数据。

一个资深旅游行业项目经理的无奈：那些年做过的伪A/B测试