查看原文
其他

什么样的数据才有价值?应该怎样收集和处理?终于有人讲明白了

Rochelle King等 大数据 2019-06-23


导读:实验数据本身毫无价值,但精心收集的数据能成为实现最终设计目标——打造最佳用户体验的关键工具。


本文介绍实验方法的基本原则,以及如何将这些原则以一种快速可拓展的方式——A/B测试——在互联网产品与体验的设计流程中进行实践。希望你能对相关名词和概念熟稔于心,可以继续深入了解A/B测试的相关实践。


作者:Rochelle King, Elizabeth Churchill, Caitlin Tan

如需转载请联系大数据(ID:hzdashuju)


无论你在何种类型的企业就职,我们都希望你将打造最佳用户体验作为最重要的目标与挑战。用户群体的差异很大,他们的经历、能力及预期都将影响并驱动他们的行为。如果仅依赖直觉,即使最优秀的设计师与产品团队也难以打造符合所有场合、所有用户的完美体验。


通过高效的实验方法收集用户数据,将在用户行为多样性、相似性、差异性及设计对用户影响等方面获得大量洞察。实际上,实验是一种与用户对话的方法,能了解用户的想法。收集实验数据有助于落实“用户至上”的理念,并且在打造最佳体验的前提下进行设计决策。




01 数据的多样性


本文将利用一个形象的比喻帮助阐述一些概念与场景。我们发现,通常一个强有力的比喻有助于生动传达某些概念的内涵,而真实案例有时难以做到这一点。有时,相比搜集真实的案例,简单的示例更适于当下的情形。


所以我们邀请你扮演夏令营的拥有者。每年,你将迎接大约200名儿童,并将与他们一起远足,开展户外活动,一同进餐。由于夏令营的规模很大且活动丰富,一些营员的反馈也许不能代表整体营员的感受。


夏令营已运营了一些年头,每年都有一些老营员光顾,但这毕竟是在做生意,你希望能够持续吸引更多新成员。夏令营是一个循环往复的过程,这也解释了你为何希望采用新方式来改进夏令营的体验,进而提升你的业务。


提起数据,我们只单纯指那些可被收集、衡量或分析的碎片信息或信息集合。我们的目的不在于讨论数据本身,而是使你认识到数据对了解用户的价值。比如老营员不喜欢过多食用绿色蔬菜,对制定夏令营运营计划的你而言,这是否算是一则有用的信息?


常听有人争执于一些数据比另一些更具价值。但我们认为,与其说存在所谓的最佳数据,不如说能最大化帮助你获得所需信息的数据即为最佳。


为此,我们将介绍一些(而非全部)数据的不同维度,而不再一一深入赘述各类数据或其收集方法。




02 数据的不同维度


数据与设计的讨论中假如不涉及数据维度的讨论,便是不完整的。介绍这些是要向你说明,具有不同优缺点的数据类型适合于不同的业务场景及目的。


因此,你需要判断哪些数据可用,哪些不可,以及这些数据类型是否适用于待解决的问题。这一系列需要思考的问题总结一下便是:为什么收集,何时收集,如何收集,收集量是多少。这些问题有助于你理清所要收集的数据维度与类型。


1. 为何收集数据?


首先,你要想清楚为何收集数据。换句话说,你希望从数据中获得哪些信息?


也许你十分想了解用户的行为习惯。简单来说,行为就是用户做了什么,或采取了哪些行动。比如,假设你刚刚在应用程序中推出了一个新功能,你想了解用户能否找到这个功能,以及会在什么情况下使用它,那么你需要考虑用户行为数据的收集。


通常,这非常便于衡量与检测行为。实际上,人类行为的用户研究员常说,相比一个人说了什么,你应当相信他的行为。然而,仅仅观察行为并不能告诉你用户行为背后的原因,或是他们的感受。


可能你也想要了解用户的态度与期望。比如,假如你对行为好奇,便会思考用户是否会点击按钮。相反,假如你在衡量用户态度,你可能会思考,用户点击按钮前对点击结果的期望是什么。你可能想要了解什么结果符合或违背了用户的期望。


最后,你可能想要了解用户的感受。这类数据反映了用户的情感状态,是一种“效应”数据。你可能会思考,用户是否信任你的企业或品牌?是否对新的注册流程感到不安或满意?


与行为数据相比,观点态度与情感数据的收集更难摆脱主观因素而不失偏颇。一个常见的问题是,用户通常希望提供“正确回答”,因而,他们会告诉你所希望听到的答案,并非自己的真实想法。这称作社会期许反应偏差或默许偏差,许多技术手段可以有效避免这种情况。


虽然存在种种难题,但观点态度与情感类数据对于打造良好的用户体验非常关键。即使每个用户都会点击新按钮,但假如点击后的结果与他们的期望不符,用户便会感到失望,也会失去对产品和品牌的信任。



2. 何时收集数据?


除了考虑数据内容,也要考虑何时收集它们。拆分成两种便是:纵向数据与快照。


首先,数据收集的时间间隔是多少?纵向数据来自同一名用户一段时期内的数据(周期可能是几天、几个月甚至几年),使你能够了解在这段时间内用户的改变、调整适应与学习进步。你能够了解以往的经历如何影响着未来的经历,这为你的数据分析提供了背景信息。然而,你的分析必须等到周期结束,同时数据收集也必然将花费更久的时间。


假如将纵向数据比作一段视频,那么快照便是一张图像。相比了解用户的行为变化,也许你只想了解用户使用产品的其中一种情况。这种数据能够被更快地收集(你可以一次性观察上百名实验参与者,而你将需要花费两年时间观察并研究一名用户的行为),但会缺失一些信息,诸如用户先前行为对后续行为的影响,以及一段时间内用户的行为变化。


另外,需要考虑数据收集的环境,是真实场景中还是孤立场景。想象一下,在通勤时间,用户在拥堵的地铁上试用令人着迷的手机游戏,与他们在办公室——一个安静私密的空间——使用这款游戏之间的差异。在孤立的环境中收集数据有助于控制那些可能影响或改变用户使用行为的因素。


你很明白,若干用户同时测试,环境将不会对他们的体验产生任何影响。但是,用户完全不可能在安静而隔离的温室中使用产品。上下文数据可以反映设计在“原始环境”——一个嘈杂混乱、充满挑战与干扰的真实世界——中的真实情况。



3. 如何收集数据?


根据问题的不同类型,数据可被分为定性数据与定量数据。定性数据用以阐述诸如“为什么”或“为什么如此”的问题。这类信息能够被观察或捕捉,但不能以量作为衡量标准。在设计过程中,定性数据有助于建立起用户同理心,了解用户的想法态度、观念、价值观和需求。


相比而言,定量数据通过数量来阐述观察结果。定量数据适用于回答“多大量”或“多少量”的问题。可在设计流程中使用定量数据来衡量一些固定指标,如日活跃用户(DAU)或用户留存率(在所定义的两个时间段内继续使用产品或服务的用户占例,比如,横跨两种业务时)。


另外,可以通过自述报告或观察收集数据。自述报告的数据包含询问用户的问题及用户的一些回答。相比询问用户,观察用户行动或行为能够获取观察数据。如前面所述,自述报告的数据也许不太客观,因为用户可能会给出我们希望了解的内容,而非他们真实的想法或行为。但有些类型的数据(比如观点态度或情感数据)难以通过观察获取。


最后,根据想要获得的信息深度或事先想要了解的信息量,可以选择收集封闭式数据开放式数据。在访谈等场景中收集封闭式数据时,人们进行提问或观察。当发现一些有趣或令人困惑的信息时,进一步询问用户行动的原因。


相比之下,在调研等开放式方法中,假如数据比较特别或不清晰,则难以继续深入了解行为原因或意图。封闭式数据要求观察者跟踪观察或进行访谈,了解信息并通过询问澄清疑惑。


相比之下,开放式调研需要更多的前期投入(设计调研问题必须谨慎而专业,避免系统偏差或干扰用户,因为这些难以澄清),但由于无须安排人员跟踪每个阶段的调研,这种方式使大规模数据收集变得容易。


此外,开放式调研确保了每位调研对象获得近乎相同的调研体验,不会受到行为细微差异的影响(比如,不同的调研者会采用不同的措辞或略有差异的语序进行发问)。



4. 收集多少数据?


最后还剩一个问题,收集多少数据才足够实际上,这是一个相当难给出答案的问题,本文将简要提及一些。这个答案很大部分依赖于根据所要收集的数据类型与最终目标所做出的决策。


想象一下,你工作的桌子旁有一块地毯。一天,你看到某人因地毯的一块隆起而绊了一下。你会一直等到10个、100个甚至更多人都绊倒在同一处时,才会考虑抚平这块地毯吗?当然不会。


这与如何看待软件缺陷问题的情况一样——当你发现了一些软件/硬件配置问题,虽然不确定多少人面临同样的问题,但你会修复这个问题。这个原则同样适用于设计的可用性问题。包含少数参与者的研究(通常叫作“小样本研究”)可以完美说明此类问题,你无须量化问题人数来确认问题是否是由设计引起的。


比如,图2-1指出,由5个被测试者即可确定85%以上的可用性问题。假如调研更少的用户,你同样可以在相同时间内获得更丰富、更深入的数据信息。


然而,在某些类型的小样本研究中,你无法保证研究发现适用于总体中的每一个个体。同样,你也无法采用更高精度的方法量化到底多少用户将遇到相同的问题,或产生相似的感受。这意味着,小样本研究不适用于某些决策,比如,确定某个问题的产生概率。


▲图 2-1:随着更多用户的参与,从每个后续用户中获取的信息量在逐渐递减。绝大多数人(包括NNG,本图表的发明者)都赞同,可用性测试只需5名用户参与,便可使你不费吹之力注1发现85%以上的可用性问题


相比而言,从大量参与者收集的数据(通常被称作“大样本研究”)可以提供更加精确的量化及频率信息:多少人存在相同的感受,以及执行某种操作的用户占比是多少等。理想的环境中资源是无限的,你可能认为尽量多地收集数据总是最好的选择,这确保你掌握全部信息。


然而,你可能没有时间以这种方式进行研究。通常,样本量越大,得到的结果越能够代表整体情况(只要样本具有代表性)。一些统计学方法可以用来确定进行数据收集的用户量,以保证结果达到一定的可信度。


我们不再深入讨论更多细节问题,假如你想了解更多,建议与你的数据分析师或数据科学家进行沟通,探讨关于样本大小和统计规模之间的关系。



03 为什么实验


刚刚讲了数据的多种维度。实际上,精确细腻地处理各类数据需要耗费数年时间。相比肤浅地研究处理多类型数据,我们决定专注于一种类型的数据收集:通过A/B测试开展实验。


那么为何如此在意实验,且不断提及?简要来说,实验帮助我们通过证据了解事情的因果关系,而非传闻逸事,这可能具有统计学意义。因此,当在真实环境中发布设计、功能或是产品时,我们能够得到一些预见性的观点。这么说可能有点夸张,下面将进行详细说明。


1. 了解因果关系


先从实验的一个明显重要的优势谈起。有句古老谚语:“相关不蕴含因果联系”。这是说两件或多件事物相关联,意味着它们之间存在着某些共同相互的关系或联系,这并不意味着一件事情的变化会引起另一件(些)事情发生改变。实际上,我们善于将生活中发生的各种事情与影响关联起来。


在夏令营的例子中,假设我们试图了解使用哪种营销方式可招揽更多营员。对此,我们也许得出一个结论,刊登了夏令营广告的杂志的热卖会促进营员增长(见图2-2)。


杂志销量的提升一定会引起注册人数的增多,该假设的问题在于,在不可控的环境中,我们不是上帝,无法完美预见所有的因素,而某些因素或许会引起其他结果。我们无法排除这些因素,无法断定预见了事情的前后因果。


▲图2-2:假如刊登了夏令营广告的杂志热卖,营员增多,也许可以认为营销活动促进了人数扩张


实际上,这个例子中,杂志的销量增多可能确实引起了注册人数的增长,但其他原因也是存在的。增加一个变量便可清楚地解释这一点。比如,把经济的发展情况考虑在内?


实际上,也许是经济整体的健康发展引起了杂志销量的提高和夏令营人数的增长。经济的发展使得家庭可自由支配的收入增多,因而在杂志和夏令营方面花销增长(见图2-3)。


▲图2-3:然而,也可能是经济的健康发展引起了杂志销量的提高和注册人数的增长。哪种假设才是正确的?不实验,我们便不了解真相


A/B测试和实验的优势在于,它们提供了可控的环境,有助于了解事情发生的前因后果。换句话说,实验帮助我们确立因果关系。这对设计师很重要,了解了行为的潜在原因,便能预知产品或设计的改变会产生哪些影响。


同样,也有助于明确地了解,怎样的设计决策会引起用户行为的变化。再则,避免过于倾向于可支持我们观点的数据与行为模式(心理学上称作“确认偏差”),降低将时间和企业资源投入到未被证明的假设上的风险。


2. 采用统计方法,而非道听途说


作为一种方法论,因果关系对于实验而言非常独特,是A/B测试令人期待一个重要原因,但我们依然想谈论有关实验的一些其他优势。


一般来说,无论采取哪种数据收集方法,都旨在找到有意义并值得信赖的可引导设计及产品决策的依据。


当团队中的某成员基于朋友、熟人或业务利益相关人的个人想法而建议一种全新的产品方向或设计调整时,你应当保持谨慎。大多数情况下,这些都是个人观点而非真实依据。希望你对所了解的传闻逸事的局限性有更多的思考(不仅具有偏见的风险),提出问题来帮助了解更多信息。


这就是说,定义“有意义”的方法有许多。严谨的定性研究方法论无疑是有意义的依据来源,也是制定良好产品决策的关键。确保所得数据有意义的方法之一是制定良好的研究计划。


比如,提出不包含偏见、不被偏见诱导或引导、经过深思熟虑的问题。再比如,用户研究员接受过良好的专业培训,是开展此类工作的专家。


识别数据可能存在意义的另一种方式是运用统计学方法。这些方法仅适用于定量测量,但因为实验与A/B测试也是定量方法,它们可基于统计显著性进行度量。


统计显著性能够量化数据所反映的现象是一种真实存在而非随机现象。根据所收集的数据类型,可选择不同的统计显著性度量标准,比如P值。P值用于度量某既定事件在既定情况下发生的概率。因而,P值有助于量化实验中随机差异产生的概率。


这里将不再详述P值的计算方法,但假如你希望了解更多,建议你与数据科学家或分析师朋友进行沟通。此处这些有限的统计学知识,来自一个被称作“频率论”的统计学流派,通常用于在线实验。


统计学方法可以帮助确定可能有意义的数据,而非一定有意义的数据。为了确定这部分,我们同 Arianna McClain进行了交谈。Arianna现在担任DoorDash公司用户洞察部门的主管,最近担任全球设计公司IDEO的设计研究员及设计与数据专家。Arianna在两个领域的交叉方面,以及如何使设计师无须接受过多培训便可使用数据方面有很棒的见解。


当考虑统计显著性,以及它与某事物是否有意义的关系时,Arianna谈道:


统计显著性不会表明事情是“对的”或是“错的”,也不会决定应当采取什么行动。反而,它仅仅是简单的建议,有些事值得继续。


当我注意到,某种相关或模型并不接近统计显著性时,我便认为这是一个可快速跳过并继续的提示。但是,假如接近统计显著性,这便是说:“喂,你应该关注这部分。”这促使我进行更多深入的研究,提出更多问题。


以临床随机药物实验为例,一家制药企业不会因为数据表明药物达到了统计显著性的预期效果便决定批准该药物进入临床使用。他们同时要考虑药物的临床效果影响、副作用以及成本。许多医学案例表明,有些药物具有统计上的显著效果,但没有意义。


例如,减肥实验可能表明,与P<0.0001的生活方式干预相比,某新药的减重效果更明显。但是,患者服用后可能出现强烈的副作用,并只能减重一磅或两磅以上,这就使药物不具备临床意义,也不值得患者服用。


P值小不代表没有意义,相反,如Arianna所述,这表示你应当关注这个结果,思考在这种情况下如何收集数据,这个改变将如何影响业务,其他数据来源可以提供什么信息。


不要只考虑显著性而不考虑其意义。也就是说,在精心设计的前提下,实验能够反映真实而非随机的情况,这是在决策时应当关注与思考的。



3. 了解真实情况


A/B测试非常善于鉴别统计显著性结果,识别真实存在而非偶然发生的现象。除了因付出有所回报感到激动欣喜之外,统计显著性还有哪些价值?


当团队计划推出一款产品及设计时,他们希望对用户行为做出明智判断。以电商网站为例,用户是否会点击按钮,成功沿着新步骤完成付款流程?少量用户研究的局限性主要在于,目标难以代表用户整体。但你可以采用其他方式获得洞察,了解用户可能遇到的问题或特殊群体的诉求。


回顾之前提到的数据维度。精心设计并实施的实验能提供有意义的洞察,指明有关功能或产品的真实表现,以此消除局限性的问题。A/B测试是一种基于观察的行为研究方法,收集大量用户上下文的数据信息。


这就是说,只要精心设计A/B测试的实验,我们便能确信,测试结果可以真实一致地体现产品发布后的结果。借助A/B测试,团队便能够“窥探未来”,了解产品的预期表现,衡量与量化设计变动产生的影响。


通过数据感知的方式预估未来的能力非常重要。基于此,进行再设计、再思考时,企业能够节约时间与资源,用以投资表现优异的项目,舍弃表现不佳或不符合预期用户行为的想法。


除去商业上的优势,A/B测试帮助设计师基于用户体验或公司的底线量化付出的努力的价值。这非常重要,因为这有助于设计师清晰地向利益相关人及业务人员阐述投资与重视优秀设计的重要性。


了解并运用数据感知的方法(比如A/B测试),有助于设计师提出令人信服的依据,并证实投资优秀设计对于商业成功的关键性是可以被量化评估的,而非仅仅是哲学意义上的。


关于作者:Rochelle King,Spotify产品设计创意全球副总裁,擅于融合运用设计与数据,并且曾担任一些技术企业的负责人。

Elizabeth Churchill博士,人机交互(HCI)领域专家,曾在许多硅谷企业中主导以用户为核心的研究,近专注于设计和开发者工具方面的研究。

Caitlin Tan,Spotify的用户研究员,毕业于麻省理工学院。

本文摘编自《数据驱动设计:A/B测试提升用户体验》,经出版方授权发布。


延伸阅读《数据驱动设计

点击上图了解及购买

转载请联系微信:DoctorData


推荐语:谷歌用户体验总监、Spotify设计与用户体验全球副总裁联袂撰写,设计从业人员有效提升用户体验必备参考。 



据统计,99%的大咖都完成了这个神操作



更多精彩


在公众号后台对话框输入以下关键词

查看更多优质内容!


PPT | 报告 | 读书 | 书单 | 干货 

大数据 | 揭秘 | Python | 可视化

人工智能 | 机器学习 | 深度学习 | 神经网络

AI | 1024 | 段子 | 区块链 | 数学


猜你想看




Q: 你设计过哪些A/B测试,效果如何?

欢迎留言与大家分享

觉得不错,请把这篇文章分享给你的朋友

转载 / 投稿请联系:baiyu@hzbook.com

更多精彩,请在后台点击“历史文章”查看

点击阅读原文,了解更多

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存