查看原文
其他

避免大数据分析失败的六个最佳实践

2017-11-09 翻译 肖力 云技术之家

大数据分析行为可以改变游戏规则,给你提供帮助打击竞争的洞察力,产生新的收入来源,更好地为客户服务。


大数据分析行为也可能会造成巨大的失败,导致浪费大量的金钱和时间——更不用说失去有才华的技术人员,他们厌倦了令人沮丧的管理失误。


如何避免大数据项目失败?从基本业务管理的角度来看有一些明显的最佳实践:一定公司最高级的行政人员买账,确保足够需要的技术投资,所需的专业知识和培训到位。没有什么比这更重要的了,你必须首先解决这些基本问题。


但是假设您已经完成了基本的工作,那么在大数据分析中成功与失败的区别在于你如何处理大数据分析的技术问题和挑战,以下是你保持成功可以做的。


1.仔细选择大数据分析工具

许多技术项目的失败源于这样一个事实,即公司购买和实施的产品看起来是非常合适的,证明了他们想要达到的目标。任何供应商都可以将“大数据”或“高级分析”一词放到他们的产品描述上,试图利用这些术语的高大上来宣传。


但产品不仅在质量和效果上有很大的不同,而且也很集中。因此,即使你选择了一种技术上很强的产品,它可能也不适合你实际需要的产品。


几乎所有大数据分析都有一些基本的功能,比如数据转换和存储架构(比如Hadoop和Apache Spark)。但在大数据分析中也有多个细分市场,你必须为你的技术战略制定产品。这些细分包括流程挖掘、预测分析、实时解决方案、人工智能和业务智能仪表盘。

在决定购买任何大数据分析产品或存储平台之前,你需要弄清楚真正的业务需求和问题是什么,选择旨在有效解决这些具体问题的产品。


例如,你会选择认知大数据产品,比如分析,使用人工智能分析非结构化数据,因为编译庞大数据集的复杂性。但你不会使用认知工具来进行结构化和标准化的数据,因为你可以部署许多分析产品,以更合理的价格实时生成高质量的真知灼见,以色列Exposito说,在沃达丰电信公司的大数据中流程全球领先。


Exposito说,在选择生产环境的产品之前,最好使用至少两种产品来运行概念验证。该产品还应该能够与您的相关企业平台进行交互。


每个大数据分析工具都需要在后端系统中开发一个数据模型。这是这个项目最重要的部分。因此,你需要确保系统集成商和业务主题专家携手合作。慢慢来,确保第一次做对了。


重要的是要记住,正确的数据应该始终可用并转换为业务语言,因此用户将完全理解输出,从而可以使用它来驱动机会或过程改进。


2.确保工具易于使用

大数据和高级分析是复杂的,但业务用户依赖于访问和理解数据的产品不需要这样。

应该为业务分析团队提供简单、有效的工具,用于数据发现、分析和可视化。


莎朗·格雷夫斯说,找到合适的工具组合对域名注册商GoDaddy来说是很困难的。它必须是简单的快速可视化,但足以进行深度分析。GoDaddy能够找到能让业务用户轻松找到合适的数据,然后自己生成可视化数据的产品。这解放了分析团队,以执行更高级的分析。


最重要的是,不要向非技术业务用户提供程序级工具。他们会变得沮丧,可能会使用以前的工具,而这些工具并不能真正胜任工作(否则,你就不会有一个大数据分析项目)。


3.将项目和数据与实际业务需求对齐

错误数据分析之所以失败的另一个原因是,它们最终成为了一个解决不存在问题的解决方案。信息服务提供商Experian的全球数据实验室首席科学家熊吉雄说,这就是为什么你必须把你想要解决的商业挑战和需要考虑到正确的分析问题上。


一个关键是,在项目的早期,让具有强大分析背景的业务专家与数据科学家合作来定义问题。


这是Experian自己的大数据分析计划的一个例子。在开发针对身份欺诈的分析解决方案时,面临的挑战可能是评估个人身份识别信息(PII)的组合,如姓名、地址和社会安全号码是否合法。或者面临的挑战可能是评估一个客户是否使用一组身份申请贷款,这是身份的合法所有者。或者这两种挑战都可能存在。


熊吉雄说,第一个挑战是“合成身份”的问题,它需要一个分析模型来评估消费者或PII水平的合成身份风险。第二个挑战是应用程序欺诈问题,而评估舞弊风险的得分需要在应用程序级别进行开发。


Experian必须理解这些是不同的问题,尽管他们可能最初被认为是相同的问题,但却以不同的方式陈述,然后创建正确的模型和分析来解决它们。


当一套PII被提交给两家金融机构申请贷款时,通常的要求是为综合风险回报相同的分数,但这通常不是应用程序欺诈得分的必要特征,熊吉雄说。


正确的算法必须应用于正确的数据,以获取商业智能,并做出准确的预测。在建模过程中收集和包含相关的数据集几乎总是比微调机器学习算法更重要,因此应该将数据工作视为优先级。


4.建立数据湖,不要吝惜带宽

正如这个术语所暗示的,大数据涉及大量的数据。在过去,很少有组织能够存储这么多数据,更不用说组织和分析它了。但是今天,高性能的存储技术和大规模的并行处理在云和通过的前面提到的系统中都得到了广泛的应用。


然而,存储本身是不够的。您需要一种方法来处理将不同类型的数据输入到大数据分析中。这是Apache Hadoop的能力,它允许存储和映射巨大的、完全不同的数据集。这些仓库通常被称为“数据湖”。一个真正的湖泊通常是由多条溪流形成的,它包含许多种类的植物、鱼类和其他动物;数据池通常由多个数据源提供,并包含许多类型的数据。


但数据湖不应该是数据的垃圾场,亚利桑那州立大学(Arizona State University)研究计算主管杰伊•埃切斯(Jay Etchings)说,你需要考虑如何收集数据,以一种有意义的方式扩展属性。数据可以是完全不同的,但是如何使用MapReduce和Apache Spark等工具来转换数据,应该用一个固定的数据架构来完成。


创建一个数据池,在其中摄取、索引和规范化是大数据策略的计划好的组件。Etchings说,如果没有明确的理解和清晰的蓝图,大多数数据密集型的项目都注定要失败。


同样,拥有足够的带宽是至关重要的;否则,数据不会从不同的数据源移动到数据湖,业务用户的速度也不够快。Etchings说,要实现拥有海量数据资源的承诺,不仅需要能够每秒数百万iops的快速磁盘(IOPS),还需要互联的节点和处理引擎,它们可以随时访问数据。

从社交媒体趋势到流量路由,速度对于实时分析尤其重要。因此,在最快的互连上建立你的数据湖。


5.在大数据的各个方面设计安全

计算基础设施组件的高度异质性大大加快了组织从数据收集有意义的见解的能力。但也有一个缺点:Etchings说,管理和安全的系统要复杂得多。随着大量数据的介入,以及大多数大数据分析系统的任务临界性,在保护系统和数据方面未能采取足够的预防措施,这在很大程度上是在自找麻烦。


公司收集、存储、分析和共享的大部分数据都是客户信息,其中一些是个人身份和可识别的。如果这些数据落入不法之手,结果是可以预见的:法律诉讼带来的金钱损失,可能还有监管罚款、受损的品牌和声誉,以及不满意的客户。


您的安全措施应该包括部署基本的企业工具:在实际、身份和访问管理和网络安全时进行数据加密。但你的安全措施还应包括政策执行和对数据的正确访问和使用的培训。


6.把数据管理和质量放在首位

确保良好的数据管理和质量应该是所有大数据分析项目的标志——否则失败的机会就大得多。


你需要将控制放在适当的位置,以确保数据是最新的、准确的,并及时交付。作为其大数据计划的一部分,GoDaddy实现了警报,如果数据更新失败或超时,则通知管理人员。此外,GoDaddy还对关键指标实施了数据质量检查,并在这些指标与预期不符时发出警报。

确保数据质量和治理的一个重要组成部分是聘请熟练的数据管理专业人员,包括数据管理主任或其他管理人员来监督这些领域。考虑到这些措施的战略重要性,企业对数据管理、管理、治理和策略的数据所有权非常需要。


原文链接:

https://www.infoworld.com/article/3212945/big-data/how-to-avoid-big-data-analytics-failures.html


译者点评:

当前IT非常复杂,任何IT项目的实施都一个复杂的过程,必须做好详细的规划,使用高素质的团队,逐步的推进,才能保证项目的实施。


相关阅读:

如何开始Python之旅

为什么云平台应该承诺会在Python上持续投入

云推动了IT变革 关于云未来的数据

为Docker和Kubernetes提供的4个第三方安全工具

霍金发表对 AI 的警世危言 担心人工智能将取代人类

更多文章请关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存