睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一，入选IDC企业数据治理实施部署指南。同时，在IDC发布的《中国数据治理市场份额,2022》报告中，蝉联数据治理解决方案市场份额第一。

在线免费试用 DEMO体验视频介绍

睿治智能数据治理平台

IDC蝉联数据治理解决方案市场第一

为什么大数据项目总失败？你没问对这四个问题！

时间：2022-05-26来源：卷丹浏览数：157次

数据模型，就像人类一样，它们总是倾向于根据最可用的信息来做出判断。但是，有时你所缺失的数据往往会像你所拥有的数据一样影响你的决策。我们通常将这种类型的可用性偏差与人类决策联系起来，但人类设计者往往将这种偏差传递给自动化系统。

大数据项目的成功或许不可复制，但从失败中汲取教训同样很有意义。作者从本人实践项目入手，从商业目标、商业案例、项目管控、沟通、技能等角度分析其失败的原因。过去的几年里，我发现大数据项目的总量正在以惊人的速度增长着，大多数与我合作过的公司都计划在接下来一年内，进一步拓展大数据项目的领域。其中，许多项目都被报以很高的期望，但大数据项目，远没有想象中那么简单。我认为，其中半数的大数据项目最终都无法达到他们的预期。失败的原因是多方面的，许多显而易见的问题或者影响因素都会对大数据项目造成致命的打击，项目也会因此走向最终的失败。与许多不同规模形态的公司合作过后，我了解到这些危险因素其实是非常常见的。失败的项目往往有一个共同的原因 — 缺乏前期充分的项目规划。根据我参与过的大数据商业化项目经验，在这里列举了几个我工作中最常见的失败原因（顺序不分先后）。1缺乏明确的商业目标人们很容易因炒作而盲目跟从，显然大数据已经被炒作了起来。许多人（包括我）正在叫嚷着大数据如何不可或缺，如何像诺亚方舟一样拯救世界，就好像其余的船只终将被大浪摧毁，只有大数据这艘诺亚方舟能驶向彼岸。由此看来，许多人跳过“为什么做”直接思考“如何做”也就不稀奇了。登上大数据方舟的人们往往会忘记，商业化分析的核心在于解决现有问题，所以说在展开商业化大数据项目前要明确待解决的问题是什么。我曾经与一家航空公司合作，该公司带着超级的热情投入一系列大数据项目中——从乘客的饮食偏好到航班延误对饮品销量的影响，不放过任何一个环节的信息采集和分类。我的另一个客户是一家零售商，独立运行中的大数据项目多达258个！一些项目比较有趣，例如根据库存量及销售量进行数据挖掘，他们发现有一种酒在周二销量特别好，如果是下雨的话销量往往会更好。然而，知道这些又能解决什么问题呢？不可能因为周二一天的销量就打乱已经预先分配好的货架空间。最多也就是确保每周二进行常规性的补货，保证货架容纳空间饱和。只从这个案例看，这样的数据分析，并没有为客户提供长足的增长或积极的改变。也许在众多的项目里，会侥幸有某一个有趣的数据分析维度解决了实际问题，但这样做其实是非常低效的。这就有点儿像考试的时候，答题的人根本不在乎题目到底问的是什么，只顾埋头写下这门课自己知道的所有内容，抱着侥幸心理希望其中能包含考官要的正确答案。 2没能塑造出成功的商业案例许多人带着一种“大家做我也做”的心态去开展大数据业务，因此，这个领域的门槛也在不断地下降。这是一件好事，一方面，人们越来越容易地随时随地获取开源软件。另一方面，越来越多的公司开发“服务型软件”（SaaS），极大地降低了基础设施的投资成本。再加上很多像我这样的人总是会说，这个行业如逆水行舟，不进则退，你不作为就会被别人横甩十八条街。这样一来，会有更多的人盲目地进入大数据行业。这些都是真实现状，但要明确你的大数据项目为何而生，需要多少时间和资源。你需要确保收集来的大量数据，尤其是大数据，一定是干净安全的数据，否则你很可能需要在将来为这些不干净不安全的数据支付大量成本。简言之，在项目启动前，你要明确项目是不是真的需要大数据。如果你说不清道不明，那就请想明白再行动。3项目管控失误我承认，几乎任何失败项目都会在管控环节上存在问题，这是一个放之四海而皆准的项目失败原因。但我想强调的是，一位经验丰富的大数据科学家，年薪一般在10万美金以上；除了这部分投入，大数据项目还需要投入大量的时间和各种资源。这种情况下，管控失误会产生灾难性的后果。有时候，攥着钱袋子的人并没有将项目相关的长期或持续性的费用纳入考虑。或者，有时候高级项目经理与在实验室里的数据科学家沟通成效不大。许多高级项目经理做到今天的位置全是凭直觉凭胆量，所以有时候高级管理经理们不会相信那些大数据的算法，他们不会试着让电脑去指挥他们做什么。管控不善包含很多方面，最典型的案例就是NHS（英国国家医疗服务体系）的国家医疗信息化项目。这个项目计划将所有病人的电子病历录入到中央数据库中，项目总投入超过100亿英镑（约合972亿人民币，156亿美元），但随着项目的失败，最终被描述为“IT业内有史以来最大的败笔”。（详见后文拓展阅读） 4沟通不畅 “大数据都让书呆子似的科学家和唯利是图的企业承包了”——这样说未免有失偏颇，对科学家们和各大企业都不公平。但是，这个说法可以用来体现沟通的重要性。商业化大数据是学术与金钱的产物，一方面是实验室内的分析性、实验性科学，另一方面是追求利润和业绩的销售团队以及董事会成员。这两者本就不是志同道合的伙伴，再加上信息在传递过程中难免会有缺失，这样的沟通不畅很可能会造成灾难性的后果。在我看来，“挑战者号“航天飞机的灾难就是一个实例，虽然那个时候还没有大数据这个概念，但这个灾难依旧是可以避免的。当时NASA（美国国家航空航天局）的分析师在处理来自航天飞机上传感器的大量监测数据，在他们提供给地面控制中心的高层领导的报告中，充斥着大量的细节数据，这其中就包含很重要的坠毁的风险信息。如果地面控制中心能在繁冗的数据报告中发现这个风险信息，或者如果分析师们能把报告命名为“坠毁风险测评因素—高级别风险报告”这种重点突出的标题，事情可能会有一个不一样的结局。但有时候吃一堑并没有长一智。负责撰写报告的人应该考虑到“这份数据的目标读者是谁，怎样包装才能保证信息的准确传达”。我曾为一家医疗公司做分析咨询，这家公司最近为高管层提供了一份长达217页的报告。我们最终将这份报告缩减到15页，用图表来代替大量文字，在不丢失信息的基础上还将报告以更加简洁的方式展示。5缺乏工作中的必备技能或者更准确地说是，在必要时刻，缺乏必备技能。正如我之前对案例的阐释一样，在没有考虑清楚项目对资源未来影响的情况下，企业就直接启动大数据项目。经验丰富的数据科学家团队无疑是非常宝贵的资源。在我看来，没有明确目标盲目开始的项目，一般很难发现自身的问题，除非他们在恰当的时机得到了宝贵的项目分析意见，并且寻得经验丰富的员工加入团队。物以稀为贵，数据科学的从业者亦是如此。企业需要突破思维定式来解决这个问题。例如我的一个银行客户，他的团队中有许多商业分析师，既没受过大数据的相关培训，也不是数据科学家。我建议他给现有分析师进行定制化的大数据培训，因为商业分析与大数据这两个学科其实有很多技能交叉，这要比雇佣一个全新的专家团队要便宜得多。因此，实际上，要想公司的大数据项目成功，必须关心这些数据究竟来自哪里，它们究竟是如何被修正的，它是否真正适用于我们的研究目标。而为了从数据中得到有用的答案，我们便不能只看到它表面的数据值。我们需要学会如何提出更加深层的问题。我们尤其需要知道这些数据是如何得出的，我们用了什么样的模型来分析它们，以及在这一分析过程中究竟遗漏了什么。最重要的是，我们需要超越仅仅使用数据来优化操作程序的做法，并学会利用数据来构思新的生产可能性。我们要问的第一个问题是：

一、数据是如何得出的？

据说，数据一词是“奇闻轶事”的复数形式。英语中有一句俚语，叫“很多奇闻轶事聚在一起就成了数据”。的确，真实世界的各种事件，如交易记录、诊断结果和其他诸多相关信息，都被一一记录下来，并存储在大型服务器之中，这就是数据。但几乎没人会关注这些数据究竟来自哪里，因此，非常不幸的是，我们收集到的数据的质量和处理方式可能会有很大差别。事实的确如此，高德纳咨询公司最近的一项研究揭示出，由于收集到的数据质量太差，每个公司平均损失竟然高达1500万美元。一般来说，数据的准确性会受到人为错误的影响，例如当低工资和动力不足的零售职员检查库存时，他们收集到的数据就往往并不准确。然而，即使数据收集过程是自动化的，也仍然会有很多的错误来源，比如手机信号塔的间歇性停电就会造成错误；在金融交易清算过程中运用自动化的信息收集方式同样可能产生错误。质量过差的数据和用于错误语境的数据可能比根本没有数据更为糟糕。事实上，一项研究发现，65%的零售商库存数据是不准确的。而自欧盟通过并发行了严格的GDPR（通用数据保护条例）数据标准以来，另一个日益重要的问题逐渐浮现：在收集数据时是否得到当事人适当的同意。因此，不要简单地认为你所拥有的数据是准确的和高质量的。你首先必须关心它是从哪里得来的，以及它是如何维护的。我们越来越需要像做金融交易一样，小心谨慎地审查我们的数据处理方式。

二、数据是如何分析的？

即使数据得到了准确和良好的维护，数据分析模型的质量也会有很大差异。一般而言，各种数据分析模型是通过开源平台(如GitHub)组合在一起，并要为特定的分析任务进行重新的组合部署。但是，过不了多久，人们就忘记该模型究竟来自何处，也不再关心它究竟是如何评估特定的数据集合的了。类似于这样的失误要比你所能想象到的更为常见，并且有可能造成严重的损失。我们可以回顾一下如下案例：曾经有两位著名的经济学家发表了一份工作报告，警告说美国债务即将面临一个关键的节点。他们的工作引发了一场政治风暴，但事实证明，他们犯了一个简单的Excel错误，导致他们夸大了债务对GDP的影响。这就是对数据处理方式的失误造成的。随着数据处理模型变得越来越复杂，并纳入了更多的数据来源，我们也越来越能看到，在数据模型的训练上不断出现更为严重的问题。最常见的错误之一是过度拟合，这大体意味着，用来创建模型的变量越多，模型本身就越难变得普遍有效。而在某些情况下，过量的数据会导致数据泄漏，在数据泄露中，训练数据和测试数据搅和在一起了。这些类型的错误甚至会困扰最为先进的公司。对此我们仅仅举出两个最为突出的例子就足够了：亚马逊和谷歌，最近与模型偏见有关的丑闻被高度曝光了。当我们处理数据时，我们需要不断地向我们的模型提出难题：它们适合于我们的使用目的吗？它们是否考虑到了正确的因素？模型所输出的数据是否真实地反映现实世界中发生的事情？

三、数据无法告诉我们什么？

数据模型，就像人类一样，它们总是倾向于根据最可用的信息来做出判断。但是，有时你所缺失的数据往往会像你所拥有的数据一样影响你的决策。我们通常将这种类型的可用性偏差与人类决策联系起来，但人类设计者往往将这种偏差传递给自动化系统。例如，在金融业中，那些拥有大量信贷历史的人往往比那些没有信贷历史的人更容易获得信贷。后者通常被称为“瘦档案”客户，他们发现自己很难买车，很难租赁房屋，也很难申请到信用卡。(我们中的一员，一位名叫格雷格的同事，在海外生活15年后回到美国时，就曾亲身经历了这个问题）。然而，缺少信贷历史并不必然表明信用风险很高。而信贷公司最终往往仅仅因为缺乏相关数据而放弃潜在的盈利客户。最近，益百利公司开始通过应用Boost程序来解决这一难题，该程序通过查询消费者的日常支付活动来使消费者获得信用评分，比如定期的电信充值和公共事业支付等等。迄今为止，已有数百万人在该程序上登记注册了。因此，要问一问你的数据模型可能遗漏哪些方面，这个问题是极其重要的。如果你正在管理你所测量的数据，你就要确保你所测得的数据真实地反映了现实世界，而不只是一些最容易收集的僵死的数据。

四、我们如何利用数据重新设计产品和商业模式？

在过去的十年里，我们已经了解了数据如何帮助我们更有效地管理我们的业务。智能化地使用数据使我们能够进行自动化处理，预测我们的机器何时需要维护，并且更好地为我们的客户服务。正是数据使得亚马逊能够提供包裹当日达服务。数据也可以成为产品本身的重要组成部分。我们可以举一个著名的例子，Netflix长期以来一直使用智能数据分析来花更少的成本创建更好的项目。这使得Netflix在与对手——如迪士尼和华纳传媒——竞争时获得了一个重大的优势。然而，真正令人振奋的是，你可以用数据来完全重新构想你的业务模式。在Eric工作的益百利公司，他们已经能够利用云技术，从只以信用报告的形式提供处理过的数据，转变为为客户提供实时访问报告所依据的更细粒度数据的服务。这看似是一个微不足道的转变，但它已经成为益百利公司业务增长最快的部分之一。有人说数据是新的石油，但实际上，数据要比石油更有价值。现在，我们必须开始转变观念，不能仅仅将数据视作一种被动的资产类别。如果使用得当，数据甚至能够提供一种真实的竞争优势，并产生一种全新的业务方向。然而，要做到这一点，你不能仅仅从寻找答案开始。你必须学会如何提出新的问题。

【扩展阅读】：NHS项目失败简史

National Programme for IT 简称 NPfIT，即全英医护IT计划或国家医疗信息化项目。该计划于2002年开始实施，目标是实现患者医疗信息可在全国范围内进行共享，全面实现英国国家卫生服务系统（NHS）所有信息系统标准化，用10年时间为每一个英国公民建立“从生到死”的全生命周期电子病历系统。整个NPfIT项目采用“集中式”技术架构，由5个集群构成，主要集成商为British TeleCom（英国电信）、Atos Origin（源讯公司）、Accenture（埃森哲）、CSC Alliance(CSC)、Fujitsu Alliance（富士通）, 主要产品和技术提供商为CSW、IDX(已被GE收购)、Cerner、iSoft等，总合同额约为61.1亿英镑，堪称欧洲最大的计算机商业项目。然而，该计划饱受争议。到2004年之后，该项目的一些问题逐渐暴露，设计者没有充分考虑医生的专业需求和医疗服务的多样性，新的系统并未带来新的功能，承诺的关键系统不能交付使用。到2006年时NPfIT项目已投资达130亿英镑，大大超出了预算。此外，采用集中式IT技术架构，不能适应不同医疗专业的服务要求，存在严重的性能和功能拓展问题。系统集成商和产品技术供应商不能兑现其合同承诺，设计的系统实用性差。最终导致失败，并被描述为“IT业内有史以来最大的败笔”。

（本文部分文字来源哈佛商业评论）

<END>

（部分内容来源网络，如有侵权请联系删除）

立即申请数据分析/数据治理产品免费试用我要试用

上一篇：元数据与元数据平台 | 附13份资料...

下一篇：数据中台建设过程中“通用化+标准化+敏捷性”...