当前,普遍存在的误解是,只有大型企业才能承担大数据驱动的解决方案,且这些方案只能处理庞大的数据量,且费用高昂。然而,随着技术的几次重大变革,这一观点已经不再成立。
大数据技术的成熟度
第一次技术变革与技术的成熟度和质量密切相关。十年前,大数据技术的实施需要付出相当大的努力,以确保各个部分能够协同工作。
当时,开发人员常常会花费80%的时间来处理使用SpaRk、Hadoop、Kafka等技术时所遇到的各种问题。如今,这些技术已经变得更加可靠,能够避免早期所出现的故障,并相互协调工作。
与内部错误相比,基础设施故障的可能性更高。在大多数情况下,即使出现基础设施问题也能够被容忍,因为大数据处理框架通常具备容错设计。此外,这些技术为计算提供了稳定、强大且简单的抽象,使开发人员能够专注于业务开发的核心。
各种大数据技术
第二次技术变革正在进行中。近年来,出现了大量开源和专有技术,例如Apache Pino、Delta Lake、Hudi、PResto、Clickhouse、Snowflake、UpsolveR、SeRveRleSS等。这些技术的创造力和创新为大数据解决方案带来了巨大的推动力。
以一个典型的分析数据平台(ADP)为例,它通常包括四个主要层次:
仪表板与可视化——提供最终用户分析摘要的界面。
数据处理——用于验证、丰富和转换数据的流水线。
数据仓库——存储组织良好数据的地方,包括汇总和数据集市。
数据湖——存放原始数据的地方,为数据仓库提供基础。
每个层次都有多种替代方案,能够满足不同的需求。这些技术中有一半是在过去五年内发展起来的。
重要的是,这些技术的开发目标是实现互通。例如,一个低成本的小型ADP可能会使用Apache SpaRk作为数据处理组件,结合AWS S3等数据湖,使用Clickhouse作为数据仓库,并利用OLAP进行低延迟查询,同时使用GRaFAna构建美观的仪表板。
更复杂的ADP可以采用不同的组合方式。例如,结合Apache Hudi和S3作为数据仓库,可以保证更大的可扩展性,而ClickhoUSe仍然能够提供低延迟的聚合数据访问。
成本效益
第三次技术变革是由云技术引发的。云服务作为游戏规则的改变者,将大数据转变为可即用的平台(大数据即服务),使开发人员可以专注于功能的开发,而将基础设施的维护交给云计算。
开发人员可以选择特定技术和一定程度的无服务器架构。无服务器的使用越多,组合性越好,但过多的供应商锁定也可能带来负面影响。锁定在某一云提供商和无服务器堆栈上的解决方案可以加快上市时间。明智地选择无服务器技术可以使解决方案更具成本效益。
尽管这一选择对初创公司未必十分有利,它们往往利用典型的10万美元云信用额度,在AWS、GCP和AzuRe之间进行切换。因此,必须事先考虑这一现实,并提出更多与云无关的技术方案。
通常,工程师会关注以下几类成本:开发成本、维护成本及变更成本。
开发成本
云技术无疑简化了工程工作,带来了多个积极影响。
首先是架构和设计决策。无服务器堆栈提供了丰富的模式和可重用组件,为解决方案的架构奠定了坚实的基础。
唯一可能减缓设计阶段的因素是,大数据技术的自然分布性。在设计相关解决方案时,必须考虑可能的故障和中断,以确保数据的可用性和一致性。此外,所需精力的减少也使得解决方案更具可扩展性。
其次是集成与端到端测试。无服务器堆栈允许创建隔离的沙箱环境,以便测试和修复问题,从而减少开发回溯和时间。
另一个优势在于,云技术促使了解决方案部署过程的自动化,毫无疑问,这是任何成功团队所必需的一项特性。
维护成本
云提供商通常声称要降低监控和维护生产环境的精力。他们力求建立几乎零维护的理想模型。
然而,实际情况并非如此。关于这一点,维护仍然需要一定的努力。下面的表格突出了最显著的类别。
此外,维护方案在很大程度上依赖于基础设施和许可成本。设计阶段至关重要,因为它能够挑战特定技术并提前评估其运行成本。
变更成本
大数据技术的另一个关键方面是变更成本。我们的经验表明,大数据与其他技术之间并无太大区别。如果解决方案设计得当,变更成本可以与非大数据堆栈完全相媲美。大数据的优势在于,解决方案的设计自然是模块化的。合理设计的解决方案看起来并非一个整体,而是在需要时能够短期内进行局部更改,且对生产的影响较小。
综上所述,我们确实认为大数据是可负担的。它为开发人员提供了新的设计模式和方法,使他们能够构建符合严格商业要求且同时具备成本效益的分析数据平台。
大数据驱动的解决方案为快速成长的初创公司提供了良好的基础,这些公司希望快速适应变化,并缩短上市时间。一旦企业需要处理更大的数据量,大数据驱动的解决方案也能随之扩展。
大数据技术允许以小规模或大规模实施近实时分析,而传统解决方案则难以与其性能相匹敌。
云提供商将大数据推向了新的高度,提供了可靠、可扩展和即用的功能。快速开发具有成本效益的ADP从未如此简单。利用大数据来提升您的业务。
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
