许多人仍然认为,只有大型企业才能承担大数据解决方案的费用,并且这些解决方案只适用于海量数据,成本也异常高昂。然而,近年来的一些关键进展正在改变这一观念。
大数据技术的成熟度
第一个关键进展是大数据技术的成熟度和质量。显然,企业在采用大数据技术时,需要付出努力以确保其有效性。

图1.技术正在成长的阶段
过去,开发人员常常浪费大量时间在使用SpaRk、Hadoop、Kafka等技术时处理各种故障。目前,这些技术已经变得更加可靠,并且在相互协作方面取得了显著进展。
与捕获内部错误相比,基础设施出现故障的概率要高得多。在大多数情况下,即便基础设施出现问题,这些大数据处理框架的容错设计也能让企业继续运作。此外,这些技术提供了稳定、强大的抽象,帮助开发人员将更多精力集中在业务开发上。
各种大数据技术
第二个关键进展是近年来涌现的众多开源和专有技术,如Apache Pino、Delta Lake、Hudi、PResto、Clickhouse、Snowflake、UpsolveR、SeRveRleSS等。这些技术的开发者们展现了出色的创造力,形成了强大的协同作用。

图2.大数据技术堆栈
以下是一个典型的分析数据平台(ADP)的结构,它由四个主要层次组成:
•仪表板和可视化:为最终用户提供分析摘要的界面。
•数据处理:用于验证和转换数据的数据管道。
•数据仓库:存放组织良好的数据,例如汇总和数据集市。
•数据湖:用于存放原始数据,是数据仓库的基础。
每个层次都有丰富的选项,能够满足各种需求。其中一半的技术是在过去五年内出现的。
值得注意的是,这些技术的开发旨在实现互操作性。例如,一个典型的低成本小型分析数据平台(ADP)可能会利用Apache SpaRk作为处理组件,结合AWS S3作为数据湖,Clickhouse作为数据仓库,OLAP用于低延迟查询,以及GRaFAna用于仪表板的展示(见图3)。

图3.典型的低成本小型分析数据平台(ADP)
更复杂的分析数据平台(ADP)则可以通过不同的组合来提供更强的保障。例如,结合Apache Hudi和S3作为数据仓库可以确保更大规模的存储,而ClickhoUSe仍然能够低延迟地访问聚合数据(见图4)。

图4.更大规模的ADP具有更强的保障
成本效益
第三个关键进展是云计算的普及。云服务已成为真正的游戏规则改变者,它们将大数据变为即用型平台(大数据即服务),使开发人员能够专注于功能开发,而不必过多关注云基础设施。
图5展示了另一个典型的分析数据平台(ADP),它利用了无服务器技术来实现存储、处理和展示层的强大功能。当其技术被AWS公共云托管服务取代时,基本设计理念保持不变。

图5.典型的低成本无服务器分析数据平台(ADP)
这里提到的AWS云平台只是一个示例,其他云提供商同样可以构建分析数据平台(ADP)。
开发人员可以选择特定的技术和无服务器架构。无服务器的选择越多,解决方案的可组合性就越好;而如果被供应商锁定,则会带来不利影响。采用特定云计算提供商的服务和无服务器堆栈的解决方案可以加速产品上市。明智地选择无服务器技术将使解决方案更具成本效益。
但是,对于初创公司而言,这种选择并不总是有利,因为他们通常倾向于利用典型的10万美元云计算信用额度,并在AWS、GCP和AzuRe之间频繁切换,这种情况需要提早考虑。
通常情况下,工程师会区分以下几类成本:
开发费用、维护费用和变更成本。
(1)开发费用
云计算技术无疑简化了工程工作,产生了积极影响:
首先,架构和设计决策方面,无服务器堆栈提供了丰富的模式和可重用组件,构成了架构基础。唯一需要关注的问题是,大数据技术本质上是分布式的,因此在设计解决方案时需要考虑可能的故障和中断,以确保数据的可用性和一致性。此外,解决方案的扩展所需努力也有所减少。
其次,集成和端到端测试变得更加便捷。无服务器堆栈允许创建独立的沙盒,进行播放、测试和问题修复,从而减少开发周期。
另一个优势是云计算实现了解决方案部署过程的自动化,这是成功团队的必备特性。
(2)维护费用
云计算提供商声称要解决的主要目标之一是减少监控和维护生产环境的精力。他们试图在几乎没有Devops参与的情况下构建一种理想的抽象。
然而,实际情况往往有所不同,维护工作仍然需要投入一定的精力。下表展示了最突出的维护任务。

此外,基础设施和许可成本在很大程度上影响维护费用。设计阶段至关重要,因为它提供了机会来挑战特定技术并提前评估其运行成本。
(3)变更成本
大数据技术关注客户的另一个重要方面是变更成本。经验表明,大数据与其他技术之间并无显著区别。如果解决方案没有过度设计,变更成本可以与非大数据堆栈相媲美。大数据的一个优势在于,解决方案的设计通常是模块化的,这允许在需要时进行局部变更,减少对生产的影响。
总结
综上所述,企业实际上可以承担大数据的相关费用。大数据为开发人员提供了新的设计模式和方法,使他们能够构建符合严格业务需求的分析数据平台,并具备成本效益。
大数据驱动的解决方案可能成为快速成长的初创公司重要的基础,帮助它们灵活应对市场变化,快速调整应用。一旦企业需要处理更大规模的数据,大数据解决方案也可以随之扩展。
大数据技术能够以各种规模实施近实时分析,而传统解决方案在性能上往往力不从心。
云计算提供商将大数据提升到了一个新的高度,提供了可靠、可扩展且随时可用的服务。开发快速交付且经济高效的分析数据平台(ADP)从未如此简单,企业应利用大数据技术来提升其业务发展。
