如果您已经在使用基于容器编排的解决方案,那么其中一个核心原因很简单:它让运维变得更轻松。毕竟,平台的初衷是将基础设施变成可控、按需扩展的资源。理论上,需求出现时可以弹性调整,使用完成后再释放,从而避免过多的管理负担。但这应该如何实现?

众所周知,一旦您的工作依赖于持久性数据,存储就会成为一个棘手的问题。
尽管容器编排平台在计算与网络基础设施上实现了高度抽象,但当应用具有状态并且数据需要持久化时,仍然需要合适的存储方案。你需要了解底层存储架构的要点,才能找到数据的存放方式。
不仅要考虑数据存放的位置,还有与存储基础设施相关的其他细粒度因素(性能、保护、弹性、数据治理与成本)。大多数数据工作者都不愿意深究这些细节。
那么,为什么在云原生生态中,对底层硬件的管理已经高度自动化,存储依然带来痛点?答案有两字:数据孤岛。
在仍然以不同基础设施为数据生存载体的思维框架下,我们往往会陷入数据孤岛的循环。幸运的是,这并非不可解决的问题。通过把数据管理的思考从“以基础架构为中心”转向“以数据为中心”,可以让存储实现更高的协同与自动化。具体而言,借助平台的能力,我们可以将数据管理提升到一个更高的层级,先给出一个统一的数据视图,再让内部的存储资源按需协作。
当需要的数据散布在不同的存储孤岛上时,每一个孤岛都有自己的特性(云、本地、对象存储、高性能等),很难完全抽象出共同的基础架构关注点。仍然需要有人回答关于性能、成本与数据治理的问题,才能构建出可靠的管道。如果由 IT 管理员来承担这份工作,他们往往需要花费大量时间处理跨不同副本和存储的底层接口,工作量极大且容易拖慢进度。
摆脱这种痛点的唯一途径,是通过数据虚拟化来实现速度与便捷性。这意味着在数据与各类存储基础设施之间建立一个智能的抽象层。这个抽象层应允许你在任何地方查看和访问数据,而不必担心底层存储的成本、位置或治理约束,也不必不断创建新副本。
要实现这一点并不困难,关键在于元数据。当你能将所有数据需求、上下文和沿袭信息编码为可全局访问的元数据时,具体驻留在哪种基础结构上的数据就不再重要。建立数据管道时,可以完全依赖元数据。智能虚拟化层还能借助 AI/ML 自动处理底层数据管理与基础设施事项。
一旦建立了虚拟化层并以元数据管理数据,你将能够实现先前难以想象的能力。
- 消除数据孤岛:现在你需要的数据位于哪个基础架构并不重要。对应用而言,曾经分散在本地、云端、混合或归档等存储资源的对象,将呈现为一个统一的全局命名空间。
- 以编程方式访问存储:通过聚焦元数据而非底层硬件接口,你可以用声明性方式定义所需的性能指标进行数据访问,智能化虚拟化层负责实现,应用或 IT 管理员无需逐步指定操作细节。
- 实现自助式数据管理:数据科学家无需再为比较成本、启用数据保护或确保合规性而苦恼。分离元数据与数据管理后,存储管理员只需配置一次基本策略,用户即可自助满足大多数数据管理需求,避免频繁提交工单和人为错误。
- 持续丰富数据上下文:当系统支持可自定义、可扩展的元数据时,便可围绕数据建立更深层的上下文理解。随着数据量与处理任务的增多,未来用于其他作业的数据也会更加丰富,智能便捷性随处可见,而不再受限于孤立的存储副本。
当你实现数据虚拟化,元数据驱动的数据管理将解决许多挑战,原有的存储注意事项将转变为可编排、可自助、可合规的流程,存储资源因此变得可编程、可自助、并在混合云环境中保持一致。你的数据将更丰富、使用也更灵活,IT 团队也不再为数据的存放位置分心。最重要的是,你将把更多时间花在数据本身及其价值上,而不是在寻址存放地点上浪费精力。
