互联网技术 / 互联网资讯 · 2023年11月15日 0

数据湖的价值超越大数据领域

数据湖的应用不仅限于特定领域,组织现在有更多机会将其整合进数据架构中。

近期,行业专家撰写了一篇文章,揭示了围绕数据湖架构、定义和分析的一些常见误区。文章标题为“什么是数据湖?如何避免最大的误解。”在这篇文章中,讨论了数据湖及其在企业数据战略中的适用性。对于希望从数据湖中获得价值的企业而言,由于顾问和供应商的建议各不相同,这一主题往往令人困惑且不透明。

人们常常误以为数据湖仅用于特定用途。如果仔细阅读相关资料,可能会发现数据湖似乎只有一种形式。通常,人们将数据湖描述为一种庞大的、包罗万象的实体,旨在存储所有类型的信息。好消息是,数据湖的应用范围比以往更加广泛,组织有更多机会将其纳入数据架构。

不同类型的数据湖

就像自然界中的湖泊一样,数据湖也有多种形状和规模。每种湖泊都有其独特的状态,通常反映出其数据生态系统,类似于自然界中展示生物多样性的生态系统。

不幸的是,常见的观点使人们认为数据湖仅适用于大规模的数据处理任务,这无疑增加了使用数据湖的难度。因此,过于宏观的描述让那些可以从中受益的人对数据湖概念感到陌生。以下是一些数据湖的例子。

广泛型:类似于里海的庞大水域,这种类型的数据湖包含了多样的数据集,广泛收集的信息反映了整个企业的情况。这是大多数数据湖应用的基础。临时型:如同沙漠中的小型临时湖泊,短暂存在的临时数据湖可用于项目、试点、概念验证或特定解决方案,开启和关闭的速度相对较快。领域型:这些湖泊与临时数据湖相似,通常聚焦于特定的知识领域。但与临时湖不同,这类湖泊会随着时间的推移而持续存在,可能专注于特定的数据领域,例如媒体、社交网络、网站分析、电子邮件等数据源。

最近,我们与客户合作创建了一个数据湖,该湖将Adobe事件数据存储到AWS,以支持其Oracle Cloud环境。为什么选择AWS而非Oracle?对于客户的Oracle BI环境来说,这种数据消耗模式不仅高效而且具有成本效益,尤其是考虑到使用AWS Lake和Athena作为湖泊内容的按需查询服务的灵活性和经济性。

从设计角度来看,所有类型的湖泊都应采用抽象技术,以降低风险并提供更大的灵活性。同时,它们的结构应当易于使用,不论大小。这确保了数据科学家、业务用户或分析师能够在一个结构化的环境中方便地使用数据。

数据湖的入门

成功的早期采用者应采取以业务价值为导向的方法,而非单纯的技术导向。当组织考虑如何入门时,以下几点建议值得注意:

聚焦:寻找能够部署或解决方案的机会,从而降低风险,并克服技术和组织方面的挑战,让团队对数据湖充满信心。热情:确保内部有一位或多位对组织解决方案和采用充满热情的支持者。简化:倡导简单性和敏捷性,使人员、流程和技术选择贯穿其中。缺乏复杂性应被视为周到设计的结果,而非缺陷。狭窄:通过限制数据湖的范围(如从ERP、CRM、销售点、市场营销或广告数据中提取)来明确目标。这一阶段的数据素养将帮助您理解数据结构、提取、治理、质量和测试的工作流程。实验:将数据湖与现代BI工具(如Tableau、Power BI、Amazon Quicksight或Looker)配合使用,让非技术用户有机会通过数据湖进行实验和数据探索。这使组织能够与其他用户群体互动,评估性能瓶颈、发现改进机会以及与现有EDW系统或其他数据系统的潜在链接。

关注业务价值而非技术,可以为组织提供在整体数据与分析战略框架内进行工作的机会,从而提高效率,并帮助组织实现数据湖目标及衡量业务绩效的进展。这也将促进共享术语、最佳实践及对更优平台建设的投资。