互联网资讯 / 人工智能 · 2023年11月3日 0

人工智能自动驾驶数据中心的构建方法

关于人工智能(AI)的讨论通常围绕自动驾驶车辆、聊天机器人、数字孪生技术,以及利用AI系统从庞大数据集中提取商业见解。然而,人工智能及机器学习(ML)未来将在企业数据中心的服务器架构中发挥重要作用。

人工智能在提升数据中心运作效率和业务扩展方面的潜力可以归纳为以下四个主要领域:

电源管理:通过人工智能优化电源管理,可以提高加热和冷却系统的效率,降低电力成本,减少人力需求。此领域的知名供应商包括施耐德电气、西门子、VeRtiv和伊顿。

设备管理:AI系统能够实时监控服务器、存储和网络设备的状态,确保系统配置正确,并预测设备故障的可能性。根据Gartner的说法,AIOps IT基础设施管理(ITIM)领域的主要供应商包括OpsRaMp、Datadog、ViRtana、ScienceLogic和ZEnoSS。

工作负载管理:人工智能系统可以实时将工作负载迁移至最优的基础设施,无论是在数据中心内,还是在混合云环境中。越来越多的小型公司如Redwood、TidalAutoMation和Ignio提供基于人工智能的工作负载优化,同时思科(Cisco)、IBM和VMwaRe等大企业也有相关产品。

安全性:AI工具能够理解正常的网络流量模式,识别异常情况,优先排序安全警报,帮助分析问题并提供弥补企业安全漏洞的建议。提供这类功能的供应商包括VectRaAI、DaRktRACE、ExtRaHop和Cisco。

综上所述,人工智能有助于企业构建高度自动化、安全且自我修复的数据中心,几乎无需人工干预,能够以高效且灵活的方式运作。

戴尔技术公司全球CTO办公室的杰出工程师Tabet指出:“人工智能自动化可以扩展到超出人类能力的水平,以获取优化能源使用、分配工作负载和提升效率所需的见解,从而实现更高的数据中心资产利用率。”

尽管如此,自动驾驶数据中心尚未实现,数据中心内仍存在重大技术、操作及人员配置的障碍,导致人工智能的突破受限。目前,采用这项技术仍处于初步阶段,但其潜在收益将促使企业不断寻求机会。

电源管理与服务器工作负载管理

据估计,数据中心将消耗全球约3%的电力,导致约2%的温室气体排放。因此,无论是出于成本考虑还是环保目的,许多企业正在重视数据中心的电源管理。

根据451ReSeaRch的高级分析师丹尼尔·比佐(Daniel Bizo)的说法,基于人工智能的系统能够帮助数据中心运营人员识别当前或潜在的冷却问题,例如由于高密度机柜阻碍气流、HVAC设备性能不足或冷热通道空气密封不良导致的冷空气输送不足。

Bizo表示,人工智能带来的好处不仅仅是良好设施设计的结果。人工智能系统在数据中心层面上能够通过关联暖通空调系统数据和环境感知信息来学习设备的运行情况。

IT咨询公司STorageIO的创始人格雷格·舒尔茨(Greg Schulz)补充道:“电源管理是一个易于实现的成果。”如今,关注的是如何在每BTU中完成更多工作,以及如何在每瓦能源中获得更高的产出,这意味着要让设备更加智能化。

此外,从容量规划的角度来看,人工智能系统除了寻找热点和冷点外,还能够确保数据中心为适当数量的物理服务器提供电力,并在需求激增时及时启动和关闭新的物理服务器。

Schulz进一步指出,电源管理工具正在开发与管理设备和工作负载相连接的系统。例如,当传感器检测到服务器过热时,系统可能会迅速自动将工作负载转移到未充分利用的服务器上,以避免可能影响关键应用的停机。随后,系统可以调查服务器过热的原因,例如风扇故障(HVAC问题)、物理组件即将崩溃(设备问题),或是服务器过载(工作负载问题)。

人工智能驱动的健康监控与配置管理

数据中心内充满了需要定期维护的物理设备。人工智能系统可以超越传统的定期维护,帮助收集和分析遥测数据,以识别需要立即关注的特定区域。“人工智能工具能够捕捉并分析所有这些数据及模式,以及异常点,”Schulz说。

Bizo补充道:“健康监测首先是检查设备配置是否正确及性能是否符合预期。”由于存在成百上千的IT机柜和数万个组件,这些常规任务往往劳动密集,难以确保及时执行。

他指出,基于大量传感器数据的预测性设备故障模型可以“发现即将发生的组件或设备故障,并评估是否需要立即维护,以避免服务中断。”

JunIPeRNetwoRks负责企业和云营销的副总裁Michael BUShong认为,企业数据中心运营商应忽略与人工智能相关的过度宣传,专注于他所称的“无聊的创新”。

尽管人工智能系统未来可能会“告诉我问题出在哪里并加以解决”,但在此之前,许多数据中心运营商更倾向于接受“如果出现问题,请告诉我该去哪里查看”,BUShong说。

依赖关系映射是AI的另一个重要应用领域,尽管不太引人注目。如果数据中心经理对防火墙或其他设备进行策略更改,可能会产生什么意外后果?“如果我提出一个改变,了解爆炸半径范围内可能存在的风险是非常有用的。”

保持设备平稳、安全运行的另一个关键方面是控制所谓的配置漂移,这是指随着时间推移,临时配置的变化可能导致的问题。BUShong表示,人工智能可以作为“额外的安全检查”来识别即将发生的基于配置的问题。

人工智能与安全性

Bizo认为,人工智能和机器学习能够通过快速分类和聚类事件来简化事件处理,识别重要事件并将其与噪音区分开来。更快的根本原因分析助力操作人员作出明智决策并采取行动。

在实时入侵检测方面,人工智能尤其有效,Schulz补充道。基于人工智能的系统能够检测、阻止并隔离威胁,随后可进行法医调查,以确定实际发生了什么以及黑客利用了哪些漏洞。

在安全操作中心(SOC)工作的安全专业人员常常面临过多的警报,但基于人工智能的系统能够扫描大量的遥测数据和日志信息,从而清除日常任务,使安全专家能够专注于更深层次的调查。

基于人工智能的工作负载优化

在应用层面,人工智能能够自动将工作负载迁移至适当的着陆点,无论是在内部数据中心还是云端。“AI/ML将来应根据性能、成本、治理、安全、风险和可持续性等多个标准,实时决定工作负载的放置位置。”

例如,工作负载可以自动迁移到最节能的服务器,同时确保服务器以最高效率运行,即保持在70-80%的利用率。Bizo表示,人工智能系统能够将性能数据整合进决策中,从而确保对时间敏感的应用程序在高效服务器上运行,而不需要快速执行的应用程序则不会消耗过多电力。

基于人工智能的工作负载优化还引起了麻省理工学院研究人员的关注,他们去年宣布开发了一种能够自动学习如何在数千台服务器上调度数据处理操作的人工智能系统。

然而,正如BUShong所指出的,现实是目前的工作负载优化仍然是亚马逊、谷歌和AzuRe等超大规模公司的专利,而非一般企业数据中心。原因有很多。

实施人工智能的挑战

优化和自动化数据中心是数字化转型计划的一部分。戴尔的Tabet补充道:“由于COVID-19,许多公司现在正在寻求更进一步的自动化,推动人工智能驱动的、能够自我修复的‘数字数据中心’的理念。”

谷歌在2018年宣布将其多个超大规模数据中心的冷却系统控制权转交给人工智能程序,并报告称,人工智能算法提供的建议使能源使用量减少了40%。

然而,Bizo指出,对于非谷歌公司而言,在数据中心中使用人工智能“在很大程度上仍是一种理想”。一些AI/ML特性在事件处理、基础设施运行状况和冷却优化中已经可用,但AI/ML模型在标准数据中心基础设施管理(DCIM)中实现显著突破仍需数年时间。与自主汽车开发相似,早期阶段可能充满趣味,但与其最终承诺的突破性商业案例相去甚远。

Tabet认为,一些障碍包括“需要雇佣或培训适当的人才来管理这些系统,以及数据标准和相关架构的需求。”

Gartner指出:“AIOps平台的成熟度、IT技能和运营成熟度是主要障碍。高级部署面临的其他新挑战包括数据质量以及IT基础设施和运营团队缺乏数据科学技能。”

BUShong补充道,最大的障碍一直是人。他指出,外聘数据科学家对许多企业而言是一个挑战,而培训现有员工也存在困难。

此外,BUShong表示,员工对技术的抵制历史悠久。他提到,软件定义网络(SDN)已经存在十年,但仍有超过四分之三的IT运营依然依赖CLI。

“我们必须相信,各种基础设施运营商愿意将控制权交给人工智能,”BUShong表示。“如果人们不相信空管员能作出决策,那么如何训练、教育和安慰他们以接受如此重大的转变呢?业内普遍的态度是,如果我这么做,我就会失业。”

因此,BUShong建议企业在人工智能方面采取小而稳妥的步骤,而不是陷入围绕新技术的炒作之中。