当今,对于人工智能(AI)的讨论通常聚焦于自动驾驶汽车、聊天机器人、数字孪生技术、机器人以及如何利用AI系统从海量数据中提取商业洞察。然而,人工智能和机器学习在企业数据中心的服务器中同样扮演着重要角色。

人工智能在提升数据中心效率和业务扩展方面的潜力主要可归纳为四个类别:
电源管理:AI驱动的电源管理系统能够优化加热和冷却系统,进而降低电费、减少人力需求并提高整体效率。施耐德电气、西门子、VeRtiv和伊顿公司是该领域的一些代表性供应商。设备管理:AI系统可以实时监控服务器、存储和网络设备的运行状况,确保配置正确,并预测设备故障的可能性。调研公司Gartner指出,AIOps IT基础设施管理(ITIM)领域的相关供应商包括OpsRamp、Datadog、ViRtana、ScienceLogic和ZenoSS。工作负载管理:AI系统能够自动将工作负载实时迁移至更高效的基础设施,包括在数据中心和混合云环境之间的调配。越来越多的中小企业提供AI驱动的工作负载优化服务,如Redwood、Tidal Automation和Ignio等,同时思科、IBM和VMware等大型厂商也在这一领域有所布局。安全性:AI工具能够识别正常的网络流量,发现异常情况,并优先处理需要安全人员关注的警报,从而为事件后分析提供支持,并提出企业安全漏洞的防护建议。相关供应商包括Vectra AI、Darktrace、ExtraHop和Cisco。
综上所述,人工智能能够帮助企业构建高度自动化、安全且自我修复的数据中心,几乎不需要人工干预,并具备更高的效率和灵活性。
戴尔技术公司全球首席技术官办公室的杰出工程师Saïd Tabet表示,人工智能自动化技术能够超越人类能力,获取优化能源使用、分配工作负载和提升效率所需的关键见解,从而实现更高的数据中心资产利用率。
虽然自驱动的数据中心尚未实现,但与自动驾驶汽车类似,数据中心应用人工智能面临着技术、运营和人力方面的诸多挑战。尽管目前人工智能技术的应用仍处于起步阶段,但其潜在收益促使许多企业积极寻求实施机会。
电源管理与服务器工作负载管理
数据中心消耗了全球约3%的电力,并导致了约2%的温室气体排放。因此,许多企业正在认真考虑电源管理,以实现成本节约和环保目标。
451 Research的高级分析师Daniel Bizo指出,基于人工智能的系统能够帮助数据中心运营人员识别当前或潜在的冷却问题,例如由于高功率密度机柜导致的冷空气输送不足、精密空调单元的性能不佳或冷热通道冷空气输送不足。
Bizo表示,AI系统可以通过将精密空调系统的数据与环境感知读数相结合来学习设施的运行状态。
IT咨询公司StorageIO的创始人Greg Schulz补充道,电源管理是一个容易实现的目标,即使电源设备更智能地工作。
企业还需考虑容量规划。除了寻找热点和冷点,AI系统还能够确保数据中心为适量的物理服务器供电,并在电力需求突然增加时具备启动和关闭物理服务器的能力。
Schulz进一步指出,电源管理工具正在开发与设备和工作负载管理系统的连接。例如,如果传感器检测到服务器运行温度过高,AI系统可能会迅速将工作负载转移至未充分利用的服务器,以避免对关键任务应用程序造成影响。随后,AI系统可以调查服务器过热的原因,例如风扇故障、物理组件即将崩溃或工作负载过重。
人工智能驱动的健康监控和配置管理
数据中心的物理设备需要定期维护。AI系统可以帮助进行定期维护,并收集和分析遥测数据,以识别需要立即关注的特定领域。Schulz指出,AI工具能够探查所有数据和异常点,监测数据中心的运行状况始于检查设备配置的正确性及其是否达到预期效果。由于大型数据中心可能拥有上千个IT机柜和数万个组件,这项工作往往劳动密集,因此无法及时或彻底执行。
他指出,基于大量传感数据日志的预测性设备故障建模可以识别即将出现的组件或设备故障,并评估其是否需要立即维护,以避免可能导致服务中断的容量损失。
瞻博网络的企业和云计算营销副总裁Michael Bushong认为,企业数据中心运营商应关注一些与人工智能相关的过度宣传和炒作。
Bushong表示,有朝一日,AI系统可能会指出问题并提供解决方案。
依赖关系映射在AI应用中也至关重要。如果数据中心管理人员正在对防火墙或其他设备进行策略更改,可能会产生意想不到的后果。Bushong表示,了解潜在变化非常有用。
确保设备平稳运行的另一个重要方面是控制所谓的配置漂移,即随着时间推移,临时配置的变化可能导致的问题。Bushong指出,AI可以作为额外的安全检查,识别即将发生的基于配置的数据中心问题。
人工智能与安全
Bizo认为,人工智能和机器学习可以通过快速分类和聚类事件来简化事件处理,从而识别重要事件并将其分离开来。更快的根本原因分析能帮助运营人员做出明智决策并采取行动。
Schulz补充道,AI在实时入侵检测方面特别有效。基于AI的系统可以检测、阻止和隔离威胁,并进行法医调查,以确定发生问题的原因。
在安全操作中心(SOC)工作的安全专业人员常常会收到大量警报,而基于AI的系统能够扫描海量遥测数据和日志信息,从而减轻日常任务的负担,使安全专家能腾出时间进行更深入的调查。
基于人工智能的工作负载优化
在应用程序层,无论是在内部部署还是云平台中,AI都有能力自动将工作负载移动到合适的着陆点。Bizo指出,未来,AI和机器学习将能够根据性能、成本、治理、安全性、风险和可持续性的多项标准实时决策工作负载的部署位置。
例如,可以将工作负载自动转移到节能服务器上,同时确保这些服务器以最高效率(利用率为70%-80%)运行。AI系统可以整合性能数据,确保对时间敏感的应用程序在高效服务器上运行,而不需要快速执行的应用程序则不会消耗过多能量。
基于AI的工作负载优化引起了麻省理工学院研究人员的关注,他们去年宣布开发了一套AI系统,能够自动学习如何在数千台服务器上调度数据处理操作。
然而,正如Bushong所指出的,当前的工作负载优化主要集中在Amazon、谷歌和Azure等超大规模企业,而非一般企业数据中心,原因多种多样。
实施人工智能的挑战
优化和自动化数据中心是数字化转型计划中不可或缺的一部分。戴尔公司的Tabet指出,疫情促使许多组织寻求更高的自动化,推动了AI驱动和自我修复的数字数据中心理念的实现。
谷歌在2018年宣布,将多个超大规模数据中心的冷却系统控制权交给AI程序,该公司报告称,AI算法的建议使能源使用量降低了40%。
然而,对于许多企业而言,在数据中心实施AI技术仍然是一个雄心勃勃的目标。Bizo表示,虽然一些AI和机器学习功能可用于事件处理、基础设施运行状况和冷却优化,但要超越当前标准数据中心基础设施管理(DCIM)所能实现的更多突破,需要数年的时间。
Tabet指出,一些障碍包括招聘或培训合适的工作人员来管理系统,以及对数据标准和相关架构的需求。AIOps平台的成熟度、IT技能和运营成熟度是主要障碍。高级部署面临的其他挑战还包括数据质量以及IT基础设施和运营团队中缺乏数据科学技能。
Bushong补充说,最大的障碍始终是人力资源。他指出,许多企业面临招聘数据科学家的挑战,而培训现有员工也同样困难。长久以来,许多员工对无法掌控的技术表现出抵触情绪。他指出,软件定义网络(SDN)技术已经存在了十年,但超过75%的IT运营仍然依赖命令行界面(CLI)。
Bushong表示,很多人相信,基础设施的运营商并不准备将控制权交给人工智能。
这也是Bushong建议企业应向人工智能方向迈进的原因。
