IT从业者面临AI威胁,数据中心成首要目标
当前,关于人工智能的讨论主要集中在自动驾驶汽车、聊天机器人、数字孪生技术、机器人技术,以及通过大数据利用AI系统获得业务洞察等领域。尽管自主运维的数据中心尚未实现,但在技术、运维和人员等方面,数据中心中的人工智能已经取得了显著进展。
人工智能(AI)和机器学习(ML)终将在企业数据中心中发挥重要作用。未来,AI可能帮助企业构建高度自动化、安全且具备自我修复功能的数据中心,这些设施将以更高的效率和弹性运行,几乎不需要人工干预。
人工智能在提升数据中心效率和扩展业务方面的潜力主要体现在以下四个方面:
- 安全性:AI工具能够学习正常的网络流量,从而发现异常情况,明确哪些警报需优先处理,并提供安全防御建议。
- 工作负载管理:AI系统可实时自动将工作负载迁移至效率最高的基础设施,这些基础设施可在数据中心、混合云、云端或边缘环境中运行。
- 电源管理:基于AI的电源管理可优化冷却系统,降低电力成本,减少人工干预,提高运维效率。
- 设备管理:AI系统能够检查系统配置的正确性,监控服务器、存储和网络设备的健康状态,并预测设备故障。
人工智能与安全
安全运营中心(SOC)中的安全专家常常被大量警报困扰。基于AI的系统可以扫描大量遥测数据和日志信息,处理简单任务,从而让安全专家有更多时间进行深入调查。这些系统能够检测、阻止和隔离威胁,并追踪事件的根本原因,极大地提升了实时入侵检测的效率。
通过快速进行根本原因分析,运维人员可以做出明智决策并迅速采取行动。AI和机器学习通过对事件的快速分类和聚类,帮助识别重要事件并将其与无关噪声区分开,简化事件响应流程。
除了帮助解读人类难以处理的数据外,AI自动化还在优化能源使用、工作负载分配及数据中心资产利用效率上提供了深刻洞察。
基于AI的工作负载优化
无论是在本地还是云端,AI能够在应用层自动将工作负载迁移到合适的位置。例如,自动将工作负载迁移到最节能的服务器,同时确保这些服务器以最高效率(利用率70%~80%)运行。
AI系统还能够将对时间敏感的应用程序迁移至高效服务器上,确保那些不需迅速执行的应用程序不会消耗过多电力。
未来,AI/ML还将根据性能、成本、治理、安全性、风险和可持续性等因素,实时决定工作负载的迁移位置。
将电源管理与服务器工作负载管理整合在一起
AI的优势与出色硬件设计并不在同一层面,电源管理是最容易改进的领域之一。这涉及到生产力,确保每个BTU完成更多工作,以及每瓦特电能的高效利用。
这同样意味着工作需要更智能,设备也应更加智能化。例如,当传感器检测到服务器温度过高,系统可自动迅速将工作负载转移至未充分利用的服务器,以避免关键任务应用程序中断。同时,系统会调查过热原因,是否因风扇故障、物理组件问题或工作负载过重。
AI系统还可以通过关联HVAC系统数据和环境传感器数据,了解设施当前状态。例如,基于AI的系统可以帮助数据中心管理员识别当前或潜在的冷却问题,确保冷却系统高效运行。
容量规划也是一个可改进的领域。AI系统不仅能找到热点和冷却点,还能确保数据中心为适当数量的物理服务器供电,并在需求激增时启动新的服务器以提升可用容量。
许多企业对数据中心电源管理的重视,既是为节省资金,也是为了履行环保责任。数据显示,数据中心消耗了全球3%的电力,并造成约2%的温室气体排放。
谷歌在2018年宣布,将多个超大规模数据中心的冷却系统交由AI管理,结果使耗电量降低了40%。
运行状态监控和配置管理监督
IT机柜中的众多组件使得检查工作变得劳动密集,不及时和不彻底的情况时有发生。运行状态监控可确保设备配置正确,性能达到预期。
数据中心内还有许多需要定期维护的物理设备。AI系统不仅可进行定期维护,还能收集和分析遥测数据,识别需立即关注的特定区域。通过大量传感数据日志进行预测性设备故障建模,AI可以发现即将发生的组件或设备故障,评估是否需要立即维护以避免服务中断。
人工智能系统最终可能实现“告诉我问题出在哪里,我去解决”,但许多数据中心运营商可能更希望系统能简单告知“如果出现问题,请告诉我去哪里查看”。
保持设备平稳安全运行的另一个重要环节是控制“配置漂移”。AI可作为“额外的安全检查”,帮助识别因配置导致的数据中心问题。
部署AI所面临的挑战
优化和自动化数据中心是数字化转型计划中不可或缺的一部分。新冠疫情促使许多公司寻求进一步自动化数据中心,推动AI在数据中心中的应用。一些AI/ML功能已用于事件处理、基础设施运行状况监测和散热优化。
然而,要使AI/ML模型超越现有的数据中心基础设施管理(DCIM),仍需更多突破与时间。这与自动驾驶汽车的发展相似,早期阶段虽具吸引力,但与最终承诺的颠覆性经济案例相比,仍有差距。AIOps平台的成熟度、IT技能和运维成熟度都是重大挑战。此外,高级部署面临的数据质量问题,以及IT基础设施和运维团队缺乏数据科学技能的困境,也为部署AI增加了难度。
然而,最大的挑战依然在于人。当运维人员准备将权力交给AI时,若对决策者缺乏信任,则在过渡期间,如何培训和安抚人员的不安情绪将成为难题。在过渡期间,许多人会担心“如果我完全照做,会不会失业?”
对于许多企业来说,招聘资深数据科学家已经是一个挑战,而培训现有员工同样困难重重。员工对技术的抵制由来已久。例如,软件定义网络(SDN)推出已有十年,但仍有超过75%的IT运维人员在使用命令行界面。
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
[[[IMG_4]]]
[[[IMG_5]]]
