互联网资讯 / 人工智能 · 2023年12月13日 0

AI应对数据中心工作负载管理挑战

随着数据中心工作负载的不断增加,越来越多的企业开始关注人工智能(AI),希望借助这一技术减轻IT团队的管理负担,同时提升效率并降低成本。

人工智能的优势在于能够实时将工作负载自动迁移至最有效的基础设施,涵盖数据中心内部以及混合云环境中的本地、云和边缘设置。随着人工智能在工作负载管理中的应用,未来的数据中心可能与现有设施大相径庭,一个可能的场景是由远程管理员管理的小型互联边缘数据中心集群。

InfosYsKnowledgEINstITute的负责人Jeff Kavanaugh指出,许多组织由于激烈的竞争、通货膨胀和预算削减等因素,正在寻找降低数据中心运营成本的方法。他表示:“人工智能和自动化已被证明是工作量管理的有力工具,它们能够将员工从繁琐、耗时的任务中解放出来,使他们专注于真正需要人类完成的工作。”

大多数数据中心管理人员已经在使用各种传统的非人工智能工具来协助和优化工作负载管理。然而,KPMG的咨询总监Sean Kenney表示,这些工具通常是被动的,无法主动应对数据中心的问题,而是仅仅对问题做出反应,缺乏收集数据以防止问题发生的能力。

伊利诺伊大学的临床助理教授Sanket Shah认为,人工智能现已为那些缺乏可靠预测和规划未来需求能力的数据中心管理者提供了帮助。他解释道:“有了人工智能,资源可以更有效地分配,使组织能够实现扩展和灵活性。对于那些数据需求快速变化的管理者来说,自动化某些流程并在必要时移交权力,最终将降低成本。”

利用人工智能技术来管理数据中心的构想并不新鲜。例如,谷歌早在2014年就披露,利用收购英国人工智能公司DeepMind的技术来加强其多个数据中心的设施和设备管理。如今,人工智能在工作负载管理领域的应用已大幅扩展,包括DLabs、diGitate、RedwoodSoftware和TidalSoftware等许多初创公司。思科、IBM和VMware等大型企业也开始进军这一市场。

工作负载管理技术在迅速发展。华盛顿大学信息学院的副教授Bill Howe指出,虽然有很多选择和限制,但通常都有办法减轻这些限制。他表示:“选择正确的方法和工程解决方案并没有问题…与其他任何复杂的人工智能应用相比,工作负载管理的挑战既不大也不小。”

对于大多数数据中心管理者而言,优化运营以满足峰值需求是首要任务。然而,无论他们多么仔细地计划和准备,需求的高峰和低谷往往超出他们的控制范围。CapGemini North America的人工智能工程副总裁Goutham Belliappa表示:“人工智能的独特优势在于理解工作负载模式,并将这些需求与数据中心的容量匹配。”

人工智能管理能够将数据中心团队从繁重的重复任务中解放出来,这些任务包括服务器管理、安全设置、计算、内存和存储优化、负载平衡以及电力和冷却分配。科技市场咨询公司ABI Research的首席分析师Lian Jye Su表示:“所有这些工作都可以通过人工智能实现自动化或增强。”

IT管理软件开发公司ManageEngine的人工智能和机器学习产品总监RampRakash Ramamoorthy表示,人工智能能够分析从单个机器收集的数据,并发现监控参数中的异常。他补充说:“人工智能还可以更早地预测故障和中断,从而帮助数据中心管理团队减少停机时间,保持集群的良好运行状态。”同时,人工智能还可以改善温度和电压管理,从而直接降低运营成本,减少碳足迹。

Ramamoorthy指出,尽管可以采用多种人工智能方法,但工作负载管理工具应确保模型预测的可解释性。他解释道:“在数据中心工作负载管理中,人工智能系统的决策往往由一个或多个团队共同作出。因此,AI模型的决策应是可解释的,以便IT团队更好地理解其意图并采取相应行动。”他还指出,人工智能模型的准确率最高可达80%到85%,这使得人类团队能够通过正确解读人工智能模型的决策做出明智的选择。如果人工智能模型能提供决策的信心评分,这也将对有效的工作负载管理大有裨益。

人工智能和机器学习开发公司Tanjo的联合创始人兼首席执行官Richard Boyd表示,随着人工智能和机器学习工具的普及,各组织认识到,只有当人类智能与这些技术合作而不是竞争时,才能获得最佳结果。他认为:“机器在许多方面无法替代人类,但在某些领域,机器显然表现得更佳。当人工智能和机器学习逐渐流行后,工人们会适应这种新的合作关系,进而改变人们的看法。”

Dell Technologies的AI战略主管Bronson Larson表示,数据中心可以利用AI/ML提升性能,并优化配置和部署。AI/ML能够动态编排资源与工作负载,以优化资源利用,管理成本。Larson补充道,所有的人工智能解决方案,无论是应用程序还是供应商,都需要专业知识来正确配置和优化其价值。首先要准确捕获和评估数据,以便进行训练和测试,并管理部署的模型,以防止漂移和偏差。

此外,基于规则的AI可以通过智能策略控制和预定义配置来帮助自动化资源优化和合规。Su指出,通过从日常运营中收集的数据,基于机器学习的人工智能可以增强数据中心运营的其他方面,这些方面之前需要深入的领域专业知识。他表示:“例如,数据中心的安全可以通过自我学习的威胁检测和监控算法来加强。通过将所需资源引导到正确的方向,可以优化负载平衡、电力和冷却分配。”

人工智能还可以简化数据管理。Kavanaugh表示:“企业越来越多地面临与关键利益相关者相关的大量数据。借助人工智能,组织可以确保这些数据得到有效和准确的管理。在人工智能的帮助下,团队可以比以往任何时候都更快、更准确地完成任务,如数据质量分析或数据提取以进行预测。”Kavanaugh强调,这对组织至关重要,因为他们需要最准确的数据来做出明智的决策。

随着人工智能的成熟,出现了一种软件驱动的方法,将不同的元素结合在一起,以最小的人为干预。Howe指出,在典型的数据库系统中,需要进行大量配置才能使操作有效运行,例如索引表、跨服务器对数据进行分区、为某些类型的查询分配内存,以及调优优化器以适应计算平台和预期工作负载。他解释道:“人工智能可以帮助我们从大量历史数据中学习规则和程序,这些数据涉及哪些时间表适合哪些任务,而不是让我们试图弄清楚所有事情。”

有了人工智能,IT领导者和团队可以专注于业务问题,而无需担心基础设施的细节。Belliappa表示:“从人工智能的角度来看,我们使用的大多数模型都是自学习集成模型,它们结合了多种技术,并在管理的工作负载模式中不断优化。”

在人工智能发挥管理能力之前,IT和商业领袖需要习惯于将关键管理职责交给软件。Shah承认,这对于不同规模和内部知识库的组织而言可能相当困难。

最终,组织如何处理人类向人工智能管理的转变取决于其技术成熟度、运营规模和数据中心的动态性。Kavanaugh表示,缺乏有效利用数据的现代基础设施的孤立企业将会面临困难。另一方面,越来越多的人工智能供应商提供针对特定类型企业的工具,使几乎任何规模的组织都能顺利过渡。他预测,随着公司及其解决方案的成熟,配置和部署的便利性将持续提高。

如果人工智能有致命弱点,那就是它对数据中心系统和实践中相对微妙变化的反应。Howe解释称:“大多数AI技术都是寻找稳定模式的,假设环境是固定的。如果环境发生变化,模型很可能会给出错误的答案。在进行变更部署之前进行仔细的计划可以帮助减轻这种担忧。”

尽管许多大型企业(如谷歌、亚马逊和微软)已经在使用人工智能支持的数据中心工作负载管理,但这一技术现在才开始渗透到较小的数据中心运营商。Belliappa认为,数据中心管理者将很快面临艰难选择:继续依赖传统的管理技术和实践,还是大量投资于人工智能驱动的转型以保持业务的可行性。

从长远来看,随着技术的进步、成本的降低和用户信心的增强,人工智能驱动的管理有望成为主流。Shah预测,在未来的四到六年,人工智能数据中心工作负载管理技术将成为标准选择。

Howe表示:“这个趋势发展迅速。长期以来,数据中心一直存在大量自动化,而这些(人工智能)技术为利用提供商拥有的大量数据提供了更好的方式。”他预计,使用人工智能学习方法进行自动化工作负载管理将会迅速普及。

Kavanaugh指出,行业观察家越来越期望人工智能将在未来三到四年内主导数据中心管理,尽管大流行驱动的加速可能会推动这一进程的提前。他预测,数据中心将能够实现几乎所有操作的自动化,从网络安全到维护再到监控。然而,随着数据量的指数级增长,以及我们在企业中发现人工智能的新用途,工作负载及其管理将持续演变。

AI 解决数据中心的工作负载管理挑战