管理云环境和进行故障排除可能会面临挑战,因为基础设施通常由服务提供商拥有。以下是一些简化云管理的有效方法。

首先,您需要考虑云自动化的用例。虽然具体功能取决于云供应商,但这些用例能够简化云实施的监控。一些工具可以隐藏不同云API之间的差异,这对于多云或混合云的部署特别有利。市场上有众多多云编排工具,开源软件包如Ansible和Python也可以帮助那些希望自主构建解决方案的公司。
无论选择哪种方案,请确保它能够覆盖不同云供应商之间的差异。同时,选择的工具不应隐藏过多细节,以免影响精确故障排除所需的可见性。
工作流程管理云自动化的通用工作流是您最重要的工具之一。诸如资源的供应、取消供应、审核和故障排除等任务至关重要。支持敏捷开发的组织会利用支持持续集成、交付和部署的工作流。自动化程度越高,管理云资源所需的人工干预就越少。
云管理应集中在以下五个关键领域。
1. 降低费用:利用云服务商的优势,您可以将维护物理基础设施的费用转移给供应商,但前提是您需要正确管理流程。为此,IT系统和流程应设计为根据需要自动配置和取消配置资源,以降低手动干预的频率。所谓的僵尸IT会轻易消耗原本的节省。
2. IT安全:云计算常被误认为比企业托管的计算环境更安全,实际上,它带来了新的挑战。确保数据安全的最佳方式是与专业安全公司合作,使用经过验证的产品来保护在传输和静止状态下的数据。在所有云自动化用例中,创建和维护良好的云安全性至关重要。
3. 性能:如果云计算环境设计和实施不当,应用程序的性能可能会受到影响。应用程序的关键部分应由单一云供应商提供服务,以减少组件间的通信延迟。利用多个云实例的应用程序可以优化客户端到云的连接位置。
监测云性能的一种方法是使用OpenTeleMetRy云可观察性框架。它是一个开源、与供应商无关的系统,能够从云计算系统中收集遥测数据。通过在计算系统上加载软件代理,收集的度量和日志会被转发到分析系统以评估性能。请与您的云供应商确认是否支持该系统。
4. 弹性:良好的云计算设计应具备在多个可用性区域或多个云供应商之间运行应用程序的能力。然而,实施时需谨慎,避免应用程序依赖未冗余的内部组件。验证弹性的最佳办法是进行主动测试,并考虑外部组织来验证测试结果,以防测试过程中出现快捷方式影响结果的情况。
5. 故障排除:对不拥有或无法控制的基础设施进行故障排除是具有挑战性的。您可能无法获取对企业网络故障排除所需的数据,因此需要依赖数字体验(DX)监控,结合综合事务和实时流量监控。
详细的诊断信息由软件代理捕获并关联,从而生成客户端到服务器的应用程序性能的全面视图。在NetCRaftSMen,我们使用DX工具诊断各种问题,包括ISP路由协议和客户端Wi-Fi信号强度等,这些问题往往无法直接访问相关网络和设备。
寻找更有效的方法是另一个步骤,您可以利用ChatOps自动化工作流来简化故障排除并缩短解决时间。当问题被检测到时,机器人会运行预定的工作流程以收集诊断信息,并将其发布到Slack或Teams等聊天空间中,IT团队成员可以在这里开始故障排除。根据需要,可以创建更多的机器人工作流,从而使IT团队无需手动调查或收集性能数据。
从企业计算到云计算的转变带来了挑战与机遇。您可以借鉴企业中的有效方法,并将这些系统和工作流程迁移到云中。关键在于仔细评估云自动化用例,以确定哪些工具能帮助您按需扩展资源,同时避免手动流程中可能存在的错误。
