什么是 AIOps — 入门指南
了解有助于实现可观测性的 AIOps
IT 运营人工智能(简称 AIOps)仍然是开发人员、SRE 和 DevOps 专业人员关注的热门话题。鉴于当今混合云和多云环境中可观测性工作的广泛性,AIOps 的应用显得尤为关键。与大多数可观测性平台一样,这一切都会从遥测数据开始:指标、日志、痕迹和事件。
一旦 IT 运营团队收集并开始分析这些数据,AIOps 的优势就会迅速显现出来。AIOps 旨在准确、主动地识别需要注意的领域,协助 IT 团队更快地解决问题。如今,需要对 PB 量级的原始可观测性数据进行分析,而作为人类,我们终究无法以人工方式达到这一要求。AIOps 的加入为分析和自动化增添了一层智能性,有助于减少团队的开销。接下来,我们详细回答有关这个重要话题的常见问题!
什么是 AIOps,对我有什么帮助?
简而言之,AIOps 是软件系统借助 AI/ML 和相关分析技术来简化和协助 IT 运营的能力。AIOps 功能可用来采集和处理各种运营数据,包括日志数据、痕迹、指标等。
Gartner™、Forrester™ 等研究公司想通过定义和解释的形式来阐明 AIOps 这个通常比较复杂和难以理解的术语。AIOps 有助于大大减少检测、理解、调查和确定根本原因所花费的时间和精力,还能更快地对发生的问题和事件进行补救。反过来,在故障排查过程中节省下来的时间可让 IT 人员将更多精力投入到价值更高的任务和项目上。
为什么需要将 AIOps 纳入可观测性战略?
从数字转型计划到云迁移,再到分布式、混合或云原生应用程序部署,市场动态极大地改变了 IT 运营环境。
运营环境变化具有以下三个特征:
- 数据量:实现可观测性所涵盖的数据量持续呈指数级增长
- 复杂性:应用程序、工作负载和部署变得越来越复杂、短暂和分散
- 变化速度:变化(应用程序和基础架构)发生的速度比以往任何时候都快
这些变化并不是互斥的。在某些方面,情况恰恰相反。例如,高变化率和使用自动扩展的复杂部署意味着更大的数据量。这种日益增长的复杂性意味着,为了跟上快速变化的环境,人类将会越来越依赖于系统和自动化。而 AIOps 在应对这些挑战方面可发挥关键作用。
利用 AI/ML 对数据进行汇总和累计,并对数据进行智能分层存储,可以帮助缓解一些数据量方面的挑战。例如,通过基础架构和服务关联图对应用程序环境进行清晰的可视化描述,以及有上下文的导览,都有助于根据用户对其部署的自然看法来调整故障排查工作。此外,自动显现问题和根本原因分析将解决其他一些复杂性挑战。
可观测性产品需要跟踪所有应用程序和基础架构的变化,并将这些变化与系统行为和用户体验相关联,因为变化往往是导致严重异常行为的根本原因。一个典型的例子就是对某项新功能的升级或补丁会带来意想不到的后果。启用这些关联性可以帮助团队提高敏捷性,让他们更善于跟上这些频繁变化的步伐,从而保持服务绩效。
因此,AIOps 可发挥关键作用,如果实施和使用得当,可以帮助有效应对这些挑战,将运营团队解放出来,专注于更重要的工作。
AIOps 可以为哪些可观测性用例提供卓越支持?
AIOps 技术与科技已经很好地应用于多个可观测性工作流和用例,例如:
- 可以通过异常检测来检测服务降级,例如延迟突然或意外发生变化。
- 可以对大量数据(如非结构化或半结构化日志消息)自动进行分级、分类和汇总,以帮助简化数据的使用和分析。
- 可以关联多个症状、事件和问题,以帮助减少告警“干扰”,并缩短确定根本原因的时间。
- 基于影响评估、异常程度和其他度量的自动运行状况评分,有助于优先发现最关键的问题,进一步减少干扰。
AIOps 可以帮助自动查找、检测和分类这些症状,并找出潜在的根本原因。有一句更容易理解且经过时间检验的话可用来描述其作用机制:“如果这是症状,那么这就是可能的根本原因”。AIOps 还可以启用补救措施来解决常见问题或琐碎问题。在今后的博客中,我们将深入探讨关键用例,以及如何确定在日常运营中应用 AIOps 的场景。
AIOps 如何为组织带来业务价值?
与 IT 和软件开发中的许多计划一样,AIOps 可通过多种方式为组织和团队带来积极效益。AIOps 不仅可以显著减少 IT 运营 (ITOps)、站点可靠性工程 (SRE) 和 DevOps 团队所需完成的日常重复性工作,还能带来显著的商业效益:
- 缩短 MTTD(平均检测时间)、MTTR(平均解决时间)意味着更少的服务中断、改进的 SLA 和更好的客户体验。
- 帮助组织智能地处理快速增长的数据量,降低总体拥有成本 (TCO),并缓解扩展带来的挑战。
- 减少信号和告警干扰,更好地实现自动化,有助于让运营团队腾出更多时间来执行价值更高的计划。
- AIOps 可提高组织应对不断增加的 IT 复杂性和总体变化速度的能力,让企业能够更快、更频繁地为客户带来价值。
考虑到当今云原生和混合应用程序环境的数量、复杂性和变化速度,AIOps 正日益从一种锦上添花的功能转变为 IT 运营团队执行关键任务不可或缺的能力。
如何建立对 AIOps 的信任,并使其可以投入到生产环境?
IT 人员、SRE 和 DevOps 工程师必须克服几个采用障碍,才能成功采用 AIOps 并将其用于可观测性用例。
一方面,噱头效应的确带来不小的挑战,AIOps 市场中充斥着很多噱头。用户面临的问题是,除了这些噱头之外,还有什么业务价值?与他们当前的监测或可观测性设置相比,AIOps 能否帮助更好、更有效地检测和补救问题。除了各种噱头和炒作,用户可能不一定知道他们是否会从 AI/ML 的特定用例中受益。
另一方面,还有信任障碍。其中一个障碍是用户无法判断基于 AIOps 获得的见解是否准确。用户甚至可能不知道分析的全面性如何,使用了哪些信息,算法是怎么工作的,结论是如何得出的,或者这些结论是否与他们当前的调查相关,种种疑问导致了用户对黑匣子 AIOps 系统普遍不信任。在某些情况下,由于缺乏信任而产生的组织压力或政策也可能成为采用 AIOps 的障碍。
我们的经验表明,缓慢而稳定地采用 AIOps 往往是发挥其价值的最佳方式。首先,确定具体的、经过时间检验的成熟用例,以概念验证 (POC) 方式开始采用 AIOps。接下来,在部署的一个较小子集上启用 AIOps 功能,同时验证和公开每个阶段的益处和结果。一旦您取得了一些成功,就可以逐步启用更多的 AIOps 功能,并将其转移到生产环境中。这种经过深思熟虑的部署路径可减轻与部署新技术相关的一些传统挑战,否则这些挑战可能会阻碍 AIOps 的广泛采用。
在较小的实验室或非生产环境中测试和证明技术的有效性,并在测定结果后向管理层展示,有助于他们增强信心,并在将 AIOps 部署到实际生产环境中之前得到管理层的支持。这样的测试可能会发现其他方面的差距和需求,比如数据缺失或不一致、覆盖面浅或者存储或计算不足。当您在生产环境中部署 AIOps 时,请检查您的可观测性解决方案是否能够适当地扩展其功能性并处理企业工作负载。因为某些 AIOps 功能在实验室或 POC 环境中运行良好,但可能难以满足生产环境中通常遇到的大规模需求。
可观测性如何超越传统的 AIOps 定义,利用更深层次的人工智能和机器学习?
一切始于数据。可供分析的数据越全面、越丰富,通过应用 AI/ML 技术可以对这些数据进行的处理就越多。AI/ML 的高级应用可以帮助推动其他用例的发展,例如提取业务见解、跨多个信号得出预测性或领先指标,或在需要时定义和部署完全定制的 AI/ML。
自然语言处理 (NLP) 是 AI/ML 在传统 AIOps 之外使用的一个例子。NLP 有助于对文本数据进行分类和分级。NLP 在情绪分析等用例中非常有用,有助于衡量与新应用程序推出或主要功能升级等事件相关的用户情绪,能够对可观测性起到补充和增强作用。
如果想根据具体的定制企业需求量身定制解决方案,IT 团队可以决定将自己的 ML 建模方案用于构建、训练、测试和部署到生产环境中。这些模型的输出可以直观呈现在定制仪表板或报告中,让 IT 组织能够满足各种特殊的、一次性的或具体的需求,而这类需求是无法通过开箱即用型功能来满足的。
未来 AIOps 将能够处理哪些用例和趋势?
随着数据从收集点、持久性(平衡数据可用性、性能与 TCO)、分析到可视化和补救,AIOps 将继续在这一过程中发挥重要作用。
随着数据量的不断增加,在数据收集过程中,人工智能辅助分析将有助于确定哪些数据最值得收集和分析。此外,在收集边缘运行 AI/ML 算法还将有助于在收集点或附近汇总数据,分发 AI 智慧体验并减少集中所有分析的需求。分级和分类方案将动态决定传入数据是发送到温层还是冷层进行存储,从而优化总体拥有成本。分析将独立处理多个信号和数据,检测异常行为,然后快速分离出根本原因。随着客户对自动补救的信任度开始提高,补救自动化将在更多的用例和场景中具有自主性。可观测系统将开始形成更多的闭环;不论是收集、存储和分析数据,还是自动检测和补救更多事件,人工干预都会越来越少。
在当今的云原生世界中,AIOps 对于 DevOps 团队至关重要
与许多新技术一样,AIOps 的定义及其益处也在不断发展。将 AIOps 纳入可观测性战略是对不断增长的数据、复杂性和变化速度的自然响应的一部分。如果实施得当,AIOps 便可带来巨大的业务价值。
我们将在未来的博客中深入探讨常见的 AIOps 用例,了解其如何推动改进和提高效率,敬请关注。