Elastic 可观测性:监测 Kubernetes 集群

概述

Elastic 可观测性介绍

进一步熟悉 Elastic 可观测性,大致了解如何使用 Elastic Cloud 采集、查看和分析应用程序中的客户日志。


装载 Kubernetes 集群

创建 Elastic Cloud 帐户

开始为期 14 天的试用。访问 cloud.elastic.co 并创建帐户后,请跟随本视频学习,了解如何在我们全球 50 多个支持的地区中的任何一个启动您的第一个 Elastic Stack。

部署完成后,在可观测性选项卡下,选择监测 Kubernetes 集群,然后按照提供的指导说明操作。请务必查看本博文,了解有关管理 Kubernetes 集群的更多详情。

将 Kubernetes 数据采集到 Elastic 中

如果这是您第一次使用 Elastic,您需要向要监测的 Kubernetes 集群添加一个 Elastic 代理,并配置 Kubernetes 集成。

选择监测 Kubernetes 集群后,单击开始,系统会提示您添加 Kubernetes 集成。

选择添加 Kubernetes 后,系统会提示您通过 3 个简单的步骤来采集 Kubernetes 数据。

首先,添加包含 Kubernetes 集成的 Elastic 代理。虽然该集成预设为收集所有 Kubernetes 数据,但您可以只选择需要收集的数据(例如,Pod 指标、容器日志等)。

有关使用 Elastic Agent 的 Kubernetes 集成可为您实现哪些功能的简要概述,请查看这篇博文

除了标准 Kubernetes 组件之外,适用于 Kubernetes 的 Elastic Agent 集成还支持从 kube-state-metrics (ksm) 收集数据。ksm 是一种广受欢迎的用于监测 Kubernetes 集群的附加组件;大多数 Kubernetes 发行版默认不提供 ksm,您需要单独进行安装

有关如何在 Kubernetes 上运行 Elastic Agent 的更多信息,请参考文档


使用 Elastic 可观测性

现在,您已经从 Kubernetes 集群采集了数据,让我们深入分析收集到的日志和指标,最后设置告警,帮助您了解何时需要关注问题。

通过 Elastic 可观测性处理 Kubernetes 日志

可以使用 Elastic 的 Discover 功能搜索和分析 Kubernetes 日志。若要利用 Discover 功能,请导航至左侧菜单,然后选择分析下的 Discover

在这里我们可以看到如何搜索、审查和分析 Kubernetes 日志:

此外,我们还可以在 Discover 中查看指标:

通过 Elastic 可观测性可视化 Kubernetes 指标

此外,还有各种开箱即用的 Kubernetes 仪表板,可用于在 Kibana 中分析 Kubernetes 指标。只需导航至左侧分析下的仪表板,然后搜索 Kubernetes

如果查看 Kubernetes 概述,可以看到整个 Kubernetes 集群的指标。所有节点、Pod、CPU 和内存使用情况,一目了然。

通过 Kibana,您可以使用交互式仪表板分析日志,以获得见解、自动化工作流、发现异常和趋势等。请务必浏览下面的教程库,进一步熟悉 Kibana,以便定制或创建自己的仪表板。

当您选择位于“分析”下的“仪表板”时,还可以创建仪表板,根据需求定制新的开箱即用的仪表板。

如果遇到问题,可以看看这个介绍视频,了解如何采集数据。

详细了解 Kibana、如何创建仪表板和使用 Discover。

预防、预测和修复问题

设置告警

在左侧导航栏的可观测性下,选择告警创建规则。这样,在各种事件发生时(如延迟异常、指标聚合超过阈值等),您可以通过电子邮件、Jira、Slack 等收到通知。

利用 Machine Learning 获得见解

在开始了解本部分内容之前,请确保您部署了用于 Machine Learning 的节点。

最后,导航至菜单中位于分析下的 Machine Learning。在 Machine Learning 概述页面的左侧菜单中,在异常检测下,选择作业,创建一个 Machine Learning 作业。例如,通过设置 Machine Learning 作业,而不是在内存使用率达到特定百分比(如 50%、80% 等)时发出告警,您就会知道内存使用率何时不正常。


后续步骤

感谢您花时间通过 Elastic Cloud 监测 Kubernetes 集群。如果您刚接触 Elastic,一定要进行 14 天的免费试用。

另外,当您开始使用 Elastic 时,要了解在整个环境中部署时作为用户应管理的一些操作、安全性和数据组件