【系統監控】Prometheus 普羅米修斯Alert Rule默認系統監控與中文說明 ~ 萊恩的隨手筆記|Ryan's Notebook

【系統監控】Prometheus 普羅米修斯Alert Rule默認系統監控與中文說明

Prometheus 簡介

Prometheus 是一套開源的系統監控報警框架。它啟發於 Google 的 borgmon 監控系統，由工作在 SoundCloud 的 google 前員工在 2012 年創建，作為社區開源專案進行開發，並於 2015 年正式發佈。2016 年，Prometheus 正式加入 Cloud Native Computing Foundation，成為受歡迎度僅次於 Kubernetes 的項目。

Prometheus 默認系統監控與中文說明
告警鍵值	中文說明	故障持續時間
AlertmanagerConfigInconsistent	AlertManager群集xxxx的實例配置不同步。	5m
AlertmanagerDown	AlertManager已從普羅米修士目標發現中消失。	15m
AlertmanagerFailedReload	重新載入AlertManager的配置失敗	10m
AlertmanagerMembersInconsistent	AlertManager未找到群集的所有其他成員。	5m
CPUThrottlingHigh	cpu節流高，使用低CPU限制，就算高峰期，整個集群還是有很多空閒資源	15m
etcdGRPCRequestsSlow	ETCD GRPC請求緩慢	10m
etcdHighCommitDurations	ETCD提交時間過長	10m
etcdHighFsyncDurations	ETCD同步時間過長	10m
etcdHighNumberOfFailedGRPCRequests	ETCD失敗的GRPC請求數太多	10m
etcdHighNumberOfFailedHTTPRequests	ETCD失敗的HTTP請求數太多	10m
etcdHighNumberOfFailedProposals	ETCD失敗的計畫數量很多	15m
etcdHighNumberOfLeaderChanges	ETCD Leader 變更次數多	15m
etcdHTTPRequestsSlow	ETCD HTTP請求速度慢	10m
etcdInsufficientMembers	ETCD成員不足	3m
etcdMemberCommunicationSlow	ETCD成員通信緩慢	10m
etcdNoLeader	ETCD沒有Leader	1m
KubeAPIDown	KubeAPI 宕掉或不存在	15m
KubeAPIErrorsHigh	API伺服器正在為請求的值返回錯誤。	10m
KubeAPILatencyHigh	API伺服器每秒鐘延遲超過99%	10m
KubeClientCertificateExpiration	用於向APIServer進行身份驗證的用戶端證書將在7天內過期。	5m
KubeClientErrors	連接用戶端API 錯誤	15m
KubeControllerManagerDown	KubeControllerManager 宕掉	15m
KubeCPUOvercommit	該集群cpu超出資源限額	5m
KubeCronJobRunning	CronJob 運行超過1小時	1h
KubeDaemonSetMisScheduled	DaemonSet調度錯誤，沒有跑到正確的機器上	10m
KubeDaemonSetNotScheduled	DaemonSet 位元設置運行在哪，也就是分配錯誤	10m
KubeDaemonSetRolloutStuck	DaemonSet 啟動或滾動時卡住？	15m
KubeDeploymentGenerationMismatch	Deployment 生成部署不匹配，部署失敗	15m
KubeDeploymentReplicasMismatch	Deployment 與預期的副本數不匹配的時間已超過一小時。	1h
KubeJobCompletion	Job 超過一小時才完成	1h
KubeJobFailed	Job 失敗	1h
KubeletDown	Kubelet宕掉了	15m
KubeletTooManyPods	pods數量太多，超過極限的110%	15m
KubeMemOvercommit	集群記憶體資源使用過度，無法再容忍故障節點漂移	5m
KubeNodeNotReady	node故障超過1小時	1h
KubePersistentVolumeErrors	持久卷Volume 異常	5m
KubePersistentVolumeFullInFourDays	根據最近的採樣，某Volume 講在4天內填滿	5m
KubePersistentVolumeUsageCritical	該持久卷使用權限不足，只能在xxx空間內使用	1m
KubePodCrashLooping	該pod CrashLoopBackOff 狀態重啟超過5分鐘	1h
KubePodNotReady	pod處於未就緒狀態超過一小時。	1h
KubeQuotaExceeded	Kube 使用超出配額	15m
KubeSchedulerDown	KubeScheduler 宕掉	15m
KubeStatefulSetGenerationMismatch	StatefulSet 錯誤，但尚未回滾	15m
KubeStatefulSetReplicasMismatch	statefulset 複本集不匹配，超過15分鐘	15m
KubeStatefulSetUpdateNotRolledOut	statefulset 更新尚未結束（更新超時）	15m
KubeStateMetricsDown	KubeStateMetrics 宕掉	15m
KubeVersionMismatch	kube版本不匹配	1h
NodeDiskRunningFull	node磁碟空間超過85%	10m
NodeExporterDown	NodeExporter 宕機	15m
PrometheusConfigReloadFailed	Prometheus重載配置失敗	10m
PrometheusDown	Prometheus 宕機	15m
PrometheusErrorSendingAlerts	從Prometheus 向AlertManager 發送警報時出錯	10m
PrometheusNotConnectedToAlertmanagers	Prometheus 不能連接AlertManager	10m
PrometheusNotificationQueueRunningFull	Prometheus的警報通知佇列已滿	10m
PrometheusNotIngestingSamples	資訊存儲opentsdb 異常	10m
PrometheusOperatorDown	PrometheusOperator 宕機	15m
PrometheusOperatorNodeLookupErrors	PrometheusOperator 節點錯誤	10m
PrometheusOperatorReconcileErrors	PrometheusOperator 有錯誤日誌	10m
PrometheusTargetScrapesDuplicate	由於時間戳記重複但值不同，拒絕了很多採集資料	10m
PrometheusTSDBCompactionsFailing	壓縮實例塊出現問題超過4個小時	12h
PrometheusTSDBReloadsFailing	磁片重新載入資料塊時出現問題超過4個小時	12h
PrometheusTSDBWALCorruptions	TSDB 的wal 預寫日誌已損壞	4h
TargetDown	整體labels.job量下降了10%?	10m

Header Background

萊恩的隨手筆記|Ryan's Notebook

Top Ad

【系統監控】Prometheus 普羅米修斯Alert Rule默認系統監控與中文說明

沒有留言:

張貼留言

關於作者

SEARCH

Translate

LATEST

FOLLOW US

精選文章

【名人介紹】最狂演說家：加里·維納查克Gary Vaynerchuk(GaryVee)你最好的人生導師與創業Role Model

Label

Popular Posts

總網頁瀏覽量

Popular

Categories

Comments