【系統監控】Prometheus 普羅米修斯Alert Rule默認系統監控與中文說明


【系統監控】Prometheus 普羅米修斯Alert Rule默認系統監控與中文說明

Prometheus 簡介
Prometheus 是一套開源的系統監控報警框架。它啟發於 Google borgmon 監控系統,由工作在 SoundCloud google 前員工在 2012 年創建,作為社區開源專案進行開發,並於 2015 年正式發佈。2016 年,Prometheus 正式加入 Cloud Native Computing Foundation,成為受歡迎度僅次於 Kubernetes 的項目。





Prometheus 默認系統監控與中文說明 
告警鍵值
中文說明
故障持續時間
AlertmanagerConfigInconsistent
AlertManager群集xxxx的實例配置不同步。
5m
AlertmanagerDown
AlertManager已從普羅米修士目標發現中消失。
15m
AlertmanagerFailedReload
重新載入AlertManager的配置失敗
10m
AlertmanagerMembersInconsistent
AlertManager未找到群集的所有其他成員。
5m
CPUThrottlingHigh
cpu節流高,使用低CPU限制,就算高峰期,整個集群還是有很多空閒資源
15m
etcdGRPCRequestsSlow
ETCD GRPC請求緩慢
10m
etcdHighCommitDurations
ETCD提交時間過長
10m
etcdHighFsyncDurations
ETCD同步時間過長
10m
etcdHighNumberOfFailedGRPCRequests
ETCD失敗的GRPC請求數太多
10m
etcdHighNumberOfFailedHTTPRequests
ETCD失敗的HTTP請求數太多
10m
etcdHighNumberOfFailedProposals
ETCD失敗的計畫數量很多
15m
etcdHighNumberOfLeaderChanges
ETCD Leader 變更次數多
15m
etcdHTTPRequestsSlow
ETCD HTTP請求速度慢
10m
etcdInsufficientMembers
ETCD成員不足
3m
etcdMemberCommunicationSlow
ETCD成員通信緩慢
10m
etcdNoLeader
ETCD沒有Leader
1m
KubeAPIDown
KubeAPI 宕掉或不存在
15m
KubeAPIErrorsHigh
API伺服器正在為請求的 值 返回錯誤。
10m
KubeAPILatencyHigh
API伺服器每秒鐘延遲超過99%
10m
KubeClientCertificateExpiration
用於向APIServer進行身份驗證的用戶端證書將在7天內過期。
5m
KubeClientErrors
連接用戶端API 錯誤
15m
KubeControllerManagerDown
KubeControllerManager 宕掉
15m
KubeCPUOvercommit
該集群cpu超出資源限額
5m
KubeCronJobRunning
CronJob 運行超過1小時
1h
KubeDaemonSetMisScheduled
DaemonSet調度錯誤,沒有跑到正確的機器上
10m
KubeDaemonSetNotScheduled
DaemonSet 位元設置運行在哪,也就是分配錯誤
10m
KubeDaemonSetRolloutStuck
DaemonSet 啟動或滾動時卡住?
15m
KubeDeploymentGenerationMismatch
Deployment 生成部署不匹配,部署失敗
15m
KubeDeploymentReplicasMismatch
Deployment 與預期的副本數不匹配的時間已超過一小時。
1h
KubeJobCompletion
Job 超過一小時才完成
1h
KubeJobFailed
Job 失敗
1h
KubeletDown
Kubelet宕掉了
15m
KubeletTooManyPods
pods數量太多,超過極限的110%
15m
KubeMemOvercommit
集群記憶體資源使用過度,無法再容忍故障節點漂移
5m
KubeNodeNotReady
node故障超過1小時
1h
KubePersistentVolumeErrors
持久卷Volume 異常
5m
KubePersistentVolumeFullInFourDays
根據最近的採樣,某Volume 講在4天內填滿
5m
KubePersistentVolumeUsageCritical
該持久卷使用權限不足,只能在xxx空間內使用
1m
KubePodCrashLooping
pod CrashLoopBackOff 狀態重啟超過5分鐘
1h
KubePodNotReady
pod處於未就緒狀態超過一小時。
1h
KubeQuotaExceeded
Kube 使用超出配額
15m
KubeSchedulerDown
KubeScheduler 宕掉
15m
KubeStatefulSetGenerationMismatch
StatefulSet 錯誤,但尚未回滾
15m
KubeStatefulSetReplicasMismatch
statefulset 複本集不匹配,超過15分鐘
15m
KubeStatefulSetUpdateNotRolledOut
statefulset 更新尚未結束(更新超時)
15m
KubeStateMetricsDown
KubeStateMetrics 宕掉
15m
KubeVersionMismatch
kube版本不匹配
1h
NodeDiskRunningFull
node磁碟空間超過85%
10m
NodeExporterDown
NodeExporter 宕機
15m
PrometheusConfigReloadFailed
Prometheus重載配置失敗
10m
PrometheusDown
Prometheus 宕機
15m
PrometheusErrorSendingAlerts
Prometheus AlertManager 發送警報時出錯
10m
PrometheusNotConnectedToAlertmanagers
Prometheus 不能連接AlertManager
10m
PrometheusNotificationQueueRunningFull
Prometheus的警報通知佇列已滿
10m
PrometheusNotIngestingSamples
資訊存儲opentsdb 異常
10m
PrometheusOperatorDown
PrometheusOperator 宕機
15m
PrometheusOperatorNodeLookupErrors
PrometheusOperator 節點錯誤
10m
PrometheusOperatorReconcileErrors
PrometheusOperator 有錯誤日誌
10m
PrometheusTargetScrapesDuplicate
由於時間戳記重複但值不同,拒絕了很多採集資料
10m
PrometheusTSDBCompactionsFailing
壓縮實例塊出現問題超過4個小時
12h
PrometheusTSDBReloadsFailing
磁片重新載入資料塊時出現問題超過4個小時
12h
PrometheusTSDBWALCorruptions
TSDB wal 預寫日誌已損壞
4h
TargetDown
整體labels.job量下降了10%?
10m


沒有留言:

張貼留言