【系統監控】Prometheus 普羅米修斯Alert Rule默認系統監控與中文說明
Prometheus 簡介
Prometheus 是一套開源的系統監控報警框架。它啟發於 Google 的 borgmon 監控系統,由工作在 SoundCloud 的 google 前員工在 2012 年創建,作為社區開源專案進行開發,並於 2015 年正式發佈。2016 年,Prometheus
正式加入 Cloud Native Computing Foundation,成為受歡迎度僅次於 Kubernetes 的項目。
Prometheus 默認系統監控與中文說明
|
||
告警鍵值
|
中文說明
|
故障持續時間
|
AlertmanagerConfigInconsistent
|
AlertManager群集xxxx的實例配置不同步。
|
5m
|
AlertmanagerDown
|
AlertManager已從普羅米修士目標發現中消失。
|
15m
|
AlertmanagerFailedReload
|
重新載入AlertManager的配置失敗
|
10m
|
AlertmanagerMembersInconsistent
|
AlertManager未找到群集的所有其他成員。
|
5m
|
CPUThrottlingHigh
|
cpu節流高,使用低CPU限制,就算高峰期,整個集群還是有很多空閒資源
|
15m
|
etcdGRPCRequestsSlow
|
ETCD GRPC請求緩慢
|
10m
|
etcdHighCommitDurations
|
ETCD提交時間過長
|
10m
|
etcdHighFsyncDurations
|
ETCD同步時間過長
|
10m
|
etcdHighNumberOfFailedGRPCRequests
|
ETCD失敗的GRPC請求數太多
|
10m
|
etcdHighNumberOfFailedHTTPRequests
|
ETCD失敗的HTTP請求數太多
|
10m
|
etcdHighNumberOfFailedProposals
|
ETCD失敗的計畫數量很多
|
15m
|
etcdHighNumberOfLeaderChanges
|
ETCD Leader 變更次數多
|
15m
|
etcdHTTPRequestsSlow
|
ETCD HTTP請求速度慢
|
10m
|
etcdInsufficientMembers
|
ETCD成員不足
|
3m
|
etcdMemberCommunicationSlow
|
ETCD成員通信緩慢
|
10m
|
etcdNoLeader
|
ETCD沒有Leader
|
1m
|
KubeAPIDown
|
KubeAPI 宕掉或不存在
|
15m
|
KubeAPIErrorsHigh
|
API伺服器正在為請求的 值 返回錯誤。
|
10m
|
KubeAPILatencyHigh
|
API伺服器每秒鐘延遲超過99%
|
10m
|
KubeClientCertificateExpiration
|
用於向APIServer進行身份驗證的用戶端證書將在7天內過期。
|
5m
|
KubeClientErrors
|
連接用戶端API 錯誤
|
15m
|
KubeControllerManagerDown
|
KubeControllerManager 宕掉
|
15m
|
KubeCPUOvercommit
|
該集群cpu超出資源限額
|
5m
|
KubeCronJobRunning
|
CronJob 運行超過1小時
|
1h
|
KubeDaemonSetMisScheduled
|
DaemonSet調度錯誤,沒有跑到正確的機器上
|
10m
|
KubeDaemonSetNotScheduled
|
DaemonSet 位元設置運行在哪,也就是分配錯誤
|
10m
|
KubeDaemonSetRolloutStuck
|
DaemonSet 啟動或滾動時卡住?
|
15m
|
KubeDeploymentGenerationMismatch
|
Deployment 生成部署不匹配,部署失敗
|
15m
|
KubeDeploymentReplicasMismatch
|
Deployment 與預期的副本數不匹配的時間已超過一小時。
|
1h
|
KubeJobCompletion
|
Job 超過一小時才完成
|
1h
|
KubeJobFailed
|
Job 失敗
|
1h
|
KubeletDown
|
Kubelet宕掉了
|
15m
|
KubeletTooManyPods
|
pods數量太多,超過極限的110%
|
15m
|
KubeMemOvercommit
|
集群記憶體資源使用過度,無法再容忍故障節點漂移
|
5m
|
KubeNodeNotReady
|
node故障超過1小時
|
1h
|
KubePersistentVolumeErrors
|
持久卷Volume 異常
|
5m
|
KubePersistentVolumeFullInFourDays
|
根據最近的採樣,某Volume 講在4天內填滿
|
5m
|
KubePersistentVolumeUsageCritical
|
該持久卷使用權限不足,只能在xxx空間內使用
|
1m
|
KubePodCrashLooping
|
該pod CrashLoopBackOff 狀態重啟超過5分鐘
|
1h
|
KubePodNotReady
|
pod處於未就緒狀態超過一小時。
|
1h
|
KubeQuotaExceeded
|
Kube 使用超出配額
|
15m
|
KubeSchedulerDown
|
KubeScheduler 宕掉
|
15m
|
KubeStatefulSetGenerationMismatch
|
StatefulSet 錯誤,但尚未回滾
|
15m
|
KubeStatefulSetReplicasMismatch
|
statefulset 複本集不匹配,超過15分鐘
|
15m
|
KubeStatefulSetUpdateNotRolledOut
|
statefulset 更新尚未結束(更新超時)
|
15m
|
KubeStateMetricsDown
|
KubeStateMetrics 宕掉
|
15m
|
KubeVersionMismatch
|
kube版本不匹配
|
1h
|
NodeDiskRunningFull
|
node磁碟空間超過85%
|
10m
|
NodeExporterDown
|
NodeExporter 宕機
|
15m
|
PrometheusConfigReloadFailed
|
Prometheus重載配置失敗
|
10m
|
PrometheusDown
|
Prometheus 宕機
|
15m
|
PrometheusErrorSendingAlerts
|
從Prometheus 向AlertManager 發送警報時出錯
|
10m
|
PrometheusNotConnectedToAlertmanagers
|
Prometheus 不能連接AlertManager
|
10m
|
PrometheusNotificationQueueRunningFull
|
Prometheus的警報通知佇列已滿
|
10m
|
PrometheusNotIngestingSamples
|
資訊存儲opentsdb 異常
|
10m
|
PrometheusOperatorDown
|
PrometheusOperator 宕機
|
15m
|
PrometheusOperatorNodeLookupErrors
|
PrometheusOperator 節點錯誤
|
10m
|
PrometheusOperatorReconcileErrors
|
PrometheusOperator 有錯誤日誌
|
10m
|
PrometheusTargetScrapesDuplicate
|
由於時間戳記重複但值不同,拒絕了很多採集資料
|
10m
|
PrometheusTSDBCompactionsFailing
|
壓縮實例塊出現問題超過4個小時
|
12h
|
PrometheusTSDBReloadsFailing
|
磁片重新載入資料塊時出現問題超過4個小時
|
12h
|
PrometheusTSDBWALCorruptions
|
TSDB 的wal 預寫日誌已損壞
|
4h
|
TargetDown
|
整體labels.job量下降了10%?
|
10m
|
沒有留言:
張貼留言