摘要:節(jié)點作為承載工作負載的實體,是一個非常重要的對象,在實際運營過程中,節(jié)點會出現(xiàn)各種問題,本文簡要描述下節(jié)點的各種異常狀態(tài)及排查思路。預(yù)防節(jié)點該文檔為預(yù)防節(jié)點的開源方案,不提供,僅做參考,請謹慎使用。
節(jié)點作為承載工作負載的實體,是 Kubernetes 一個非常重要的對象,在實際運營過程中,節(jié)點會出現(xiàn)各種問題,本文簡要描述下節(jié)點的各種異常狀態(tài)及排查思路。
節(jié)點情況 | 說明 | 處理辦法 |
---|---|---|
Ready | True 表示節(jié)點是健康的,F(xiàn)alse 表示節(jié)點不健康,Unkown 表示節(jié)點失聯(lián) | |
DiskPressure | True 表示節(jié)點磁盤容量緊張,F(xiàn)alse 反之 | |
MemoryPressure | True 表示節(jié)點內(nèi)存使用率過高,F(xiàn)alse 反之 | |
PIDPressure | True 表示節(jié)點有太多進程在運行,F(xiàn)alse 反之 | |
NetworkUnavailable | True 表示節(jié)點網(wǎng)絡(luò)配置不正常,F(xiàn)alse 反之 |
kubectl get nodes
kubectl describe node ${NODE_NAME}
在上述兩個命令看不出端倪的時候,還可以借助Linux的相關(guān)命令來輔助判斷,這個時候我們就需要登錄節(jié)點,通過linux相關(guān)命令來檢查節(jié)點狀態(tài)。
3.1 網(wǎng)絡(luò)檢查: 我們可以從集群的Master節(jié)點,使用 Ping 命令去檢查該節(jié)點的網(wǎng)絡(luò)是否可達;
3.2 健康檢查: 登錄UCloud控制臺,從云主機頁面查看該節(jié)點是否處于Running狀態(tài),包括查看CPU、內(nèi)存使用率,確認節(jié)點是否處于高負載;
system status kube-proxy
system status kubelet
journalctl -u kubelet
journalctl -u kube-proxy
通過上述命令來查看節(jié)點中的兩個核心組件,kube-proxy 和 kubelet 的狀態(tài)是否正常,如果不正常,錯誤原因是什么。
該文檔為預(yù)防節(jié)點OOM的開源方案,不提供SLA,僅做參考,請謹慎使用。
在用戶態(tài)實時獲取available內(nèi)存,當小于閾值時開始依據(jù)策略發(fā)送sigterm與kill信號殺死進程
根據(jù)oom_score 分值來殺進程,如系統(tǒng)上有自行啟動的進程且oom_score_adj未設(shè)置為-1000,就有被殺死的可能。
備注: 該程序無法阻止瞬時內(nèi)存暴增引發(fā)的內(nèi)存宕機,依舊需要設(shè)置pod合理的資源requests與limits。
apiVersion: apps/v1
kind: DaemonSet
metadata:
labels:
app: oom-protector
name: oom-protector
namespace: kube-system
spec:
selector:
matchLabels:
app: oom-protector
template:
metadata:
labels:
app: oom-protector
spec:
hostPID: true
containers:
- image: uhub.service.ucloud.cn/uk8s/earlyoom:alpine
name: earlyoom
args:
- -p
- -M
- "307200204800"
- --avoid
- "docker|kubelet|containerd|sshd"
securityContext:
capabilities:
add:
- KILL
resources:
requests:
memory: "32Mi"
cpu: "50m"
limits:
memory: "64Mi"
cpu: "100m"
實時文檔歡迎訪問https://docs.ucloud.cn/uk8s/troubleshooting/node_debug_summary
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/126289.html
摘要:鏡像庫常見問題如何在中鏡像的和兩個版本,目前節(jié)點沒有安裝服務(wù),不支持在節(jié)點鏡像。如果需要讓容器時間與宿主機時間一致,可以使用的方式將宿主機上的時區(qū)文件掛載到容器中。一個可以掛載到多個嗎不支持多點讀寫,如需要多點讀寫請使用。鏡像庫常見問題如何在UK8S中Build鏡像?UK8S的1.12.7和1.13.5兩個版本,目前Master節(jié)點沒有安裝Docker服務(wù),不支持在Master節(jié)點Build...
摘要:對于節(jié)點已經(jīng)登陸不了的情況,如果希望快速恢復(fù)可以在控制臺找到對應(yīng)主機斷電重啟。與綁定完成,插件完成后續(xù)的掛載和等工作。UK8S 人工支持對于使用 UK8S 遇到的本文檔未涉及的問題,如果需要人工支持,請?zhí)砑酉旅婀€信任,并提供主機的 uhost-idssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQDGIFVUtrp+jAnIu1fBvyLx/4L4GNsX+6v8...
摘要:存儲插件問題插件導致刪除失敗現(xiàn)象描述使用插件自動創(chuàng)建綁定到,刪除時,有可能導致處于狀態(tài),不能正常刪除。版本插件版本問題原因重啟后找不到對應(yīng)的插件。日志中會報的錯誤,進而導致卡在的狀態(tài)。存儲插件問題Flexv插件導致pod刪除失敗現(xiàn)象描述使用flexv插件自動創(chuàng)建pv綁定到pod,刪除pod時,有可能導致pod 處于Terminating狀態(tài),不能正常刪除。kubernetes版本: 1.13...
摘要:對于存儲資源,的節(jié)點默認系統(tǒng)盤。節(jié)點創(chuàng)建時可選擇數(shù)據(jù)盤掛載亦可在節(jié)點創(chuàng)建完成后在主機側(cè)掛載,如節(jié)點掛載有數(shù)據(jù)盤,將用于存放本地鏡像的,否則本地鏡像等將保存在系統(tǒng)盤。 集群節(jié)點配置推薦本篇目錄1. Master 配置推薦2. 如何選擇 Node 配置大小1. Master 配置推薦Master 規(guī)格跟集群規(guī)模有關(guān),集群規(guī)模越大,所需要的 Master 規(guī)格也越高,不同集群規(guī)模的,Master ...
摘要:集群誤刪處理前置操作負載均衡分內(nèi)網(wǎng)和外網(wǎng)兩種,在誤刪情況下,首先需要重建,并且保證原地址不變。集群誤刪創(chuàng)建時類型需要與的類型相匹配,服務(wù)類型為時指定報文轉(zhuǎn)發(fā),為時指定請求代理類型刪除集群內(nèi)原根據(jù)文檔重新綁定和使用已有創(chuàng)建服務(wù)。集群 ULB 誤刪處理前置操作負載均衡(ULB)分內(nèi)網(wǎng)和外網(wǎng)兩種,在誤刪情況下,首先需要重建 ULB,并且保證原 ULB IP 地址不變。對于內(nèi)網(wǎng) ULB,需要聯(lián)系技術(shù)...
閱讀 3532·2023-04-25 20:09
閱讀 3736·2022-06-28 19:00
閱讀 3056·2022-06-28 19:00
閱讀 3075·2022-06-28 19:00
閱讀 3168·2022-06-28 19:00
閱讀 2874·2022-06-28 19:00
閱讀 3038·2022-06-28 19:00
閱讀 2632·2022-06-28 19:00