久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

記一次靠譜的 K8S 排錯實戰過程,硬核!

一 背景

收到測試環境集群告警,登陸 K8s 集群進行排查。

二 故障定位

2.1 查看 Pod

查看 kube-system node2 節點 calico pod 異常。

記一次靠譜的 K8S 排錯實戰過程,硬核!

查看詳細信息,查看node2節點沒有存儲空間,cgroup泄露。

記一次靠譜的 K8S 排錯實戰過程,硬核!

2.2 查看存儲

登陸 node2 查看服務器存儲信息,目前空間還很充足。

記一次靠譜的 K8S 排錯實戰過程,硬核!

集群使用到的分布式存儲為ceph,因此查看ceph集群狀態。

記一次靠譜的 K8S 排錯實戰過程,硬核!

三 操作

3.1 ceph修復

目前查看到 ceph 集群異常,可能導致 node2 節點 cgroup 泄露異常,進行手動修復ceph集群。

數據的不一致性(inconsistent)指對象的大小不正確、恢復結束后某副本出現了對象丟失的情況。數據的不一致性會導致清理失敗(scrub error)。

CEPH 在存儲的過程中,由于特殊原因,可能遇到對象信息大小和物理磁盤上實際大小數據不一致的情況,這也會導致清理失敗。

記一次靠譜的 K8S 排錯實戰過程,硬核!

由圖可知,pg編號1.7c 存在問題,進行修復。

  • pg修復
ceph pg repair 1.7c

記一次靠譜的 K8S 排錯實戰過程,硬核!

進行修復后,稍等一會,再次進行查看,ceph 集群已經修復

記一次靠譜的 K8S 排錯實戰過程,硬核!

3.2 進行 Pod 修復

對異常pod進行刪除,由于有控制器,會重新拉起最新的 Pod。

記一次靠譜的 K8S 排錯實戰過程,硬核!

查看 Pod 還是和之前一樣,分析可能由于ceph異常,導致node2節點cgroup泄露,網上檢索重新編譯

Google 一番后發現存在的可能有:

  • Kubelet 宿主機的 Linux 內核過低 - Linux version 3.10.0-862.el7.x86_64
  • 可以通過禁用kmem解決

查看系統內核卻是低版本

記一次靠譜的 K8S 排錯實戰過程,硬核!

3.3 故障再次定位

最后,因為在啟動容器的時候 runc 的邏輯會默認打開容器的 kmem accounting,導致3.10內核可能的泄漏問題
在此需要對no space left的服務器進行?reboot重啟,即可解決問題,出現問題的可能為段時間內刪除大量的pod所致。
初步思路,可以在今后的集群管理匯總,對服務器進行維修,通過刪除節點,并對節點進行 reboot 處理。

3.4 對 node2 節點進行維護

3.4.1 標記 node2 為不可調度

kubectl cordon node02

記一次靠譜的 K8S 排錯實戰過程,硬核!

3.4.2 驅逐 node2 節點上的 Pod

kubectl drain node02 —delete-local-data —ignore-daemonsets —force
  • --delete-local-data ?刪除本地數據,即使emptyDir也將刪除;
  • --ignore-daemonsets ?忽略 DeamonSet,否則 DeamonSet 被刪除后,仍會自動重建;
  • --force ?不加 force 參數只會刪除該 node 節點上的 ReplicationController, ReplicaSet,DaemonSet,StatefulSet or Job,加上后所有 pod 都將刪除;

記一次靠譜的 K8S 排錯實戰過程,硬核!

目前查看基本 node2 的 pod 均已剔除完畢

記一次靠譜的 K8S 排錯實戰過程,硬核!

記一次靠譜的 K8S 排錯實戰過程,硬核!

此時與默認遷移不同的是,Pod 會先重建再終止,此時的服務中斷時間=重建時間+服務啟動時間+ readiness探針檢測正常時間,必須等到1/1 Running服務才會正常。因此在單副本時遷移時,服務終端是不可避免的。

3.4.3 對 node02 進行重啟

重啟后 node02 已經修復完成。

對 node02 進行恢復

  • 恢復 node02 可以正常調度
kubectl uncordon node02

記一次靠譜的 K8S 排錯實戰過程,硬核!

四 反思

后期可以對部署 K8s 集群內核進行升級。

集群內可能 Pod 的異常,由于底層存儲或者其他原因導致,需要具體定位到問題進行針對性修復。

原文鏈接:https://juejin.cn/post/6969571897659015205

相關新聞

歷經多年發展,已成為國內好評如潮的Linux云計算運維、SRE、Devops、網絡安全、云原生、Go、Python開發專業人才培訓機構!

    1. 主站蜘蛛池模板: 肥东县| 万载县| 彰化县| 苏尼特左旗| 青神县| 遂川县| 定边县| 三原县| 榆中县| 武冈市| 泉州市| 西宁市| 丰县| 册亨县| 宁都县| 靖州| 邓州市| 沅江市| 壤塘县| 高阳县| 长岭县| 洛宁县| 潜江市| 鹤山市| 武冈市| 香格里拉县| 滨海县| 光泽县| 建德市| 洪洞县| 牟定县| 淮南市| 兴和县| 阳新县| 霸州市| 保德县| 朝阳市| 惠安县| 化州市| 红桥区| 鄂温|