国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

伸縮Kubernetes到2500個節(jié)點中遇到的問題和解決方法

JaysonWang / 1913人閱讀

摘要:自從起便號稱可以承載個以上的節(jié)點,但是從數(shù)十到的路上,難免會遇到問題。本片文章即分享在之路上的經(jīng)驗,包括遇到的問題嘗試解決問題以及找到真正的問題。

Kubernetes自從1.6起便號稱可以承載5000個以上的節(jié)點,但是從數(shù)十到5000的路上,難免會遇到問題。

本片文章即分享Open API在kubernetes 5000之路上的經(jīng)驗,包括遇到的問題、嘗試解決問題以及找到真正的問題。

遇到的問題以及如何解決 問題一:1 ~ 500個節(jié)點之后

問題:

kubectl 有時會出現(xiàn) timeout(p.s. kubectl -v=6 可以顯示所有API細(xì)節(jié)指令)

嘗試解決:

一開始以為是kube-apiserver服務(wù)器負(fù)載的問題,嘗試增加proxy做replica協(xié)助進(jìn)行負(fù)載均衡

但是超過10個備份master的時候,發(fā)現(xiàn)問題不是因為kube-apiserver無法承受負(fù)載,GKE通過一臺32-core VM就可以承載500個節(jié)點

原因:

排除以上原因,開始排查master上剩下的幾個服務(wù)(etcd、kube-proxy)

開始嘗試調(diào)整etcd

通過使用datadog查看etcd吞吐量,發(fā)現(xiàn)有異常延遲(latency spiking ~100 ms)

通過Fio工具做性能評估,發(fā)現(xiàn)只用到10%的IOPS(Input/Output Per Second),由于寫入延遲(write latency 2ms)降低了性能

嘗試把SSD從網(wǎng)絡(luò)硬盤變?yōu)槊颗_機(jī)器有個local temp drive(SSD)

結(jié)果從~100ms —> 200us

問題二:~1000個節(jié)點的時候

問題:

發(fā)現(xiàn)kube-apiserver每秒從etcd上讀取500mb

嘗試解決:

通過Prometheus查看container之間的網(wǎng)絡(luò)流量

原因:

發(fā)現(xiàn)Fluentd和Datadog抓取每個節(jié)點上資料過于頻繁

調(diào)低兩個服務(wù)的抓取頻率,網(wǎng)絡(luò)性能從500mb/s降低到幾乎沒有

etcd小技巧:通過--etcd-servers-overrides可以將Kubernetes Event的資料寫入作為切割,分不同機(jī)器處理,如下所示

--etcd-servers-overrides=/events#https://0.example.com:2381;https://1.example.com:2381;https://2.example.com:2381
問題三:1000 ~ 2000個節(jié)點

問題:

無法再寫入數(shù)據(jù),報錯cascading failure

kubernetes-ec2-autoscaler在全部的etcd都停掉以后才回傳問題,并且關(guān)閉所有的etcd

嘗試解決:

猜測是etcd硬盤滿了,但是檢查SSD依舊有很多空間

檢查是否有預(yù)設(shè)的空間限制,發(fā)現(xiàn)有2GB大小限制

解決方法:

在etcd啟動參數(shù)中加入--quota-backend-bytes

修改kubernetes-ec2-autoscaler邏輯——如果超過50%出現(xiàn)問題,關(guān)閉集群

各種服務(wù)的優(yōu)化 Kube masters 的高可用

一般來說,我們的架構(gòu)是一個kube-master(主要的 Kubernetes 服務(wù)提供組件,上面有kube-apiserver、kube-scheduler 和kube-control-manager)加上多個slave。但是要達(dá)到高可用,要參考一下方式實現(xiàn):

kube-apiserver要設(shè)置多個服務(wù),并且通過參數(shù)--apiserver-count重啟并且設(shè)定

kubernetes-ec2-autoscaler可以幫助我們自動關(guān)閉idle的資源,但是這跟Kubernetes scheduler的原則相悖,不過通過這些設(shè)定,可以幫助我們盡量集中資源。

{
"kind" : "Policy",
"apiVersion" : "v1",
"predicates" : [
  {"name" : "GeneralPredicates"},
  {"name" : "MatchInterPodAffinity"},
  {"name" : "NoDiskConflict"},
  {"name" : "NoVolumeZoneConflict"},
  {"name" : "PodToleratesNodeTaints"}
  ],
"priorities" : [
  {"name" : "MostRequestedPriority", "weight" : 1},
  {"name" : "InterPodAffinityPriority", "weight" : 2}
  ]
}

以上為調(diào)整kubernetes scheduler范例,通過調(diào)高InterPodAffinityPriority的權(quán)重,達(dá)到我們的目的。更多示范參考范例.

需要注意的是,目前Kubernetes Scheduler Policy并不支持動態(tài)切換,需要重啟kube-apiserver(issue: 41600)

調(diào)整scheduler policy造成的影響

OpenAI使用了KubeDNS ,但不久后發(fā)現(xiàn)——

問題:

經(jīng)常出現(xiàn)DNS查詢不到的情況(隨機(jī)發(fā)生)

超過 ~200QPS domain lookup

嘗試解決:

嘗試查看為何有這種狀態(tài),發(fā)現(xiàn)有些node上跑了超過10個KuberDNS

解決方法:

由于scheduler policy造成了許多POD的集中

KubeDNS很輕量,容易被分配到同一節(jié)點上,造成domain lookup的集中

需要修改POD affinity(相關(guān)介紹),盡量讓KubeDNS分配到不同的node之上

affinity:
 podAntiAffinity:
   requiredDuringSchedulingIgnoredDuringExecution:
   - weight: 100
     labelSelector:
       matchExpressions:
       - key: k8s-app
         operator: In
         values:
         - kube-dns
     topologyKey: kubernetes.io/hostname
新建節(jié)點時Docker image pulls緩慢的問題

問題:

每次新節(jié)點建立起來,docker image pull都要花30分鐘

嘗試解決:

有一個很大的container image Dota,差不多17GB,影響了整個節(jié)點的image pulling

開始檢查kubelet是否有其他image pull選項

解決方法:

在kubelet增加選項--serialize-image-pulls=false來啟動image pulling,讓其他服務(wù)可以更早地pull(參考:kubelet啟動選項)

這個選項需要docker storgae切換到overlay2(可以參考docker教學(xué)文章)

并且把docker image存放到SSD,可以讓image pull更快一些

補(bǔ)充:source trace

// serializeImagePulls when enabled, tells the Kubelet to pull images one
// at a time. We recommend *not* changing the default value on nodes that
// run docker daemon with version  < 1.9 or an Aufs storage backend.
// Issue #10959 has more details.
SerializeImagePulls *bool `json:"serializeImagePulls"`
提高docker image pull的速度

此外,還可以通過以下方式來提高pull的速度

kubelet參數(shù)--image-pull-progress-deadline要提高到30mins
docker daemon參數(shù)max-concurrent-download調(diào)整到10才能多線程下載

網(wǎng)絡(luò)性能提升

Flannel性能限制

OpenAI節(jié)點間的網(wǎng)絡(luò)流量,可以達(dá)到10-15GBit/s,但是由于Flannel所以導(dǎo)致流量會降到 ~2GBit/s

解決方式是拿掉Flannel,使用實際的網(wǎng)絡(luò)

hostNetwork: true

dnsPolicy: ClusterFirstWithHostNet

這里還有一些注意事項需要詳細(xì)閱讀


想要簡單易用、生產(chǎn)就緒的Kubernetes?試試好雨Rainbond——以應(yīng)用的方式包裝Kubernetes,理解和使用更簡單,各種管理流程開箱即用!

好雨Rainbond(云幫)是一款以應(yīng)用為中心的開源PaaS,深度整合基于Kubernetes的容器管理、Service Mesh微服務(wù)架構(gòu)最佳實踐、多類型CI/CD應(yīng)用構(gòu)建與交付、多數(shù)據(jù)中心資源管理等技術(shù),為用戶提供云原生應(yīng)用全生命周期解決方案,構(gòu)建應(yīng)用與基礎(chǔ)設(shè)施、應(yīng)用與應(yīng)用、基礎(chǔ)設(shè)施與基礎(chǔ)設(shè)施之間互聯(lián)互通的生態(tài)體系,滿足支撐業(yè)務(wù)高速發(fā)展所需的敏捷開發(fā)、高效運(yùn)維和精益管理需求。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/32659.html

相關(guān)文章

  • LC3視角:Kubernetes下日志采集、存儲與處理技術(shù)實踐

    摘要:下需要為每個單獨進(jìn)行采集配置采集日志目錄,采集規(guī)則,存儲目標(biāo)等,不易維護(hù)。日志服務(wù)的日志架構(gòu)實踐我們提出基于阿里云日志服務(wù)的日志處理架構(gòu),用以補(bǔ)充社區(qū)的方案,來嘗試解決場景下日志處理的一些細(xì)節(jié)體驗問題。 摘要: 在Kubernetes服務(wù)化、日志處理實時化以及日志集中式存儲趨勢下,Kubernetes日志處理上也遇到的新挑戰(zhàn),包括:容器動態(tài)采集、大流量性能瓶頸、日志路由管理等問題。本文...

    Guakin_Huang 評論0 收藏0
  • Kubernetes Autoscaling是如何工作

    摘要:是如何工作的這是最近我們經(jīng)常被問到的一個問題。是一個控制循環(huán),用于監(jiān)視和縮放部署中的。最早版本僅支持作為可監(jiān)控的度量標(biāo)準(zhǔn)。是版本以上的首選方法。 Kubernetes Autoscaling是如何工作的?這是最近我們經(jīng)常被問到的一個問題。 所以本文將從Kubernetes Autoscaling功能的工作原理以及縮放集群時可以提供的優(yōu)勢等方面進(jìn)行解釋。 什么是Autoscaling 想...

    zhunjiee 評論0 收藏0
  • 關(guān)于容器,你不能不看這篇

    摘要:其次,青云的負(fù)載均衡器能感知到容器網(wǎng)絡(luò),而傳統(tǒng)的方案在內(nèi)部還需要再做一層虛擬網(wǎng)絡(luò),層的負(fù)載均衡器無法感知容器網(wǎng)絡(luò)。 前言 容器技術(shù)目前的市場現(xiàn)狀是一家獨大、百花齊放。 關(guān)于容器技術(shù),看看青云QingCloud 王淵命(老王)是如何看待它的,本文來自他在青云QingCloud 深圳站實踐課堂的演講。全文 2780字,閱讀時長約為 11 分鐘。 容器是什么 容器的概念外延比較廣,討論的時候...

    zzzmh 評論0 收藏0
  • Kubernetes容器編排三大支柱

    摘要:在這種情況下,以防干擾其他集群租戶,調(diào)度器可能會考慮將作為驅(qū)逐的候選對象。其結(jié)果是負(fù)載均衡和調(diào)度之間交互作用。 每當(dāng)談及Kubernetes,我們經(jīng)常聽到諸如資源管理、調(diào)度和負(fù)載均衡等術(shù)語。雖然Kubernetes提供了許多功能,但更關(guān)鍵的還是要了解這些概念,只有這樣才能更好地理解如何放置、管理并恢復(fù)工作負(fù)載。在這篇文章中,我提供了每個功能的概述,并解釋了它們是如何在Kubernete...

    劉厚水 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<