国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

數據庫故障營業系統重啟恢復操作

IT那活兒 / 778人閱讀
數據庫故障營業系統重啟恢復操作
點擊上方“IT那活兒”公眾號,關注后了解更多內容,不管IT什么活兒,干就完了!!!

  

當數據庫出現故障時,營業系統需要配合進行切換及重啟恢復操作。而手動停止、啟動、重啟業務應用容器、進程等操作比較繁瑣效率低,原來需要多人同時花費大量時間完成的事情使用該場景功能現在只用一個人就能解決,把大量重復性工作并發執行減少工作量、人為誤操作等并提升整體工作效率。



哪個平臺可以將大量重復性工作并發執行減少工作量、人為誤操作等并提升整體工作效率??

那就必須給大家介紹一款產品:ZnAiops智慧運營管理平臺--基于統一的智能中臺構建,具備構建一體化、自動化、智能化運維管理能力。接下來就給大家具體展示一下它所具備的場景功能。







場景流程



通過這個調度可以實現單節點故障/恢復、數據庫全停庫割接兩個場景。

1. 單節點故障/恢復

場景描述:營業A庫,營業A1、A2連接同一個存儲,當A1出現故障掛掉后A1連接數會自動漂移至A2,A1手動恢復正常后A2中短連接并未流向A1,容器、進程還未重啟的情況下A2可能會因為連接數過高造成宕機等問題。
解決方案:使用該場景通過一鍵重啟云化系統、進程使A2保留長連接其中短連接流向A1,讓系統恢復正常。

2. 全停庫割接

場景描述:首先要把連割接數據庫的業務應用停掉,然后dba停止數據庫進行割接操作完成后啟動數據庫,啟動之前停掉的業務應用,重啟后臺進程。
解決方案:使用該場景能實現一鍵停止、啟動業務應用容器,根據需求一鍵重啟后臺進程,減少現場多位人員大量啟停重復性工作,使其單人就能完成。





操作步驟



場景一:單節點故障/恢復,分為四個步驟。

step1:選擇工作類型

選擇對應場景:執行調度,工作類型選擇單節點恢復,數據庫選擇涉及的數據庫。

step2:重啟云化系統

支持滾動重啟云化系統,選擇off將會不重啟容器進入下一節點,選擇on將會重啟容器腳本如下:
該腳本調用K8s api通過修改yaml配置中的annotations的變量值構建新的YAML信息替換原有的yaml來實現了滾動重啟namespace。

step3:重啟后臺進程

選擇是否重啟后臺進程。選擇off單節點故障/恢復流程結束,選擇on將會重啟進程,腳本如下:
該腳本使用了多線程 、paramiko直接對遠程服務器進行操作來實現從數據庫讀取需要重啟的后臺進程并重啟。
這里需要注意一點,如果上一步選擇執行滾動重啟云化系統的任務的話,需要等待云化系統重啟完成后才能重啟后臺進程,否則可能會導致部分后臺進程連接jcrm等容器失敗。

step4:檢查后臺進程重啟情況

登錄智慧運維管理平臺使用數據庫查詢服務,檢查進程重啟情況,SQL如下:
select t.restarting_status, count(*)
from shsnc.process_yy_fwkt t
group by t.restarting_status

場景二:全停庫割接,分為個六個步驟。

step1選擇工作類型

執行調度,工作類型選擇全停庫割接,數據庫選擇涉及的數據庫。

step2:停止容器

開始執行后會先自動根據選擇涉及的數據庫對云化系統對應的容器進行停止處理并等待操作,腳本參數如下:
該腳本調用K8s api通過修改副本數為0停止容器,實現了保存depoyment下容器數量并停止容器。

step3:dba割接操作

停止數據庫,需要dba配合停止數據庫,等待數據庫停止后選擇ON通過。
啟動數據庫,需要dba配合啟動數據庫進行割接,等待全部完成后選擇ON通過。

step4:啟動容器

啟動停止的容器,上一步通過以后會自動將之前停止的容器重新拉起,腳本如下:
該腳本調用K8s api通過修改副本數為停止前數值啟動容器,實現了保存depoyment下容器數量并啟動容器。

step5:重啟后臺進程

選擇是否重啟后臺進程。選擇off全停庫割接流程結束,選擇on將會重啟進程,腳本如下:
該腳本使用了多線程 、paramiko直接對遠程服務器進行操作來實現從數據庫讀取需要重啟的后臺進程并重啟。

step6檢查后臺進程重啟情況

登錄智慧運維管理平臺使用數據庫查詢服務,檢查進程重啟情況,SQL如下:
selectt.restarting_status, count(*)
fromshsnc.process_yy_fwkt t
group by t.restarting_status;


單節點故障/恢復操作展示

智慧運維管理平臺-操作中心-運維配置-調度-執行數據庫割接單節點恢復云化系統重啟選擇單節點恢復,開始執行后選擇滾動重啟云化系統,操作界面輸出日志等待程序執行完成后結束。

注意事項:單節點恢復的時候需要把部分容器剔除如行程碼,注意容器啟停順序等。

開發中的難點

  • k8s沒有滾動重啟的api,僅提供命令行。
  • 解決方案:直接修改pod的yaml的部署文件,apply滾動更新。





后續優化



目前整個場景流程中重啟容器、進程操作沒有檢查項是否重啟完成,檢查操作已在開發中。

因該場景較為特殊測試會影響到生產環境,尚未在生產環境中正式執行過,無法確定功能是否存在其他問題。

本文作者:易俊杰(上海新炬王翦團隊)

本文來源:“IT那活兒”公眾號

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/129346.html

相關文章

  • 云計算節點故障自動化運維服務設計

    此文已由作者王盼授權網易云社區發布。 歡迎訪問網易云社區,了解更多網易技術產品運營經驗~ 現狀計算節點發生磁盤損壞等數據無法恢復的異常時,節點上的云主機系統盤無法恢復,導致云主機只能被清理重建 計算節點宕機但磁盤數據可用時,重啟即可恢復所有云主機的運行 計算節點多次宕機(或一段時間內頻繁宕機),則需要遷移所有云主機或者直接清理重建,云硬盤需要遷移到其他cinder-volume存儲服務節點 一般來...

    seanHai 評論0 收藏0
  • 盤點:2014年十大云故障

    摘要:以下這個名單恐怕是這些公司不想看到的的年前大云故障。微軟稱這次中斷是由外部網絡故障所導致,部分用戶受影響長達個小時。微軟表示這次中斷與故障無關。微軟最終確定人為錯誤是罪魁禍首。 本杰明?富蘭克林曾經說過,這個世界上有兩件事情不可避免,死亡和納稅。但如果這位偉大的政治家和發明家活在我們的現代世界,也許服務器停機也會進入這個名單。不管底層技術再怎么好,也不管托管提供商再多么能干,云總是會發生故障...

    DesGemini 評論0 收藏0
  • AWS S3 掛掉原因:程序員輸錯字母,誤刪服務器,故障4小時!

    摘要:周四聲稱,輸錯命令導致了亞馬遜網絡服務出現持續數小時的故障事件。太平洋標準時上午,一名獲得授權的團隊成員使用事先編寫的,執行一條命令,該命令旨在為計費流程使用的其中一個子系統刪除少量服務器。 AWS解釋了其廣大US-EAST-1地理區域的S3存儲服務是如何受到中斷的,以及它在采取什么措施防止這種情況再次發生。?AWS周四聲稱,輸錯命令導致了亞馬遜網絡服務(AWS)出現持續數小時的故障事件。這...

    MarvinZhang 評論0 收藏0

發表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<