通過分析故障時間點數據庫ASH、AWR報告、OSW日志信息:
1、 故障期間主機CPU資源高消耗、RUN隊列持續增高
2、 故障時間段數據庫狀態分析
故障時間段數據庫語句執行情況:
故障時間段數據庫TopSQL信息:
TopSQL語句信息:
略
異常時間段fyh80hwbv7gna、5vsxm0s8ps2j6語句高并發情況:
同比8月29日TopSQL語句執行次數突增近10倍:
總結:本次故障原因為“fyh80hwbv7gna”、“5vsxm0s8ps2j6”語句異常高并發調用、導致數據庫主機CPU資源高消耗,數據庫服務響應時間延長。
解決方案:
本次解決方案分為兩個方面:
1. 針對異常SQL語句進行執行性能優化;
優化分析:
異常期間fyh80hwbv7gna語句執行2300次,平時10次 "分析和優化:分頁查詢總條數,1.SE_XX系列表統計信息不對 se_pretask_info查詢條件like全通配導致執行計劃基數估算不準(實際小于10條,實際返回5000次,應該走NESTED LOOPS的走了HASH JOIN)。
優化建議:
收集SE_XX系列表統計信息并使用SQL PROFILE綁定,邏輯讀436w 執行時間16s,高頻運行會導致CPU使用滿 ,同時存在大量分頁語句匯總,未使用綁定變量。
優化效果:
fyh80hwbv7gna語句邏輯讀:436w--->5800 執行時間:16s-->0.3s 效率提升50倍以上。
gyk0u596xt7c7語句邏輯讀:363w——>25000,執行時間:11s—》1.6s,效率提升6倍以上。
2. 核查應用運行情況,確認異常調用根本原因。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/130242.html
摘要:當奧巴馬贏得美國總統大選時,頁面活躍度刷新了記錄。對于每一個成因,都應制定相應的預防措施,以減輕大規模事故。這種故障會通過許多層面進入系統服務中,導致系統故障的發生。 作者介紹:Ben Maurer是Facebook的網絡基礎團隊的技術領先者,主要負責整個Facebook面向用戶產品的性能和可靠性。Ben于2010年正式加入Facebook,基礎設施團隊的成員。在加入Facebook之...
摘要:儀表板是一個附加組件,它能提供集群上運行的資源的概述信息。可以很容易地創建圖形,并且把它們合并稱儀表板,而這些儀表板由一個強大的身份驗證和授權層保護,它們還可以和其他儀表板進行共享而不需要訪問服務器本身。 介 紹 Kubernetes在Github上擁有超過4萬顆星,7萬以上的commits,以及像Google這樣的主要貢獻者。Kubernetes可以說已經快速地接管了容器生態系統,成...
摘要:谷歌在萬臺機器的區間內,他們中位數集群尺寸大約在萬臺機器,也有一些更大的。谷歌稱,一個單獨的其專有的分配集群的首腦在一個谷歌對于集群的術語內能管理成千上萬臺機器。 【文章簡介】本文討論了單個容器所無法解決的問題和局限性,并介紹了容器編排的必要性和復雜性及常用工具的比較,提到了諸如Kubernetes、Mesos等容器管理工具。 就像之前已被證實的那樣,要在一個機器上創建成千上萬個容器還...
摘要:資源包括什么內存磁盤網絡文件描述符外部緩存數據庫等,編程語言是如何管理資源的合理的算法架構保證了資源的合理使用,分配內存使用網絡等等。 在云計算時代,開發和運維的結合變得越來越重要。在DIFF論壇第一期,前新浪SAE運維主管,鄭志勇,分享了《一個開發眼中的運維》根據自己從開發人員轉型運維之后的心得,談如何把在開發上的運用抽象思維方式運用到運維領域。 showImg(http://se...
摘要:且過多的從服務器,當業務量大時對主服務器的網卡也是一定的挑戰。我們可以通過對集群的監控信息來了解是什么影響了數據庫性能。 關于數據庫性能的故事 面試時多多少少會講到數據庫上的事情,你對數據庫的掌握如何?,什么時候最考驗數據庫的性能,答應主要方面上講就是大數據量的讀寫時,而電商類的大促活動就是考驗各自的數據庫性能的時候啦。 對于web服務器而言,數據量大時,我們可以簡單的通過橫向擴展來減...
閱讀 1353·2023-01-11 13:20
閱讀 1699·2023-01-11 13:20
閱讀 1211·2023-01-11 13:20
閱讀 1902·2023-01-11 13:20
閱讀 4161·2023-01-11 13:20
閱讀 2748·2023-01-11 13:20
閱讀 1397·2023-01-11 13:20
閱讀 3664·2023-01-11 13:20