下面的分享是筆者在2月份處理的一起性能故障,筆者將分析過程分享出來,給大家起到拋磚引玉的作用。
接到XXX項(xiàng)目組報障:XX系統(tǒng)Connecttodatabasetimeout,請求協(xié)助檢查數(shù)據(jù)庫是否有異常。通過DPM檢查數(shù)據(jù)庫狀態(tài)(現(xiàn)場所有交維,為交維的數(shù)據(jù)庫都納入了DPM),發(fā)現(xiàn)大量cursor: pin S wait on X(數(shù)據(jù)庫還未交維平臺側(cè),純友情協(xié)助);
使用DPM下鉆功能,找到阻塞sql;
通過查看DPM概覽發(fā)現(xiàn)確實(shí)存在大量等待事件告警信息:
與業(yè)務(wù)側(cè)緊急溝通核實(shí),確定已造成業(yè)務(wù)積壓,考慮到服務(wù)連續(xù)性,本著先搶通再核查根因的原則,經(jīng)過應(yīng)用側(cè)同意,對堵塞會話予以查殺,以保證業(yè)務(wù)的連續(xù)性。堵塞會話查殺后,數(shù)據(jù)庫恢復(fù),業(yè)務(wù)恢復(fù)正常。
故障第一次分析:
采用故障時間段相關(guān)現(xiàn)場信息排除法進(jìn)行相關(guān)分析。
version count 信息
Version count正常,非此次故障原因,可排除。
相關(guān)負(fù)載及硬解析物理讀等
硬解析在正常范圍內(nèi),非此次故障原因,可排除
DDL變動信息
相關(guān)對象最后DDL操作和此次故障時間不一致,可排除
shared pool 變動信息
Shared pool 存在抖動情況,內(nèi)存抖動是導(dǎo)致cursor: pin S wait on X等待事件發(fā)生原因之一;
會話信息
根據(jù)會話變動找出阻塞源以便排查原因;
session變動量
故障時段session并發(fā)連接數(shù)量明顯增加。
造成cursor: pin S wait on X幾種原因:
version count過高
硬解析過多
在問題時段有做DDL操作,導(dǎo)致異常阻塞
sql用的對象使用了DBLINK訪問,dblink不通
shared pool抖動造成
業(yè)務(wù)變更
相關(guān)bug
根據(jù)故障時間段的相關(guān)數(shù)據(jù)一一排除version count、硬解析、ddl、dblink等原因,查找相關(guān)sql執(zhí)行計劃并分析,查找相關(guān)類似bug文檔,排查相關(guān)原因分析,初步確定shared pool抖動為本次故障原因;
分析到這里時,客戶側(cè)也在催促結(jié)論,需要向上匯報。逐將上述分析過程整理發(fā)于客戶側(cè)。
未共享sql
根據(jù)查詢顯示未綁定變量sql在正常范圍內(nèi),非造成此次性能故障原因
sga變動
通過awr顯示sga存在內(nèi)存抖動
查詢源阻塞信息
為保障業(yè)務(wù)連續(xù)性,聯(lián)系業(yè)務(wù)側(cè)對堵塞會話予以核實(shí)及查殺。
業(yè)務(wù)恢復(fù)后繼續(xù)分析:
造成抖動的ddl信息
查詢相關(guān)官方文檔
收集相關(guān)信息
進(jìn)行故障時間段awr、ash、addm等報告的收集及shared pool變動信息查詢并進(jìn)行hang分析;
根據(jù)addm報告、shared pool變化信息結(jié)合DPM等待事件相關(guān)故障開始時間等信息的聯(lián)合診斷,確定shared pool過小是導(dǎo)致此次性能故障的原因,依據(jù)如下:
1、addm報告顯示(見下圖),shared pool latches 對此次故障的影響;
2、對比shared pool數(shù)據(jù)與DPM所記錄等待情況,發(fā)現(xiàn)在故障發(fā)生時,shared pool發(fā)生明顯抖動且與等待事件發(fā)生時間一致。
Shared pool 和故障等待開始時間對應(yīng)表格
等待事件開始時間 | Shared pool抖動時間 |
2020-02-21 22:09 | 2020-02-21 22:09 |
2020-02-22 08:54 | 2020-02-22 08:54 |
2020-02-22 10:26 | 2020-02-22 10:27 |
原因找到,馬上制定調(diào)整shared pool大小的解決方案,并緊急申請實(shí)施窗口。
實(shí)施方案如下:
參數(shù)修改后,數(shù)據(jù)庫恢復(fù)正常
09:00實(shí)時監(jiān)控未見異常;
12:00實(shí)時監(jiān)控未見異常;
17:00實(shí)時監(jiān)控未見異常;
21:50實(shí)時監(jiān)控未見異常;
至此該性能故障解決完成。通過該性能故障的處理過程,我們發(fā)現(xiàn)在運(yùn)維的過程如果現(xiàn)場有相關(guān)運(yùn)維工具平臺,對于日常工作及性能故障的處理都會起到事半功倍的效果。畢竟工欲善其事,必先利其器。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/130229.html
摘要:每秒實(shí)時處理超過萬項(xiàng)監(jiān)控指標(biāo),讓異常無所遁形。此外,對于復(fù)雜數(shù)據(jù)庫故障事后排查故障根源現(xiàn)場還原歷史事件追蹤也迫使我們建設(shè)一個覆蓋線上所有環(huán)境數(shù)據(jù)庫實(shí)例事件的監(jiān)控系統(tǒng),做到覆蓋阿里全球子公司所有機(jī)房。所有性能指標(biāo)做到秒級連續(xù)不間斷監(jiān)控。 摘要: 2017雙11再次創(chuàng)下了32.5萬筆/秒交易創(chuàng)建的紀(jì)錄,在這個數(shù)字后面,更是每秒多達(dá)幾千萬次的數(shù)據(jù)庫寫入,如何大規(guī)模進(jìn)行自動化操作、保證數(shù)據(jù)庫的...
摘要:摘要阿里云主要分為離線分析和在線分析兩種功能。演講嘉賓簡介勛臣,阿里云內(nèi)核團(tuán)隊(duì)技術(shù)專家,目前阿里云專家系統(tǒng)開發(fā)。通過診斷報告定位性能下降原因。 摘要:阿里云CloudDBA主要分為離線分析和在線分析兩種功能。幫助用戶節(jié)省成本,定位問題,分析原因并推薦解決方法。CloudDBA可以做到實(shí)時診斷,離線診斷和SQL優(yōu)化。并且通過MySQL的參數(shù)調(diào)優(yōu),檢測參數(shù)的不合理或者準(zhǔn)備的延遲的情況。 演...
摘要:張波目前主要負(fù)責(zé)虎牙直播運(yùn)維體系的建設(shè),針對和后臺類程序的發(fā)布監(jiān)控運(yùn)維自動化相關(guān)的運(yùn)維系統(tǒng)進(jìn)行設(shè)計和開發(fā)。 6 月 10 日,又拍云 Open Talk | 2018 音視頻技術(shù)沙龍·深圳站 順利落幕,來自虎牙的直播運(yùn)維研發(fā)架構(gòu)師張波在沙龍上做了《基于CDN推流日志的主播上行實(shí)時監(jiān)控及其自動化解密》的分享。虎牙直播是中國領(lǐng)先的互動直播平臺,作為游戲直播第一股,是音視頻技術(shù)的典型應(yīng)用企業(yè)...
閱讀 1353·2023-01-11 13:20
閱讀 1699·2023-01-11 13:20
閱讀 1211·2023-01-11 13:20
閱讀 1902·2023-01-11 13:20
閱讀 4161·2023-01-11 13:20
閱讀 2751·2023-01-11 13:20
閱讀 1397·2023-01-11 13:20
閱讀 3664·2023-01-11 13:20