国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

ABRTD進(jìn)程引發(fā)ES血案的故事

IT那活兒 / 1640人閱讀
ABRTD進(jìn)程引發(fā)ES血案的故事
點(diǎn)擊上方“IT那活兒”公眾號(hào),關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了!??!

故障背景

某集團(tuán)割接,數(shù)據(jù)同步驗(yàn)證日志一致性時(shí),連接ES失敗,無(wú)法寫(xiě)入和讀取,es數(shù)據(jù)寫(xiě)入不了,影響最新日志入es,應(yīng)用割接大部分廠(chǎng)商需要查詢(xún)最新的日志,間接影響到了割接進(jìn)度,為了保障業(yè)務(wù)恢復(fù),秉承先搶通后搶修原則,在上級(jí)領(lǐng)導(dǎo)及業(yè)務(wù)廠(chǎng)商溝通下,立即啟用應(yīng)急處理措施,進(jìn)行切換至災(zāi)備ES,切換后索引讀寫(xiě)正常,通知廠(chǎng)商恢復(fù)業(yè)務(wù)。


故事發(fā)生過(guò)程

晚上吃完飯,和同事一起趕現(xiàn)場(chǎng)做好支撐準(zhǔn)備,我們說(shuō),今天割接非常順利,沒(méi)什么異常,早點(diǎn)回去休息,正要回去的時(shí)候, 突然有個(gè)業(yè)務(wù)系統(tǒng)說(shuō),查詢(xún)?nèi)罩井惓?,我們馬上查詢(xún)一下手機(jī)短信,未發(fā)現(xiàn)什么異常短信,是否是業(yè)務(wù)誤報(bào),不管了,以‘飛奔‘的速度跑回現(xiàn)場(chǎng),所有領(lǐng)導(dǎo)已在現(xiàn)場(chǎng),下面我們就展開(kāi)了一系列分析。
我們這套ES是6主機(jī)24節(jié)點(diǎn)的集群,專(zhuān)門(mén)提供業(yè)務(wù)日志寫(xiě)入,打開(kāi)kibana看所有集群節(jié)點(diǎn)也都正常,看狀態(tài)也是Green 。
但是集群寫(xiě)入失敗,肯定存在問(wèn)題,于是看看節(jié)點(diǎn)情況,結(jié)果節(jié)點(diǎn)的索引信息獲取失敗,ES集群命令已經(jīng)查不到ES集群節(jié)點(diǎn)信息及索引信息,此時(shí)需通過(guò)日志來(lái)分析為什么會(huì)如此。
分析ES集群日志,發(fā)現(xiàn)日志中最早的報(bào)錯(cuò)信息發(fā)生在5點(diǎn)33分39秒左右,報(bào)錯(cuò)信息為連接超時(shí)導(dǎo)致無(wú)法獲取集群和索引信息,并且其它節(jié)點(diǎn)也有超時(shí)現(xiàn)象。
存在ES節(jié)點(diǎn)超時(shí),就會(huì)觸發(fā)ES集群索引分片重新路由分配,分片移動(dòng)到其它節(jié)點(diǎn)導(dǎo)致磁盤(pán)占比上升,引發(fā)es集群自動(dòng)觸發(fā)提高磁盤(pán)水位,過(guò)高的IO和負(fù)載使整個(gè)集群Hang住,
此時(shí)ES級(jí)別分析完成,是185節(jié)點(diǎn)與集群通信失敗超時(shí),處于假死狀態(tài),而為什么185節(jié)點(diǎn)會(huì)這樣,我們進(jìn)一步對(duì)操作系統(tǒng)進(jìn)行分析,通過(guò)自動(dòng)化運(yùn)維平臺(tái),發(fā)現(xiàn)6臺(tái)主機(jī),有其中一個(gè)主機(jī)的負(fù)載故障前非常高,于是對(duì)操作日志進(jìn)行分析, 檢查操作系統(tǒng)messages信息,發(fā)現(xiàn)185存在系統(tǒng)守護(hù)進(jìn)程abrtd異常導(dǎo)致連接數(shù)過(guò)多及主機(jī)hang現(xiàn)象:
abrtd: Too many clients, refusing connections to 
/var/run/abrt/abrt.socketAug 21 05:33:37 hnes09 kernel: 
INFO: task java:21133 blocked for more than 120 seconds.Aug
21 05:33:37 hnes09 kernel: "echo 0 >
/proc/sys/kernel/hung_task_timeout_secs" disables this message.
我們通過(guò)日志發(fā)現(xiàn)引發(fā)這臺(tái)主機(jī)的‘罪魁禍?zhǔn)住?/span>abrtd進(jìn)程引起,而該進(jìn)程是在操作系統(tǒng)BUG或異常情況會(huì)觸發(fā),由于是開(kāi)源的centos未有相應(yīng)dump生成,只能先重啟主機(jī)解決。

重啟主機(jī)并重啟ES集群 ,查看 es日志顯示集群狀態(tài)正常,集群包含的6臺(tái)主機(jī)共24個(gè)節(jié)點(diǎn)正常加入集群,集群恢復(fù)正常,kibana訪(fǎng)問(wèn)正常。

為了防止后續(xù)重蹈覆轍,在其它的未發(fā)生故障的主機(jī)進(jìn)行梳理,并停止abrtd進(jìn)程服務(wù),至此整個(gè)事件告一段落。

故事發(fā)生引發(fā)的思考:

在我們未來(lái)的運(yùn)維場(chǎng)景越來(lái)越復(fù)雜的情況下,開(kāi)源組件會(huì)越來(lái)越多,業(yè)務(wù)使用開(kāi)源的場(chǎng)景也會(huì)增多,單純的技術(shù)深度已無(wú)法滿(mǎn)足未來(lái)的需求,我們應(yīng)該從架構(gòu)設(shè)計(jì)出發(fā),在出現(xiàn)問(wèn)題的時(shí)候架構(gòu)上做冗余,秉承‘業(yè)務(wù)優(yōu)先,先搶通后搶修’的原則,在日常運(yùn)維中使用平臺(tái)工具代替手工勞作。真正意義實(shí)現(xiàn)’故障來(lái)了我不背鍋’。

文章首發(fā)于2021年9月15日




本文作者:唐田壽(上海新炬王翦團(tuán)隊(duì))

本文來(lái)源:“IT那活兒”公眾號(hào)

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/129232.html

相關(guān)文章

  • 增量部署class文件引發(fā)血案

    摘要:背景項(xiàng)目中通過(guò)遠(yuǎn)程調(diào)用服務(wù)框架調(diào)用了許多其它的服務(wù)其中有一個(gè)服務(wù)需要升級(jí)其升級(jí)不是版本上的升級(jí)而是整個(gè)服務(wù)重新取了一個(gè)名字使用的也是全新的包但是調(diào)用的方法沒(méi)有改變因此在升級(jí)時(shí)只是在調(diào)用服務(wù)類(lèi)中修改了調(diào)用地址和調(diào)用返回實(shí)體由改為該中返回該調(diào)用 背景 項(xiàng)目中通過(guò)遠(yuǎn)程調(diào)用服務(wù)框架調(diào)用了許多其它的服務(wù),其中有一個(gè)服務(wù)wx/subscribe/contract/CircleService 需要升...

    lolomaco 評(píng)論0 收藏0
  • 記一次Content-Length引發(fā)血案

    摘要:除非使用了分塊編碼,否則首部就是帶有實(shí)體主體的報(bào)文必須使用的。 背景 新項(xiàng)目上線(xiàn), 發(fā)現(xiàn)一個(gè)奇怪的BUG, 請(qǐng)求接口有很小的概率返回400 Bad Request,拿到日志記錄的請(qǐng)求的參數(shù)于POSTMAN中測(cè)試請(qǐng)求接口, 發(fā)現(xiàn)能夠正常響應(yīng). 排查過(guò)程 首先服務(wù)器能夠正常響應(yīng)400 Bad Request, 排除接口故障問(wèn)題. 對(duì)比日志過(guò)程中發(fā)現(xiàn) { hello:world ...

    thekingisalwaysluc 評(píng)論0 收藏0
  • 一道JS面試題引發(fā)血案

    摘要:項(xiàng)目組長(zhǎng)給我看了一道面試別人的面試題。打鐵趁熱,再來(lái)一道題來(lái)加深下理解。作者以樂(lè)之名本文原創(chuàng),有不當(dāng)?shù)牡胤綒g迎指出。 showImg(https://segmentfault.com/img/bVbur0z?w=600&h=400); 剛?cè)肼毿鹿?,屬于公司萌新一枚,一天下午?duì)著屏幕看代碼架構(gòu)時(shí)。BI項(xiàng)目組長(zhǎng)給我看了一道面試別人的JS面試題。 雖然答對(duì)了,但把理由說(shuō)錯(cuò)了,照樣不及格。 ...

    fantix 評(píng)論0 收藏0
  • 一個(gè)由“大頭兒子帶小頭兒子吃飯”引發(fā)血案

    摘要:在群里討論,然后得出了這幾種寫(xiě)法,感覺(jué)是層層遞進(jìn),想了想,最后選擇發(fā)布成文章大頭兒子小頭爸爸叫去吃飯大頭兒子小頭爸爸叫去吃飯大頭兒子小頭爸爸叫去吃飯吃完了背小頭兒子回去正在牽著的手正在吃給所有對(duì)象擴(kuò)展一個(gè)繼承的方法繼承爸爸要繼承人的功能正在 在群里討論JavaScript,然后得出了這幾種寫(xiě)法,感覺(jué)是層層遞進(jìn),想了想,最后選擇發(fā)布成文章 ({ baby : 大頭兒子, ...

    forrest23 評(píng)論0 收藏0
  • 空數(shù)組返回true引發(fā)血案

    摘要:但是在這個(gè)判斷的情況下,則會(huì)很神奇的發(fā)現(xiàn)打印出來(lái)了,說(shuō)明此時(shí)為,為什么呢因?yàn)檫@里執(zhí)行了一個(gè)對(duì)象到布爾值的轉(zhuǎn)換故返回。 ????之前做項(xiàng)目的時(shí)候,總會(huì)處理各式各樣的數(shù)據(jù),來(lái)進(jìn)行繪圖。但是當(dāng)后臺(tái)返回一個(gè)空數(shù)組的時(shí)候,頁(yè)面中并不會(huì)顯示沒(méi)有數(shù)據(jù)的圖。代碼如下: var arr = [] if(arr){console.log(124)}else{console.log(無(wú)數(shù)據(jù))} 我明明判斷了...

    piglei 評(píng)論0 收藏0
  • 在PHP應(yīng)用程序開(kāi)發(fā)中不正當(dāng)使用mail()函數(shù)引發(fā)血案

    摘要:在我們向廠(chǎng)商提交漏洞,發(fā)布了相關(guān)的漏洞分析文章后,由于內(nèi)聯(lián)函數(shù)導(dǎo)致的類(lèi)似安全問(wèn)題在其他的應(yīng)用程序中陸續(xù)曝出。淺析的函數(shù)自帶了一個(gè)內(nèi)聯(lián)函數(shù)用于在應(yīng)用程序中發(fā)送電子郵件。 前言 在我們 挖掘PHP應(yīng)用程序漏洞 的過(guò)程中,我們向著名的Webmail服務(wù)提供商 Roundcube 提交了一個(gè)遠(yuǎn)程命令執(zhí)行漏洞( CVE-2016-9920 )。該漏洞允許攻擊者通過(guò)利用Roundcube接口發(fā)送一...

    Galence 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<