點(diǎn)擊上方藍(lán)字關(guān)注我們
1月11號(hào)檢查平臺(tái)發(fā)現(xiàn)數(shù)據(jù)采集異常,平臺(tái)數(shù)據(jù)查詢報(bào)錯(cuò),經(jīng)核查發(fā)現(xiàn)后臺(tái)腳本采集程序發(fā)生大量kafka連接錯(cuò)誤,且日志文件一夜?jié)q至200G左右,MySQL主機(jī)存儲(chǔ)撐爆,最終導(dǎo)致平臺(tái)使用異常。
Kafka后臺(tái)報(bào)錯(cuò)大量org.apache.kafka.common.network.Selector異常,查詢資料發(fā)現(xiàn)該問(wèn)題是
socket.request.max.bytes參數(shù)值過(guò)低導(dǎo)致(默認(rèn)值為100M),調(diào)整到告警值的兩倍后重啟正常。
但隨后在下午發(fā)現(xiàn)平臺(tái)監(jiān)控采集數(shù)據(jù)又中斷了,再次檢查kafka發(fā)現(xiàn)有新的報(bào)錯(cuò)信息:
(java.lang.OutOfMemoryError:Java heap space)
這次錯(cuò)誤比較明顯,內(nèi)存溢出導(dǎo)致,需要調(diào)整kafaka啟動(dòng)內(nèi)存,隨即調(diào)整了kafka的原生start腳本kafka-server-start.sh加入如下參數(shù):
exportKAFKA_HEAP_OPTS="-Xmx4G –Xms4G"
重啟后發(fā)現(xiàn)還是報(bào)大量?jī)?nèi)存溢出,以為是設(shè)置過(guò)小,就改到了6G,錯(cuò)誤依舊,ps檢查了一下kakfka進(jìn)程,發(fā)下啟動(dòng)內(nèi)存寫(xiě)的是默認(rèn)的1G!這里遇上了一個(gè)坑,kafka的start腳本其實(shí)是調(diào)用bin目錄下的/kafka-run-class.sh腳本,而該腳本也設(shè)置了啟動(dòng)內(nèi)存,所以內(nèi)存參數(shù)一直未生效。
最后注釋該參數(shù),在kafka-server-start.sh加入該參數(shù)重啟后恢復(fù)正常(附上設(shè)置參數(shù)如下)
export KAFKA_HEAP_OPTS="-Xmx6G -Xms6G -XX:MetaspaceSize=96m -XX:+UseG1GC -XX:MaxGCPauseMillis=20 -XX:InitiatingHeapOccupancyPercent=35 -XX:G1HeapRegionSize=16M -XX:MinMetaspaceFreeRatio=50 -XX:MaxMetaspaceFreeRatio=80"
回想整個(gè)事故原因,是kafka異常導(dǎo)致數(shù)據(jù)采集進(jìn)程異常而出現(xiàn)大量錯(cuò)誤日志,以至于撐爆MySQL主機(jī)存儲(chǔ)。而kafaka在最近以來(lái)也未做變更,隨即想到最近新增大量數(shù)據(jù)作處理,新建的topic在每分鐘有大量數(shù)據(jù)消費(fèi),但分區(qū)數(shù)量也有12個(gè),請(qǐng)教長(zhǎng)研的景書(shū)大師后,了解到這種情況可以調(diào)整topic數(shù)據(jù)保留時(shí)間,緩解數(shù)據(jù)量過(guò)大導(dǎo)致內(nèi)存溢出的問(wèn)題,而默認(rèn)topic的數(shù)據(jù)保留時(shí)間為24h。最后修改了topic保留時(shí)間為12小時(shí)(網(wǎng)上有大量的修改方法,就不附上在此了)、啟動(dòng)內(nèi)存以及調(diào)整socket.request.max.bytes參數(shù)后,算是給kakfa上了雙保險(xiǎn),集群故障解除。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/130022.html
摘要:而在服務(wù)器中應(yīng)該充分利用多線程來(lái)處理執(zhí)行邏輯。能保證所在的失效,該消息仍然可以從新選舉的中獲取,不會(huì)造成消息丟失。這意味著無(wú)需等待來(lái)自的確認(rèn)而繼續(xù)發(fā)送下一批消息。 showImg(https://segmentfault.com/img/remote/1460000018373147?w=702&h=369); 1.概述 Apache Kafka最早是由LinkedIn開(kāi)源出來(lái)的分布式...
摘要:二基于的優(yōu)先級(jí)隊(duì)列方案針對(duì)以上場(chǎng)景,個(gè)推基于設(shè)計(jì)了第一版的優(yōu)先級(jí)隊(duì)列方案。架構(gòu)在該方案中,個(gè)推將優(yōu)先級(jí)統(tǒng)一設(shè)定為高中低三個(gè)級(jí)別。六總結(jié)現(xiàn)在個(gè)推針對(duì)優(yōu)先級(jí)中間件的改造方案已經(jīng)在部分現(xiàn)網(wǎng)業(yè)務(wù)中試運(yùn)行,對(duì)于的穩(wěn)定性,我們還在持續(xù)關(guān)注中。 showImg(https://segmentfault.com/img/remote/1460000018868129);作者:個(gè)推平臺(tái)研發(fā)工程師 祥子 ...
摘要:歸根到底,高可用性就意味著更少的宕機(jī)時(shí)間。首先,可以盡量避免應(yīng)用宕機(jī)來(lái)減少宕機(jī)時(shí)間。降低平均失效時(shí)間我們對(duì)系統(tǒng)變更缺少管理是所有導(dǎo)致宕機(jī)事件中最普遍的原因。 我們之前了解了復(fù)制、擴(kuò)展性,接下來(lái)就讓我們來(lái)了解可用性。歸根到底,高可用性就意味著 更少的宕機(jī)時(shí)間。 老規(guī)矩,討論一個(gè)名詞,首先要給它下個(gè)定義,那么什么是可用性? 1 什么是可用性 我們常見(jiàn)的可用性通常以百分比表示,這本身就有其隱...
閱讀 1353·2023-01-11 13:20
閱讀 1699·2023-01-11 13:20
閱讀 1211·2023-01-11 13:20
閱讀 1902·2023-01-11 13:20
閱讀 4161·2023-01-11 13:20
閱讀 2751·2023-01-11 13:20
閱讀 1397·2023-01-11 13:20
閱讀 3664·2023-01-11 13:20