摘要:因此這種方式可以有效減少響應次數,從而減少觸發事件的次數,盡可能快的拿到響應體。
問題初現
某基于node.js開發的業務系統向外提供了一個dubbo服務,提供向第三方緩存查詢、設置多項業務數據并聚合操作結果。在QPS達到800時(兩臺虛擬機,每臺機器4Core8G4node進程),在監控平臺上出現了非常多的slow rt警告,平均接口響應達到60+ms,請求報警率達到80%+。
為找到造成該服務吞吐量過低的罪魁禍首,業務人員在請求日志中打點了所有查詢緩存的操作,結果顯示每個請求查詢緩存耗時在50-100ms之間跳動。查詢了redis-server的監控數據發現,不存在server端的慢查詢,在整個監控區間內服務端處理時間在40us徘徊,因此排除了redis-server的處理能力不足原因;
通過登錄內網機器進行不斷測試到對應redis server機器的端到端時延發現內部局域網的帶寬、時延與抖動足夠正常,都不是造成該問題的原因。
因此,錯誤原因定位到了調用redis client的業務代碼以及redis client的I/O性能。
本文中提到的node redis client采用的基于node-redis封裝的二方包,因此問題排查也基于node-redis這個模塊。瓶頸在哪
為了在本地模擬線上環境的并發,可以做一個不是很嚴謹的測試:
async ()=>{ let dd = Date.now() let arr = [] for(let i=0;i<200;i++){ arr.push(new Promise((res,rej)=>{ let hrtime = process.hrtime(); client.send_command("get",["key"], function(e,r) { let diff = process.hrtime(hrtime); let cost = (diff[0] * NS_PER_SEC + diff[1])/1000000; console.log(`final: ${cost} ms`) res(); }); })); } await Promise.all(arr) console.log("ops/sec:",200*1000/(Date.now() - dd),Date.now() - dd); }
會發現每個請求的rt都會比前一個請求來的大
](https://si.geilicdn.com/viewm...
最后一個請求的rt竟然達到了257 ms!雖然在node單進程像示例代碼那樣并發執行200次get請求是非常少見而且愚蠢的(關于示例代碼的優化在在下節講述),但是針對這個示例必須找到請求delay增加的原因。
為此繼續分析,redis client采用的是單連接模式,底層采用的非阻塞網絡I/O,socket.recv()在node層面是通過監聽socket的data事件完成的,因此先分析redis-client讀性能如何:
](https://si.geilicdn.com/viewm...
上圖每段日志的含義分別表示:
- data events trigger times: socket data事件觸發的次數 - data event start from prevent event: data事件距離上次觸發的時間間隔 - data events exec time(ms): 本次事件處理函數執行時間
上圖只是截取了最初的請求日志,發現當第6次觸發data事件時,竟然距離上次觸發事件隔了35ms,在隨后的請求中會復現這種現象,因此這也就導致了在并發200次查詢請求時,每個請求的rt都會隨之增大,并且有些響應之間間隔了30ms。
從表象看造成問題在于redis-server發送的響應不是一個數據塊,而是多個數據塊導致觸發socket的data事件過多,而且data事件抖動過大導致響應之間存在30ms的突變(data事件是無法同時觸發兩次的,每次data事件處理函數執行完后才能繼續觸發下一個data事件);當然也有可能和socket寫入(即發送req)有關,如緩存請求等。為了繼續探查,監控與socket寫入相關的接口 _write(),記錄每次寫入socket的數據時距離上一次寫入的間隔:
](https://si.geilicdn.com/viewm...
可見,在使用redis-client發送請求時,write方法也不是瓶頸。
采用同樣方法,對socket的push()(該方法觸發socket的data事件)進行監控,發現socket的數據到達間隔抖動非常大:
](https://si.geilicdn.com/viewm...
因此,造成redis-client并發請求下響應rt抖動較大的情況與單連接下響應數據到達本地的時刻有關,具體可能與底層libuv的緩存策略有關(筆者并未再往下探查)。
](https://si.geilicdn.com/viewm...
在一個node實例中通過一個單連接與redis server通信,在高并發下會出現排隊等待響應的情況,并且有可能會出現響應rt雪崩效應(如上文demo所示),因此需要盡可能減少或緩存客戶端的請求數量,進行批量發送。
調優1. pipeline(涉及到寫模式及時序) 2. script
對于pipeline方式,redis server是默認支持的。通俗點說,pipeline可以合并一系列請求一次發送,并將這些請求對應的結果一次性拿到。因此這種方式可以有效減少響應次數,從而減少socket觸發data事件的次數,盡可能快的拿到響應體。
](https://si.geilicdn.com/viewm...
需要強調的是,在node中,是通過底層socket的_writev實現一次發送多條redis命令的,_writev又叫做聚合寫,它支持將不同緩沖區的多條數據通過一次系統調用寫入目標流,因此性能上比每次寫單個緩沖區的單個數據來的好得多。在node的Writeable對象中,有cork和uncork方法,通過這兩個方法可以在node write stream中緩存多條數據,通過_writev一次性發送。
關于 _writev的數據結構
redis在拿到數據后,根據resp協議解析出命令集合緩存在隊列中,直到收到exec命令,開始批量執行命令集,并將所有命令執行的結果轉換為數組返回給redis client。這樣就可以通過一次寫、一次讀實現高性能I/O。
async ()=>{ let dd = Date.now() let batch = await client.batch(); for(let i=0;i<200;i++){ batch.get("vdWeex_com.koudai.weidian.buyer_1"); } let rt = await batch.exec(); process.exit(); }
而對于script方法,則是由redis client傳入script命令,在server端執行script邏輯,批量執行命令,并返回結果。同樣是一次寫、一次讀。
收獲1. node socket默認采用writev 集合寫 2. 無依賴批量請求采用pipeline 3. eval script解決有依賴批量請求 4. redis高性能體現在服務端處理能力,但瓶頸往往出現在客戶端,因此增強客戶端I/O能力與并發并行多客戶端才是高并發解決方案
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/98909.html
摘要:相關環境由于是一個幾年前的項目,所以使用的是這樣的。一些小提示本次優化筆記,并不會有什么文件的展示。將異步改為了串行,喪失了作為異步事件流的優勢。 這兩天針對一個Node項目進行了一波代碼層面的優化,從響應時間上看,是一次很顯著的提升。 一個純粹給客戶端提供接口的服務,沒有涉及到頁面渲染相關。 背景 首先這個項目是一個幾年前的項目了,期間一直在新增需求,導致代碼邏輯變得也比較復雜,接...
摘要:前言這將是一個分為兩部分,內容是關于在生產環境下,跑應用的最佳實踐。第一部分會關注安全性,第二部分則會關注性能和可靠性。關于第一部分,請參閱在生產環境下的最佳實踐安全性。 前言 這將是一個分為兩部分,內容是關于在生產環境下,跑Express應用的最佳實踐。第一部分會關注安全性,第二部分則會關注性能和可靠性。當你讀這篇文章時,會假設你已經對Node.js和web開發有所了解,并且對生產環...
摘要:模式,單實例多進程,常用于多語言混編,比如等,不支持端口復用,需要自己做應用的端口分配和負載均衡的子進程業務代碼。就是我們需要一個調度者,保證所有后端服務器都將性能充分發揮,從而保持服務器集群的整體性能最優,這就是負載均衡。 showImg(https://segmentfault.com/img/remote/1460000019425391?w=1440&h=1080); Nod...
閱讀 2394·2021-10-09 09:41
閱讀 3192·2021-09-26 09:46
閱讀 842·2021-09-03 10:34
閱讀 3173·2021-08-11 11:22
閱讀 3378·2019-08-30 14:12
閱讀 720·2019-08-26 11:34
閱讀 3352·2019-08-26 11:00
閱讀 1781·2019-08-26 10:26