国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

redis磁盤故障分析經驗

IT那活兒 / 3333人閱讀
redis磁盤故障分析經驗

概述



ssd磁盤故障導致redis異常宕庫。



問題現象



前段時間,生產環境上一個redis數據庫服務器的ssd盤出現故障,只能讀不能寫,其他盤寫入速度也很慢。導致redis實例的aof刷新一直失敗,最終宕掉。



原因分析



ssd盤早期沒有格式化好,4k對齊沒做好



處理過程



該redis機器是用來存儲collector采集到的日志的meta信息,比較關鍵,而且一臺機器上開啟了8個redis實例,所以不好處理。
一開始準備把redis的aof文件轉移到一個新的盤上,并且把aof的dir動態更改到其他盤,結果發現redis實例掛掉了,就沒有動態更換aof目錄。這其中,redis的數據可能有所丟失,不過通過collector和redis日志發現,磁盤掛了后redis寫入已經失敗,估計有丟失數據也不多。collector有實現meta寫入redis失敗時轉為寫入本地磁盤,所以在redis實例down掉時,數據也不會丟失。
接著,處理4k對齊。先把所有redis實例進行bgwrite.
redis-cli -h redis02 -p 6379 bgrewriteaof,
停掉所有redis實例。

處理4k對齊, 重啟機器。結果發現機器重啟失敗,陣列卡或線松了。
重啟機器后,趕緊把所有aof文件都備份到其他機器上。結果有發現,有一塊盤丟了,嘗試mount回來。發現有很多block錯誤,要修復又怕丟數據。但現在盤有錯誤,只能先fsck修復,如果修復成功再從里面拷貝出來。要是覺得不保險,就先備份正常盤的數據,空出一塊盤,把cache3的盤做個鏡像,再做修復。最后aof文件終于弄出來了,啟動redis實例,發現aof文件有問題,啟動失敗。使用redis-check-aof --fix修復了aof文件,再啟動,成功。redis數據是被截斷一部分丟失了。
數據恢復后,開始重新把redis機器上的ssd盤一個個重新格式化。



總結



因為redis的meta信息,是銜接collector采集,以及storm處理和hadoop camus入庫。本次redis故障,大動干戈,對集群影響比較大。
還好collector有redis失敗轉存文件的功能,所以日志采集一直正常。
接下來的新機房,存儲meta的redis準備使用cluster,避免單點故障。保障可用性。

END


更多精彩干貨分享

點擊下方名片關注

IT那活兒

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/129787.html

相關文章

  • 云主機文件系統readonly處理案例

    摘要:通常發生該問題的場景有二一云主機和宿主機繁忙,云主機的請求得不到及時的響應,從而產生磁盤錯誤,為了保護磁盤數據會分區為只讀二云主機被強制關機,導致磁盤出現文件系統錯誤故障。 本文由作者朱益軍授權網易云社區發布。 背景 維護巡檢云主機時,發現有一臺運行redis的云主機狀態顯示維護中,登錄該實例查看,系統盤變成readonly。本文簡單分析該問題出現原因,并為運維人員提供常見處理方法及建...

    neroneroffy 評論0 收藏0
  • 講講NoSQL比較火的三個數據庫Memcached、Redis、MongoDB

    摘要:而今天主要講用得比較多的三個。支持持久化操作,可以進行及數據持久化到磁盤,從而進行數據備份或數據恢復等操作,較好的防止數據丟失的手段。單線程請求,所有命令串行執行,并發情況下不需要考慮數據一致性問題。 前言 NoSQL,泛指非關系型的數據庫。隨著互聯網不斷的發展,傳統的關系數據庫在應付新互聯網模式的網站,特別是超大規模和高并發的SNS類型的純動態網站已經顯得力不從心,暴露了很多難以克服...

    Michael_Lin 評論0 收藏0

發表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<