国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

spark?Dstreams-緩存及持久性存儲

IT那活兒 / 1296人閱讀
spark?Dstreams-緩存及持久性存儲

點擊上方“IT那活兒”,關注后了解更多內容,不管IT什么活兒,干就完了?。。?/span>

簡  介
與RDD類似,DStreams也允許開發者將其持久化存儲到內存中,也就是說對DStream使用persist()方法將自動在內存中持久化數據流的每個RDD,這對于需要多次計算的數據流中的數據將是非常有用的。


Caching/Persistence


對于基于窗口的操作(例如reduceByWindow和reduceByKeyAndWindow)和基于狀態操作(例如updateStateByKey)是隱式的,因此基于窗口操作和基于狀態操作將自動持久化到內存中,所以無需開發人員顯示調用persist()方法。

其他操作是需要開發人員顯示指定調用persist()方法進行數據集持久化。

通過網絡接收數據的輸入流(例如kafka,socket等)默認的存儲級別設置是將數據復制到兩個節點以實現容錯。

請注意,與RDD不同的是數據流的默認持久性存儲級別在內存中保持序列化。


Checkpointing


一個streaming的應用程序是7*24小時運行的,因此必須能夠適應與程序邏輯無關的故障(例如系統故障,JVM崩潰等)。
為了實現這一點,spark stremaing必須設置足夠檢查點以便他能夠從故障中恢復,檢查點有兩種類型數據:
1. metadata checkpointing將定義流計算的信息保存到容錯存儲(如HDFS)。
這用于從運行流應用程序驅動程序的節點的故障中恢復(稍后將詳細討論)。
元數據包括:
  • configuration:用于創建流式處理應用程序的配置。
  • DStream operations:定義流應用程序的一組數據流操作。
  • Incomplete batchs:已排隊但尚未完成的批處理。
2. Data checkpointing:將生成的RDD保存到可靠的存儲中。
在一些跨多個批處理組合數據的有狀態轉換中,這是必需的。在這種轉換中,生成的RDD依賴于以前批處理的RDD,這導致依賴鏈的長度隨著時間的推移而不斷增加。
為了避免恢復時間的無限增長(與依賴鏈成比例),有狀態轉換的中間RDD定期檢查到可靠存儲(例如HDF),以切斷依賴鏈。
總之,元數據檢查點主要是為了可以從驅動程序故障中進行恢復,而數據檢查點對于有使用狀態轉換的基本功能也是必需的。

何時啟用檢查點(checkpointing)

必須為具有以下任何要求的應用程序啟用檢查點:
1. 有狀態轉換的使用:
如果應用程序中使用了updateStateByKey或ReduceByAndWindow(帶反向函數),則必須提供檢查點目錄以允許定期RDD檢查點。
2. 從運行應用程序的驅動程序的故障中恢復:
元數據檢查點用于使用進度信息進行恢復。
請注意,沒有上述有狀態轉換的簡單流應用程序可以在不啟用檢查點的情況下運行。
在這種情況下,驅動程序故障的恢復也將是部分的(一些已接收但未處理的數據可能會丟失),這通常是可以接受的,許多應用程序以這種方式運行Spark流媒體應用程序,對非Hadoop環境的支持有望在未來得到改善。

如何配置使用檢查點

可以通過在容錯目錄中設置目錄來啟用檢查點,檢查點信息將保存在可靠的文件系統(例如HDFS,S3等),通過使用streamingContext.checkpoint(checkpoint dir)完成,這將允許您使用前面提到的有狀態轉換。
此外,如果要使應用程序從驅動程序故障中恢復,則應重寫流應用程序,使其具有以下行為:
1. 當程序第一次啟動時,它將創建一個新的StreamingContext,然后調用start()。
2. 當程序在失敗后重新啟動時,它將從檢查點目錄中的檢查點數據重新創建StreamingContext。
使用StreamingContext.getOrCreate可以簡化此行為。其用途如下:
如果檢查點目錄存在,則將從檢查點數據重新創建上下文。如果目錄不存在(即,第一次運行),則將調用函數functionToCreateContext來創建新的上下文并設置數據流。
除了使用getOrCreate,還需要確保驅動程序進程在出現故障時自動重新啟動。這只能由用于運行應用程序的部署基礎結構來完成。這將在部署一節中進一步討論。
請注意,RDD的檢查點會導致節省到可靠存儲的成本。這可能會導致RDD檢查點所在批次的處理時間增加。
因此,需要仔細設置檢查點的間隔。在小批量(比如1秒)情況下,檢查每個批次可能會顯著降低操作吞吐量。相反,檢查點設置太少會導致譜系和任務大小增加,這可能會產生有害影響。
對于需要RDD檢查點的有狀態轉換,默認間隔是批處理間隔的倍數,至少為10秒??梢允褂胐stream.checkpoint(checkpointInterval)設置它。
通常,檢查點間隔為數據流的5-10個滑動間隔是一個很好的設置。無法從Spark Streaming中的檢查點恢復累加器和廣播變量。
如果啟用檢查點并同時使用累加器或廣播變量,則必須為累加器和廣播變量創建延遲實例化的單例實例,以便在驅動程序失敗時重新啟動后重新實例化它們。例如:

persist和 checkpoint 之間的區別


persist()可以將 RDD 的 partition 持久化到磁盤,但該 partition 由 blockManager 管理。
一旦 driver program 執行結束,也就是 executor 所在進程 CoarseGrainedExecutorBackend stop,blockManager 也會 stop,被 cache 到磁盤上的 RDD 也會被清空(整個 blockManager 使用的 local 文件夾被刪除)。
而 checkpoint 將 RDD 持久化到 HDFS 或本地文件夾,如果不被手動 remove 掉,是一直存在的。在實際使用中可以根據實際情況進行持久化方法的選擇。


本文作者:潘宗昊

本文來源:IT那活兒(上海新炬王翦團隊)

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/129641.html

相關文章

  • SparkStreaming概述

    摘要:但在企業中存在很多實時性處理的需求,例如雙十一的京東阿里,通常會做一個實時的數據大屏,顯示實時訂單。這種情況下,對數據實時性要求較高,僅僅能夠容忍到延遲分鐘或幾秒鐘。1 Spark Streaming是什么它是一個可擴展,高吞吐具有容錯性的流式計算框架吞吐量:單位時間內成功傳輸數據的數量之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務,數據一般都是在固定位置上...

    Tecode 評論0 收藏0
  • Spark Streaming學習筆記

    摘要:輸入和接收器輸入代表從某種流式數據源流入的數據流。文件數據流可以從任何兼容包括等的文件系統,創建方式如下將監視該目錄,并處理該目錄下任何新建的文件目前還不支持嵌套目錄。會被一個個依次推入隊列,而則會依次以數據流形式處理這些的數據。 特點: Spark Streaming能夠實現對實時數據流的流式處理,并具有很好的可擴展性、高吞吐量和容錯性。 Spark Streaming支持從多種數...

    陸斌 評論0 收藏0
  • Spark Streaming遇到問題分析

    摘要:遇到問題分析之后搞了個還沒仔細了解可參考的與的有區別及并發控制先看看的,與的這幾個概念。一個可以認為就是會最終輸出一個結果的一條由組織而成的計算。在中,我們通過使用新極大地增強對狀態流處理的支持。 Spark Streaming遇到問題分析 1、Spark2.0之后搞了個Structured Streaming 還沒仔細了解,可參考:https://github.com/lw-lin/...

    stormzhang 評論0 收藏0
  • Leaf in the Wild: Stratio整合Apache和MongoDB為世界上最大的銀行

    摘要:以及大數據平臺都已經進行了集成并且處于企業就緒狀態。因此,顧客避免浪費時間在安裝配置及監控系統方面。注意防止數據頻繁移動。 本文源地址:http://www.mongoing.com/blog/post/leaf-in-the-wild-stratio-integrates-apache-spark-and-mongodb-to-unlock-new-customer-insights...

    BDEEFE 評論0 收藏0
  • PySpark SQL 相關知識介紹

    摘要:大數據除了體積和速度外,數據的多樣性和準確性也是大數據的一大特點。這些也被稱為大數據的特征。介紹是一個解決大數據問題的分布式可伸縮的框架。介紹計算的模型最早出現在谷歌的一篇研究論文中。相關鏈接介紹是一個通用的分布式編程框架。 本文作者:foochane?本文鏈接:https://foochane.cn/article/2019060601.html 1 大數據簡介 大數據是這個時代最...

    CoderStudy 評論0 收藏0

發表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<