国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

spark系列-結構化數據流-基本內容

IT那活兒 / 2225人閱讀
spark系列-結構化數據流-基本內容

點擊上方“IT那活兒”,關注后了解更多內容,不管IT什么活兒,干就完了!!!


簡  介


spark結構化數據流是可擴展和容錯的,基于spark sql引擎,可以用批處理方法處理結構化數據流,spark sql引擎負責以增量連續方式運行,并在流數據到達進行更新,可以使用scala、java、python或R的DataSet/DataFrame API來表示數據流聚合、時間窗口等,通過檢查點、預寫日志方式實現容錯。
在內部默認結構化流數據查詢使用微批處理引擎進行處理,其將數據流作為一系列小批處理作業,從而實現端到端100毫秒以下的延遲,并保證僅一次容錯。
但是自spark2.3以來,我們引入了一個稱作“Continuous Processing”新的低延遲處理模式,他可以實現端到端一毫秒的低延遲,并且至少一次容錯保證。根據實際需要可以選擇使用哪一種模式。


編程模型


Structured Streaming的關鍵是將實時數據流作為無邊界的連續追加的表,這非常像批處理模型,你可以將流處理作為一個靜態表進行處理。
基本概念
將輸入流作為源數據表,每個消息實體作為表的一行追加到表中。
針對輸入表查詢將生成結果表,每觸發一次,新的ROW DATA將被追加到輸入表中,然后更新結果表,不管什么什么時候更新,我們都希望將更新后的數據寫入到外部存儲器。


外部存儲器模式


1. Complete Mode:每次觸發整個結果表將寫入到外部存儲器。適用場景:適用于聚合查詢輸出的情況。
2. Append Mode:每次次觸發后追加到結果表中的新行才會被寫入到外部存儲器,適用場景:默認是這種模式,該模式保證每行只輸出一次,所以適用于結果表中現有行不會更改的查詢。
在查詢過程中, 如果沒有使用 watermark 機制, 則不能使用聚合操作. 如果使用了 watermark 機制, 則只能使用基于 event-time 的聚合操作。
3. Update Mode:每次觸發后在結果表中較上次觸發后更新或新增的行才會寫入到外部存儲器。如果沒有聚合操作, 則該模式與 append 模式一致. 如果有聚合操作, 則可以基于 watermark 清理過期的狀態。

請注意結構化數據流只讀取最近的可用的數據而不是整個數據表,然后更新結果表,然后就丟棄輸入數據,就是結構化數據流只保留處理最新狀態的數據。




本文作者:潘宗昊

本文來源:IT那活兒(上海新炬王翦團隊)


文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/129581.html

相關文章

  • Spark 』2. spark 基本概念解析

    摘要:原文基本概念解析寫在前面本系列是綜合了自己在學習過程中的理解記錄對參考文章中的一些理解個人實踐過程中的一些心得而來。是項目組設計用來表示數據集的一種數據結構。 原文:『 Spark 』2. spark 基本概念解析 寫在前面 本系列是綜合了自己在學習spark過程中的理解記錄 + 對參考文章中的一些理解 + 個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是為了梳理個人學習...

    Luosunce 評論0 收藏0
  • Spark 』4. spark 之 RDD

    摘要:是設計用來表示數據集的一種數據結構。而正因為滿足了這么多特性,所以把叫做,中文叫做彈性分布式數據集。按照這篇論文中文譯文的解釋,窄依賴是指子的每個分區依賴于常數個父分區即與數據規模無關寬依賴指子的每個分區依賴于所有父分區。 原文鏈接 寫在前面 本系列是綜合了自己在學習spark過程中的理解記錄 + 對參考文章中的一些理解 + 個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是...

    timger 評論0 收藏0

發表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<