国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

spark系列-結(jié)構(gòu)化數(shù)據(jù)流-數(shù)據(jù)源

IT那活兒 / 1233人閱讀
spark系列-結(jié)構(gòu)化數(shù)據(jù)流-數(shù)據(jù)源

點(diǎn)擊上方“IT那活兒”,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了!!!

簡  介


自spark2.0之后,DataFrame和DataSet可以表示靜態(tài)有界數(shù)據(jù)也可以表示無界流數(shù)據(jù),可以使用相同入口點(diǎn)SparkSession從流源創(chuàng)建DataFrame/DataSet。可以通過spark.readStream()來創(chuàng)建流。
實(shí)現(xiàn)端到端一次傳輸是結(jié)構(gòu)化數(shù)據(jù)流設(shè)計(jì)的目標(biāo)之一,為了實(shí)現(xiàn)這一目標(biāo),我們設(shè)計(jì)了數(shù)據(jù)源,接收器和執(zhí)行引擎,以可靠的跟蹤處理進(jìn)度,從而可以通過重新啟動或重新處理來處理任何類型的故障。
每個數(shù)據(jù)源都有偏移量(例如kafka)來跟蹤流中的讀取位置,執(zhí)行引擎使用檢查點(diǎn)(checkpoint)和預(yù)寫日志(write-ahead logs)記錄每次觸發(fā)后正在處理數(shù)據(jù)的偏移范圍,接收器使用冪等接受,這樣結(jié)構(gòu)化數(shù)據(jù)流就會保證端到端一次性傳輸。


內(nèi)置數(shù)據(jù)源


1. File source:讀取目錄中的文件,將按照文件修改時間進(jìn)行處理,如果設(shè)置latestFirst,則處理文件順序?qū)㈩嵉梗С值奈募袷接衪ext、csv、json、orc、parquet,請注意文件必須以原子方式放置在目錄中,大多數(shù)文件系統(tǒng)中可以通過文件移動操作來實(shí)現(xiàn)。
2. Kafka source:讀取kafka數(shù)據(jù),兼容kafka broker0.10.0或更高版本。
3. Socket source(用于測試):從socket連接中讀取數(shù)據(jù),監(jiān)聽socket套接字,只能用于測試,因?yàn)椴恢С侄说蕉艘淮蝹鬏敱WC。
4. Rate source(用于測試):以每秒指定的行數(shù)生成數(shù)據(jù),每個輸出行包含時間戳和值。其中,timestamp是包含消息分派時間的時間戳類型,value是包含消息計(jì)數(shù)的Long類型,從0開始作為第一行。此源用于測試和基準(zhǔn)測試。


案  例


創(chuàng)建socket 流。
創(chuàng)建文件流。
可以通過DF.isStreaming來判斷數(shù)據(jù)集是否是流數(shù)據(jù)。
自spark 3.1開始,也支持根據(jù)DataStreamReader.table()來創(chuàng)建結(jié)構(gòu)化數(shù)據(jù)流。
當(dāng)讀取目錄時如果存在key=value形式的子目錄時,將自動遞歸到這些目錄中并發(fā)生分區(qū),查詢啟動時組成分區(qū)方案的目錄必須存在,必須保持靜態(tài),例如當(dāng)/data/year=2015存在時,添加/data/year=2016是沒問題的,改變分區(qū)列是無效的,例如增加目錄/data/date=2016-04。




本文作者:潘宗昊

本文來源:IT那活兒(上海新炬王翦團(tuán)隊(duì))

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/129582.html

相關(guān)文章

  • Spark 』4. spark 之 RDD

    摘要:是設(shè)計(jì)用來表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。而正因?yàn)闈M足了這么多特性,所以把叫做,中文叫做彈性分布式數(shù)據(jù)集。按照這篇論文中文譯文的解釋,窄依賴是指子的每個分區(qū)依賴于常數(shù)個父分區(qū)即與數(shù)據(jù)規(guī)模無關(guān)寬依賴指子的每個分區(qū)依賴于所有父分區(qū)。 原文鏈接 寫在前面 本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄 + 對參考文章中的一些理解 + 個人實(shí)踐spark過程中的一些心得而來。寫這樣一個系列僅僅是...

    timger 評論0 收藏0
  • Spark 』2. spark 基本概念解析

    摘要:原文基本概念解析寫在前面本系列是綜合了自己在學(xué)習(xí)過程中的理解記錄對參考文章中的一些理解個人實(shí)踐過程中的一些心得而來。是項(xiàng)目組設(shè)計(jì)用來表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。 原文:『 Spark 』2. spark 基本概念解析 寫在前面 本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄 + 對參考文章中的一些理解 + 個人實(shí)踐spark過程中的一些心得而來。寫這樣一個系列僅僅是為了梳理個人學(xué)習(xí)...

    Luosunce 評論0 收藏0

發(fā)表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<