国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

SparkStreaming概述

Tecode / 2018人閱讀

摘要:但在企業中存在很多實時性處理的需求,例如雙十一的京東阿里,通常會做一個實時的數據大屏,顯示實時訂單。這種情況下,對數據實時性要求較高,僅僅能夠容忍到延遲分鐘或幾秒鐘。

1 Spark Streaming是什么
它是一個可擴展,高吞吐具有容錯性的流式計算框架

吞吐量:單位時間內成功傳輸數據的數量

之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務,數據一般都是在固定位置上,通常我們寫好一個腳本,每天定時去處理數據,計算,保存數據結果。這類任務通常是T+1(一天一個任務),對實時性要求不高。
image.png

但在企業中存在很多實時性處理的需求,例如:雙十一的京東阿里,通常會做一個實時的數據大屏,顯示實時訂單。這種情況下,對數據實時性要求較高,僅僅能夠容忍到延遲1分鐘或幾秒鐘。

image.png
實時計算框架對比

Storm

  • 流式計算框架
  • 以record為單位處理數據
  • 也支持micro-batch方式(Trident)

Spark

  • 批處理計算框架
  • 以RDD為單位處理數據
  • 支持micro-batch流式處理數據(Spark Streaming)

對比:

  • 吞吐量:Spark Streaming優于Storm
  • 延遲:Spark Streaming差于Storm

2 Spark Streaming的組件
Streaming Context

  • 一旦一個Context已經啟動(調用了Streaming Context的start())就不能有新的流算子(Dstream)建立或者是添加到context中
  • 一旦一個context已經停止不能重新啟動(Streaming Context調用了stop方法之后 就不能再次調 start())
  • 在JVM(java虛擬機)中 同一時間只能有一個Streaming Context處于活躍狀態 一個SparkContext創建一個Streaming Context
  • 在Streaming Context上調用Stop方法 也會關閉SparkContext對象 如果只想僅關閉Streaming Context對象設置stop()的可選參數為false
  • 一個SparkContext對象可以重復利用去創建多個Streaming Context對象(不關閉SparkContext前提下) 但是需要關一個再開下一個

DStream (離散流)

  • 代表一個連續的數據流
  • 在內部 DStream由一系列連續的RDD組成
  • DStreams中的每個RDD都包含確定時間間隔內的數據
  • 任何對DStreams的操作都轉換成了對DStreams隱含的RDD的操作
  • 數據源

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/126030.html

相關文章

  • 大數據分析技術與應用

    摘要:人工智能四常用大數據分析技術常見的大數據分析技術主要由以下幾部分構成分布式的文件系統存儲海量的非結構化數據例如等分布式的離線計算系統,對業務數據批量處理。 CDA數據分析研究院原創作品 一、大數據概念 大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信...

    shinezejian 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<