摘要:簡介是一個面向分布式數據流處理和批量數據處理的開源計算平臺,提供支持流處理和批處理兩種類型應用的功能。每一個數據流起始于一個或多個,并終止于一個或多個。
Flink簡介
Apache Flink 是一個面向分布式數據流處理和批量數據處理的開源計算平臺,提供支持流處理和批處理兩種類型應用的功能。
Apache Flink的前身是柏林理工大學一個研究性項目,在2014被Apache孵化器所接受,然后迅速地成為了Apache Software Foundation的頂級項目之一。
Flink 特點
現有的開源計算方案,會把流處理和批處理作為兩種不同的應用類型:流處理一般需要支持低延遲、Exactly-once保證,而批處理需要支持高吞吐、高效處理
Flink是完全支持流處理,也就是說作為流處理看待時輸入數據流時無界的;批處理被作為一種特殊的流處理,只是它的輸入數據流被定義為有界的。
Flink 組件棧Deployment層
主要涉及了Flink的部署模式、Flink支持多種部署模式:本地、集群(Standalone/YARN)、云(GCE/EC2).
Runtime層
Runtime層提供了支持Flink計算的全部核心實現,比如:支持分布式Stream處理、JobGraph到ExecutionGraph的映射、調度等等,為上層API層提供基礎服務
API層
API層主要實現了面向無界Stream的流處理和面向Batch的批處理API,其中面向流處理對應DataStream API,面向批處理對應DataSet API
Libaries層
在API層之上構建的滿足特定應用的實現計算框架,也分別對應于面向流處理和面向批處理兩類。
Flink優勢支持高吞吐、低延遲、高性能的流處理
支持高度靈活的窗口(Window)操作
支持有狀態計算的Exactly-once語義
提供DataStream API和DataSet API
Flink數據流和時間窗口基本概念
Flink程序的基礎構建模塊是流(streams)與轉換(transformations)。
每一個數據流起始于一個或多個source,并終止于一個或多個sink。
時間窗口
流上的聚合需要由窗口來劃定范圍,比如 “計算過去的5分鐘” 或者 “最后100個元素的和”
窗口通常被區分為不同的類型,比如滾動窗口(沒有重疊),滑動窗口(有重疊),以及會話窗口(由布活動的間隙所打斷)
Flink分布式運行環境Flink是基于Master-Slave風格的架構
Flink集群啟動時,會啟動一個JobManager進程、至少一個TaskManager進程
JobManager
Flink系統的協調者,他負責接受Flink Job ,調度組成Job的多個Task的執行
收集Job的狀態信息,并管理Flink集群中從節點TaskManager
TaskManager
實際負責執行計算的Worder,在其上執行Flink Job的一組Task
TaskManager負責管理其所在節點上的資源信息,如內存、磁盤、網絡,在啟動的時候將資源的狀態向JobManager匯報
Client
用戶提交一個Flink程序時,會首先創建一個Client,該Client首先會對用戶提交的Flink程序進行預處理,并提交到Flink集群
Client會將用戶提交的Flink程序組裝一個JobGraph,并且時以JobGraph的形式提交的
Flink安裝方式一
git clone https://github.com/apache/fli...
cd flink
mav clean package -DskipTests
cd build-target
方式二
到官網下載編譯版:https://flink.apache.org/down...
不同環境下到bin目錄,運行start-local.bat
運行正常,訪問頁面:http://localhost:8081
官方推薦快速搭建一個項目:
curl https://flink.apache.org/q/qu... | bash
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/71690.html
摘要:總結本文描述了如何在電腦上安裝,及運行它。相關文章從到學習介紹從到學習上搭建環境并構建運行簡單程序入門從到學習配置文件詳解從到學習介紹從到學習如何自定義從到學習介紹從到學習如何自定義 showImg(https://segmentfault.com/img/remote/1460000016915923?w=1920&h=1275); 準備工作 1、安裝查看 Java 的版本號,推薦...
摘要:接著我們將數據流按照單詞字段即號索引字段做分組,這里可以簡單地使用方法,得到一個以單詞為的數據流。得到的結果數據流,將每秒輸出一次這秒內每個單詞出現的次數。最后一件事就是將數據流打印到控制臺,并開始執行最后的調用是啟動實際作業所必需的。 本文轉載自 Jark’s Blog ,作者伍翀(云邪),Apache Flink Committer,阿里巴巴高級開發工程師。 本文將從開發環境準備、創建 ...
閱讀 1839·2021-09-14 18:03
閱讀 2274·2019-08-30 15:48
閱讀 1129·2019-08-30 14:09
閱讀 515·2019-08-30 12:55
閱讀 2735·2019-08-29 11:29
閱讀 1494·2019-08-26 13:43
閱讀 2318·2019-08-26 13:30
閱讀 2376·2019-08-26 12:17