摘要:由于配置流是從關(guān)系型數(shù)據(jù)庫(kù)中讀取,速度較慢,導(dǎo)致實(shí)時(shí)數(shù)據(jù)流流入數(shù)據(jù)的時(shí)候,配置信息還未發(fā)送,這樣會(huì)導(dǎo)致有些實(shí)時(shí)數(shù)據(jù)讀取不到配置信息。從數(shù)據(jù)庫(kù)中解析出來(lái),再去統(tǒng)計(jì)近兩周占比。
Flink 學(xué)習(xí)
https://github.com/zhisheng17/flink-learning
麻煩路過(guò)的各位親給這個(gè)項(xiàng)目點(diǎn)個(gè) star,太不易了,寫(xiě)了這么多,算是對(duì)我堅(jiān)持下來(lái)的一種鼓勵(lì)吧!
本項(xiàng)目結(jié)構(gòu)2019/06/08 新增 Flink 四本電子書(shū)籍的 PDF,在 books 目錄下:
Introduction_to_Apache_Flink_book.pdf 這本書(shū)比較薄,處于介紹階段,國(guó)內(nèi)有這本的翻譯書(shū)籍
Learning Apache Flink.pdf 這本書(shū)比較基礎(chǔ),初學(xué)的話可以多看看
Stream Processing with Apache Flink.pdf 這本書(shū)是 Flink PMC 寫(xiě)的
Streaming System.pdf 這本書(shū)評(píng)價(jià)不是一般的高
2019/06/09 新增流處理引擎相關(guān)的 Paper,在 paper 目錄下:
流處理引擎相關(guān)的 Paper
博客1、Flink 從0到1學(xué)習(xí) —— Apache Flink 介紹
2、Flink 從0到1學(xué)習(xí) —— Mac 上搭建 Flink 1.6.0 環(huán)境并構(gòu)建運(yùn)行簡(jiǎn)單程序入門(mén)
3、Flink 從0到1學(xué)習(xí) —— Flink 配置文件詳解
4、Flink 從0到1學(xué)習(xí) —— Data Source 介紹
5、Flink 從0到1學(xué)習(xí) —— 如何自定義 Data Source ?
6、Flink 從0到1學(xué)習(xí) —— Data Sink 介紹
7、Flink 從0到1學(xué)習(xí) —— 如何自定義 Data Sink ?
8、Flink 從0到1學(xué)習(xí) —— Flink Data transformation(轉(zhuǎn)換)
9、Flink 從0到1學(xué)習(xí) —— 介紹 Flink 中的 Stream Windows
10、Flink 從0到1學(xué)習(xí) —— Flink 中的幾種 Time 詳解
11、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 ElasticSearch
12、Flink 從0到1學(xué)習(xí) —— Flink 項(xiàng)目如何運(yùn)行?
13、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 Kafka
14、Flink 從0到1學(xué)習(xí) —— Flink JobManager 高可用性配置
15、Flink 從0到1學(xué)習(xí) —— Flink parallelism 和 Slot 介紹
16、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)批量寫(xiě)入到 MySQL
17、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 RabbitMQ
18、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 HBase
19、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 HDFS
20、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 Redis
21、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 Cassandra
22、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 Flume
23、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 InfluxDB
24、Flink 從0到1學(xué)習(xí) —— Flink 讀取 Kafka 數(shù)據(jù)寫(xiě)入到 RocketMQ
25、Flink 從0到1學(xué)習(xí) —— 你上傳的 jar 包藏到哪里去了
26、Flink 從0到1學(xué)習(xí) —— 你的 Flink job 日志跑到哪里去了
Flink 源碼項(xiàng)目結(jié)構(gòu) 學(xué)習(xí)資料另外我自己整理了些 Flink 的學(xué)習(xí)資料,目前已經(jīng)全部放到微信公眾號(hào)了。
你可以加我的微信:zhisheng_tian,然后回復(fù)關(guān)鍵字:Flink 即可無(wú)條件獲取到,轉(zhuǎn)載請(qǐng)聯(lián)系本人獲取授權(quán),違者必究。
更多私密資料請(qǐng)加入知識(shí)星球!
有人要問(wèn)知識(shí)星球里面更新什么內(nèi)容?值得加入嗎?
目前知識(shí)星球內(nèi)已更新的系列文章:
1、Flink 源碼解析 —— 源碼編譯運(yùn)行
2、Flink 源碼解析 —— 項(xiàng)目結(jié)構(gòu)一覽
3、Flink 源碼解析—— local 模式啟動(dòng)流程
4、Flink 源碼解析 —— standalonesession 模式啟動(dòng)流程
5、Flink 源碼解析 —— Standalone Session Cluster 啟動(dòng)流程深度分析之 Job Manager 啟動(dòng)
6、Flink 源碼解析 —— Standalone Session Cluster 啟動(dòng)流程深度分析之 Task Manager 啟動(dòng)
7、Flink 源碼解析 —— 分析 Batch WordCount 程序的執(zhí)行過(guò)程
8、Flink 源碼解析 —— 分析 Streaming WordCount 程序的執(zhí)行過(guò)程
9、Flink 源碼解析 —— 如何獲取 JobGraph?
10、Flink 源碼解析 —— 如何獲取 StreamGraph?
11、Flink 源碼解析 —— Flink JobManager 有什么作用?
12、Flink 源碼解析 —— Flink TaskManager 有什么作用?
13、Flink 源碼解析 —— JobManager 處理 SubmitJob 的過(guò)程
14、Flink 源碼解析 —— TaskManager 處理 SubmitJob 的過(guò)程
15、Flink 源碼解析 —— 深度解析 Flink Checkpoint 機(jī)制
16、Flink 源碼解析 —— 深度解析 Flink 序列化機(jī)制
17、Flink 源碼解析 —— 深度解析 Flink 是如何管理好內(nèi)存的?
18、Flink Metrics 源碼解析 —— Flink-metrics-core
19、Flink Metrics 源碼解析 —— Flink-metrics-datadog
20、Flink Metrics 源碼解析 —— Flink-metrics-dropwizard
21、Flink Metrics 源碼解析 —— Flink-metrics-graphite
22、Flink Metrics 源碼解析 —— Flink-metrics-influxdb
23、Flink Metrics 源碼解析 —— Flink-metrics-jmx
24、Flink Metrics 源碼解析 —— Flink-metrics-slf4j
25、Flink Metrics 源碼解析 —— Flink-metrics-statsd
26、Flink Metrics 源碼解析 —— Flink-metrics-prometheus
26、Flink Annotations 源碼解析
除了《從1到100深入學(xué)習(xí)Flink》源碼學(xué)習(xí)這個(gè)系列文章,《從0到1學(xué)習(xí)Flink》的案例文章也會(huì)優(yōu)先在知識(shí)星球更新,讓大家先通過(guò)一些 demo 學(xué)習(xí) Flink,再去深入源碼學(xué)習(xí)!
如果學(xué)習(xí) Flink 的過(guò)程中,遇到什么問(wèn)題,可以在里面提問(wèn),我會(huì)優(yōu)先解答,這里做個(gè)抱歉,自己平時(shí)工作也挺忙,微信的問(wèn)題不能做全部做一些解答,
但肯定會(huì)優(yōu)先回復(fù)給知識(shí)星球的付費(fèi)用戶(hù)的,慶幸的是現(xiàn)在星球里的活躍氛圍還是可以的,有不少問(wèn)題通過(guò)提問(wèn)和解答的方式沉淀了下來(lái)。
1、為何我使用 ValueState 保存狀態(tài) Job 恢復(fù)是狀態(tài)沒(méi)恢復(fù)?
2、flink中watermark究竟是如何生成的,生成的規(guī)則是什么,怎么用來(lái)處理亂序數(shù)據(jù)
3、消費(fèi)kafka數(shù)據(jù)的時(shí)候,如果遇到了臟數(shù)據(jù),或者是不符合規(guī)則的數(shù)據(jù)等等怎么處理呢?
4、在Kafka 集群中怎么指定讀取/寫(xiě)入數(shù)據(jù)到指定broker或從指定broker的offset開(kāi)始消費(fèi)?
5、Flink能通過(guò)oozie或者azkaban提交嗎?
6、jobmanager掛掉后,提交的job怎么不經(jīng)過(guò)手動(dòng)重新提交執(zhí)行?
7、使用flink-web-ui提交作業(yè)并執(zhí)行 但是/opt/flink/log目錄下沒(méi)有日志文件 請(qǐng)問(wèn)關(guān)于flink的日志(包括jobmanager、taskmanager、每個(gè)job自己的日志默認(rèn)分別存在哪個(gè)目錄 )需要怎么配置?
8、通過(guò)flink 儀表盤(pán)提交的jar 是存儲(chǔ)在哪個(gè)目錄下?
9、從Kafka消費(fèi)數(shù)據(jù)進(jìn)行etl清洗,把結(jié)果寫(xiě)入hdfs映射成hive表,壓縮格式、hive直接能夠讀取flink寫(xiě)出的文件、按照文件大小或者時(shí)間滾動(dòng)生成文件
10、flink jar包上傳至集群上運(yùn)行,掛掉后,掛掉期間kafka中未被消費(fèi)的數(shù)據(jù),在重新啟動(dòng)程序后,是自動(dòng)從checkpoint獲取掛掉之前的kafka offset位置,自動(dòng)消費(fèi)之前的數(shù)據(jù)進(jìn)行處理,還是需要某些手動(dòng)的操作呢?
11、flink 啟動(dòng)時(shí)不自動(dòng)創(chuàng)建 上傳jar的路徑,能指定一個(gè)創(chuàng)建好的目錄嗎
12、Flink sink to es 集群上報(bào) slot 不夠,單機(jī)跑是好的,為什么?
13、Fllink to elasticsearch如何創(chuàng)建索引文檔期時(shí)間戳?
14、blink有沒(méi)有api文檔或者demo,是否建議blink用于生產(chǎn)環(huán)境。
15、flink的Python api怎樣?bug多嗎?
16、Flink VS Spark Streaming VS Storm VS Kafka Stream
17、你們做實(shí)時(shí)大屏的技術(shù)架構(gòu)是什么樣子的?flume→kafka→flink→redis,然后后端去redis里面撈數(shù)據(jù),醬紫可行嗎?
18、做一個(gè)統(tǒng)計(jì)指標(biāo)的時(shí)候,需要在Flink的計(jì)算過(guò)程中多次讀寫(xiě)redis,感覺(jué)好怪,星主有沒(méi)有好的方案?
19、Flink 使用場(chǎng)景大分析,列舉了很多的常用場(chǎng)景,可以好好參考一下
20、將kafka中數(shù)據(jù)sink到mysql時(shí),metadata的數(shù)據(jù)為空,導(dǎo)入mysql數(shù)據(jù)不成功???
21、使用了ValueState來(lái)保存中間狀態(tài),在運(yùn)行時(shí)中間狀態(tài)保存正常,但是在手動(dòng)停止后,再重新運(yùn)行,發(fā)現(xiàn)中間狀態(tài)值沒(méi)有了,之前出現(xiàn)的鍵值是從0開(kāi)始計(jì)數(shù)的,這是為什么?是需要實(shí)現(xiàn)CheckpointedFunction嗎?
22、flink on yarn jobmanager的HA需要怎么配置。還是說(shuō)yarn給管理了
23、有兩個(gè)數(shù)據(jù)流就行connect,其中一個(gè)是實(shí)時(shí)數(shù)據(jù)流(kafka 讀取),另一個(gè)是配置流。由于配置流是從關(guān)系型數(shù)據(jù)庫(kù)中讀取,速度較慢,導(dǎo)致實(shí)時(shí)數(shù)據(jù)流流入數(shù)據(jù)的時(shí)候,配置信息還未發(fā)送,這樣會(huì)導(dǎo)致有些實(shí)時(shí)數(shù)據(jù)讀取不到配置信息。目前采取的措施是在connect方法后的flatmap的實(shí)現(xiàn)的在open 方法中,提前加載一次配置信息,感覺(jué)這種實(shí)現(xiàn)方式不友好,請(qǐng)問(wèn)還有其他的實(shí)現(xiàn)方式嗎?
24、Flink能通過(guò)oozie或者azkaban提交嗎?
25、不采用yarm部署flink,還有其他的方案嗎? 主要想解決服務(wù)器重啟后,flink服務(wù)怎么自動(dòng)拉起? jobmanager掛掉后,提交的job怎么不經(jīng)過(guò)手動(dòng)重新提交執(zhí)行?
26、在一個(gè) Job 里將同份數(shù)據(jù)昨晚清洗操作后,sink 到后端多個(gè)地方(看業(yè)務(wù)需求),如何保持一致性?(一個(gè)sink出錯(cuò),另外的也保證不能插入)
27、flink sql任務(wù)在某個(gè)特定階段會(huì)發(fā)生tm和jm丟失心跳,是不是由于gc時(shí)間過(guò)長(zhǎng)呢,
28、有這樣一個(gè)需求,統(tǒng)計(jì)用戶(hù)近兩周進(jìn)入產(chǎn)品詳情頁(yè)的來(lái)源(1首頁(yè)大搜索,2產(chǎn)品頻道搜索,3其他),為php后端提供數(shù)據(jù)支持,該信息在端上報(bào)事件中,php直接獲取有點(diǎn)困難。 我現(xiàn)在的解決方案 通過(guò)flink滾動(dòng)窗口(半小時(shí)),統(tǒng)計(jì)用戶(hù)半小時(shí)內(nèi)3個(gè)來(lái)源pv,然后按照日期序列化,直接寫(xiě)mysql。php從數(shù)據(jù)庫(kù)中解析出來(lái),再去統(tǒng)計(jì)近兩周占比。 問(wèn)題1,這個(gè)需求適合用flink去做嗎? 問(wèn)題2,我的方案總感覺(jué)怪怪的,有沒(méi)有好的方案?
29、一個(gè)task slot 只能同時(shí)運(yùn)行一個(gè)任務(wù)還是多個(gè)任務(wù)呢?如果task slot運(yùn)行的任務(wù)比較大,會(huì)出現(xiàn)OOM的情況嗎?
30、你們?cè)趺磳?duì)線上flink做監(jiān)控的,如果整個(gè)程序失敗了怎么自動(dòng)重啟等等
31、flink cep規(guī)則動(dòng)態(tài)解析有接觸嗎?有沒(méi)有成型的框架?
32、每一個(gè)Window都有一個(gè)watermark嗎?window是怎么根據(jù)watermark進(jìn)行觸發(fā)或者銷(xiāo)毀的?
33、 CheckPoint與SavePoint的區(qū)別是什么?
34、flink可以在算子中共享狀態(tài)嗎?或者大佬你有什么方法可以共享狀態(tài)的呢?
35、運(yùn)行幾分鐘就報(bào)了,看taskmager日志,報(bào)的是 failed elasticsearch bulk request null,可是我代碼里面已經(jīng)做過(guò)空值判斷了呀 而且也過(guò)濾掉了,flink版本1.7.2 es版本6.3.1
36、這種情況,我們調(diào)并行度 還是配置參數(shù)好
37、大家都用jdbc寫(xiě),各種數(shù)據(jù)庫(kù)增刪查改拼sql有沒(méi)有覺(jué)得很累,ps.set代碼一大堆,還要計(jì)算每個(gè)參數(shù)的位置
38、關(guān)于datasource的配置,每個(gè)taskmanager對(duì)應(yīng)一個(gè)datasource?還是每個(gè)slot? 實(shí)際運(yùn)行下來(lái),每個(gè)slot中datasorce線程池只要設(shè)置1就行了,多了也用不到?
39、kafka現(xiàn)在每天出現(xiàn)數(shù)據(jù)丟失,現(xiàn)在小批量數(shù)據(jù),一天200W左右, kafka版本為 1.0.0,集群總共7個(gè)節(jié)點(diǎn),TOPIC有十六個(gè)分區(qū),單條報(bào)文1.5k左右
40、根據(jù)key.hash的絕對(duì)值 對(duì)并發(fā)度求模,進(jìn)行分組,假設(shè)10各并發(fā)度,實(shí)際只有8個(gè)分區(qū)有處理數(shù)據(jù),有2個(gè)始終不處理,還有一個(gè)分區(qū)處理的數(shù)據(jù)是其他的三倍,如截圖
41、flink每7小時(shí)不知道在處理什么, CPU 負(fù)載 每7小時(shí),有一次高峰,5分鐘內(nèi)平均負(fù)載超過(guò)0.8,如截圖
42、有沒(méi)有Flink寫(xiě)的項(xiàng)目推薦?我想看到用Flink寫(xiě)的整體項(xiàng)目是怎么組織的,不單單是一個(gè)單例子
43、Flink 源碼的結(jié)構(gòu)圖
44、我想根據(jù)不同業(yè)務(wù)表(case when)進(jìn)行不同的redis sink(hash ,set),我要如何操作?
45、這個(gè)需要清理什么數(shù)據(jù)呀,我把hdfs里面的已經(jīng)清理了 啟動(dòng)還是報(bào)這個(gè)
46、 在流處理系統(tǒng),在機(jī)器發(fā)生故障恢復(fù)之后,什么情況消息最多會(huì)被處理一次?什么情況消息最少會(huì)被處理一次呢?
47、我檢查點(diǎn)都調(diào)到5分鐘了,這是什么問(wèn)題
48、reduce方法后 那個(gè)交易時(shí)間 怎么不是最新的,是第一次進(jìn)入的那個(gè)時(shí)間,
49、Flink on Yarn 模式,用yarn session腳本啟動(dòng)的時(shí)候,我在后臺(tái)沒(méi)有看到到Jobmanager,TaskManager,ApplicationMaster這幾個(gè)進(jìn)程,想請(qǐng)問(wèn)一下這是什么原因呢?因?yàn)橹翱垂倬W(wǎng)的時(shí)候,說(shuō)Jobmanager就是一個(gè)jvm進(jìn)程,Taskmanage也是一個(gè)JVM進(jìn)程
50、Flink on Yarn的時(shí)候得指定 多少個(gè)TaskManager和每個(gè)TaskManager slot去運(yùn)行任務(wù),這樣做感覺(jué)不太合理,因?yàn)橛脩?hù)也不知道需要多少個(gè)TaskManager適合,F(xiàn)link 有動(dòng)態(tài)啟動(dòng)TaskManager的機(jī)制嗎。
51、參考這個(gè)例子,F(xiàn)link 零基礎(chǔ)實(shí)戰(zhàn)教程:如何計(jì)算實(shí)時(shí)熱門(mén)商品 | Jark"s Blog, 窗口聚合的時(shí)候,用keywindow,用的是timeWindowAll,然后在aggregate的時(shí)候用aggregate(new CustomAggregateFunction(), new CustomWindowFunction()),打印結(jié)果后,發(fā)現(xiàn)窗口中一直使用的重復(fù)的數(shù)據(jù),統(tǒng)計(jì)的結(jié)果也不變,去掉CustomWindowFunction()就正常了 ? 非常奇怪
52、用戶(hù)進(jìn)入產(chǎn)品預(yù)定頁(yè)面(端埋點(diǎn)上報(bào)),并填寫(xiě)了一些信息(端埋點(diǎn)上報(bào)),但半小時(shí)內(nèi)并沒(méi)有產(chǎn)生任何訂單,然后給該類(lèi)用戶(hù)發(fā)送一個(gè)push。 1. 這種需求適合用flink去做嗎?2. 如果適合,說(shuō)下大概的思路
53、業(yè)務(wù)場(chǎng)景是實(shí)時(shí)獲取數(shù)據(jù)存redis,請(qǐng)問(wèn)我要如何按天、按周、按月分別存入redis里?(比方說(shuō)過(guò)了一天自動(dòng)換一個(gè)位置存redis)
54、有人 AggregatingState 的例子嗎, 感覺(jué)官方的例子和 官網(wǎng)的不太一樣?
55、flink-jdbc這個(gè)jar有嗎?怎么沒(méi)找到啊?1.8.0的沒(méi)找到,1.6.2的有
56、現(xiàn)有個(gè)關(guān)于savepoint的問(wèn)題,操作流程為,取消任務(wù)時(shí)設(shè)置保存點(diǎn),更新任務(wù),從保存點(diǎn)啟動(dòng)任務(wù);現(xiàn)在遇到個(gè)問(wèn)題,假設(shè)我中間某個(gè)算子重寫(xiě),原先通過(guò)state編寫(xiě),有用定時(shí)器,現(xiàn)在更改后,采用窗口,反正就是實(shí)現(xiàn)方式完全不一樣;從保存點(diǎn)啟動(dòng)就會(huì)一直報(bào)錯(cuò),重啟,原先的保存點(diǎn)不能還原,此時(shí)就會(huì)有很多數(shù)據(jù)重復(fù)等各種問(wèn)題,如何才能保證數(shù)據(jù)不丟失,不重復(fù)等,恢復(fù)到停止的時(shí)候,現(xiàn)在想到的是記下kafka的偏移量,再做處理,貌似也不是很好弄,有什么解決辦法嗎
57、需要在flink計(jì)算app頁(yè)面訪問(wèn)時(shí)長(zhǎng),消費(fèi)Kafka計(jì)算后輸出到Kafka。第一條log需要等待第二條log的時(shí)間戳計(jì)算訪問(wèn)時(shí)長(zhǎng)。我想問(wèn)的是,flink是分布式的,那么它能否保證執(zhí)行的順序性?后來(lái)的數(shù)據(jù)有沒(méi)有可能先被執(zhí)行?
58、我公司想做實(shí)時(shí)大屏,現(xiàn)有技術(shù)是將業(yè)務(wù)所需指標(biāo)實(shí)時(shí)用spark拉到redis里存著,然后再用一條spark streaming流計(jì)算簡(jiǎn)單乘除運(yùn)算,指標(biāo)包含了各月份的比較。請(qǐng)問(wèn)我該如何用flink簡(jiǎn)化上述流程?
59、flink on yarn 方式,這樣理解不知道對(duì)不對(duì),yarn-session這個(gè)腳本其實(shí)就是準(zhǔn)備yarn環(huán)境的,執(zhí)行run任務(wù)的時(shí)候,根據(jù)yarn-session初始化的yarnDescription 把 flink 任務(wù)的jobGraph提交到y(tǒng)arn上去執(zhí)行
60、同樣的代碼邏輯寫(xiě)在多帶帶的main函數(shù)中就可以成功的消費(fèi)kafka ,寫(xiě)在一個(gè)spring boot的程序中,接受外部請(qǐng)求,然后執(zhí)行相同的邏輯就不能消費(fèi)kafka。你遇到過(guò)嗎?能給一些查問(wèn)題的建議,或者在哪里打個(gè)斷點(diǎn),能看到為什么消費(fèi)不到kafka的消息呢?
61、請(qǐng)問(wèn)下flink可以實(shí)現(xiàn)一個(gè)流中同時(shí)存在訂單表和訂單商品表的數(shù)據(jù) 兩者是一對(duì)多的關(guān)系 能實(shí)現(xiàn)得到 以訂單表為主 一個(gè)訂單多個(gè)商品 這種需求嘛
62、在用中間狀態(tài)的時(shí)候,如果中間一些信息保存在state中,有沒(méi)有必要在redis中再保存一份,來(lái)做第三方的存儲(chǔ)。
63、能否出一期flink state的文章。什么場(chǎng)景下用什么樣的state?如,最簡(jiǎn)單的,實(shí)時(shí)累加update到state。
64、flink的雙流join博主有使用的經(jīng)驗(yàn)嗎?會(huì)有什么常見(jiàn)的問(wèn)題嗎
65、窗口觸發(fā)的條件問(wèn)題
66、flink 定時(shí)任務(wù)怎么做?有相關(guān)的demo么?
67、流式處理過(guò)程中數(shù)據(jù)的一致性如何保證或者如何檢測(cè)
68、重啟flink單機(jī)集群,還報(bào)job not found 異常。
69、kafka的數(shù)據(jù)是用 org.apache.kafka.common.serialization.ByteArraySerialize序列化的,flink這邊消費(fèi)的時(shí)候怎么通過(guò)FlinkKafkaConsumer創(chuàng)建DataStream
70、現(xiàn)在公司有一個(gè)需求,一些用戶(hù)的支付日志,通過(guò)sls收集,要把這些日志處理后,結(jié)果寫(xiě)入到MySQL,關(guān)鍵這些日志可能連著來(lái)好幾條才是一個(gè)用戶(hù)的,因?yàn)榘l(fā)起請(qǐng)求,響應(yīng)等每個(gè)環(huán)節(jié)都有相應(yīng)的日志,這幾條日志綜合處理才能得到最終的結(jié)果,請(qǐng)問(wèn)博主有什么好的方法沒(méi)有?
71、flink 支持hadoop 主備么? hadoop主節(jié)點(diǎn)掛了 flink 會(huì)切換到hadoop 備用節(jié)點(diǎn)?
72、請(qǐng)教大家: 實(shí)際 flink 開(kāi)發(fā)中用 scala 多還是 java多些? 剛?cè)胧?flink 大數(shù)據(jù) scala 需要深入學(xué)習(xí)么?
73、我使用的是flink是1.7.2最近用了split的方式分流,但是底層的SplitStream上卻標(biāo)注為Deprecated,請(qǐng)問(wèn)是官方不推薦使用分流的方式嗎?
74、KeyBy 的正確理解,和數(shù)據(jù)傾斜問(wèn)題的解釋
75、用flink時(shí),遇到個(gè)問(wèn)題 checkpoint大概有2G左右, 有背壓時(shí),flink會(huì)重啟有遇到過(guò)這個(gè)問(wèn)題嗎
76、flink使用yarn-session方式部署,如何保證yarn-session的穩(wěn)定性,如果yarn-session掛了,需要重新部署一個(gè)yarn-session,如何恢復(fù)之前yarn-session上的job呢,之前的checkpoint還能使用嗎?
77、我想請(qǐng)教一下關(guān)于sink的問(wèn)題。我現(xiàn)在的需求是從Kafka消費(fèi)Json數(shù)據(jù),這個(gè)Json數(shù)據(jù)字段可能會(huì)增加,然后將拿到的json數(shù)據(jù)以parquet的格式存入hdfs。現(xiàn)在我可以拿到j(luò)son數(shù)據(jù)的schema,但是在保存parquet文件的時(shí)候不知道怎么處理。一是flink沒(méi)有專(zhuān)門(mén)的format parquet,二是對(duì)于可變字段的Json怎么處理成parquet比較合適?
78、flink如何在較大的數(shù)據(jù)量中做去重計(jì)算。
79、flink能在沒(méi)有數(shù)據(jù)的時(shí)候也定時(shí)執(zhí)行算子嗎?
80、使用rocksdb狀態(tài)后端,自定義pojo怎么實(shí)現(xiàn)序列化和反序列化的,有相關(guān)demo么?
81、check point 老是失敗,是不是自定義的pojo問(wèn)題?到本地可以,到hdfs就不行,網(wǎng)上也有很多類(lèi)似的問(wèn)題 都沒(méi)有一個(gè)很好的解釋和解決方案
82、cep規(guī)則如圖,當(dāng)start事件進(jìn)入時(shí),時(shí)間00:00:15,而后進(jìn)入end事件,時(shí)間00:00:40。我發(fā)現(xiàn)規(guī)則無(wú)法命中。請(qǐng)問(wèn)within 是從start事件開(kāi)始計(jì)時(shí)?還是跟window一樣根據(jù)系統(tǒng)時(shí)間劃分的?如果是后者,請(qǐng)問(wèn)怎么配置才能從start開(kāi)始計(jì)時(shí)?
83、Flink聚合結(jié)果直接寫(xiě)Mysql的冪等性設(shè)計(jì)問(wèn)題
84、Flink job打開(kāi)了checkpoint,用的rocksdb,通過(guò)觀察hdfs上checkpoint目錄,為啥算副本總量會(huì)暴增爆減
85、[Flink 提交任務(wù)的 jar包可以指定路徑為 HDFS 上的嗎]()
86、在flink web Ui上提交的任務(wù),設(shè)置的并行度為2,flink是stand alone部署的。兩個(gè)任務(wù)都正常的運(yùn)行了幾天了,今天有個(gè)地方邏輯需要修改,于是將任務(wù)cancel掉(在命令行cancel也試了),結(jié)果taskmanger掛掉了一個(gè)節(jié)點(diǎn)。后來(lái)用其他任務(wù)試了,也同樣會(huì)導(dǎo)致節(jié)點(diǎn)掛掉
87、一個(gè)配置動(dòng)態(tài)更新的問(wèn)題折騰好久(配置用個(gè)靜態(tài)的map變量存著,有個(gè)線程定時(shí)去數(shù)據(jù)庫(kù)撈數(shù)據(jù)然后存在這個(gè)map里面更新一把),本地 idea 調(diào)試沒(méi)問(wèn)題,集群部署就一直報(bào) 空指針異常。下游的算子使用這個(gè)靜態(tài)變量map去get key在集群模式下會(huì)出現(xiàn)這個(gè)空指針異常,估計(jì)就是拿不到 map
88、批量寫(xiě)入MySQL,完成HBase批量寫(xiě)入
89、用flink清洗數(shù)據(jù),其中要訪問(wèn)redis,根據(jù)redis的結(jié)果來(lái)決定是否把數(shù)據(jù)傳遞到下流,這有可能實(shí)現(xiàn)嗎?
90、監(jiān)控頁(yè)面流處理的時(shí)候這個(gè)發(fā)送和接收字節(jié)為0。
91、[sink到MySQL,如果直接用idea的話可以運(yùn)行,并且成功,大大的代碼上面用的FlinkKafkaConsumer010,而我的Flink版本為1.7,kafka版本為2.12,所以當(dāng)我用FlinkKafkaConsumer010就有問(wèn)題,于是改為
FlinkKafkaConsumer就可以直接在idea完成sink到MySQL,但是為何當(dāng)我把該程序打成Jar包,去運(yùn)行的時(shí)候,就是報(bào)FlinkKafkaConsumer找不到呢](https://t.zsxq.com/MN7iuZf)
92、SocketTextStreamWordCount中輸入中文統(tǒng)計(jì)不出來(lái),請(qǐng)問(wèn)這個(gè)怎么解決,我猜測(cè)應(yīng)該是需要修改一下代碼,應(yīng)該是這個(gè)例子默認(rèn)統(tǒng)計(jì)英文
93、 Flink 應(yīng)用程序本地 ide 里面運(yùn)行的時(shí)候并行度是怎么算的?
94、 請(qǐng)問(wèn)下flink中對(duì)于窗口的全量聚合有apply和process兩種 他們有啥區(qū)別呢
95、不知道大大熟悉Hbase不,我想直接在Hbase中查詢(xún)某一列數(shù)據(jù),因?yàn)橛兄貜?fù)數(shù)據(jù),所以想使用distinct統(tǒng)計(jì)實(shí)際數(shù)據(jù)量,請(qǐng)問(wèn)Hbase中有沒(méi)有類(lèi)似于sql的distinct關(guān)鍵字。如果沒(méi)有,想實(shí)現(xiàn)這種可以不?
96、 來(lái)分析一下現(xiàn)在Flink,Kafka方面的就業(yè)形勢(shì),以及準(zhǔn)備就業(yè)該如何準(zhǔn)備的這方面內(nèi)容呢?
97、 大佬知道flink的dataStream可以轉(zhuǎn)換為dataSet嗎?因?yàn)閿?shù)據(jù)需要11分鐘一個(gè)批次計(jì)算五六個(gè)指標(biāo),并且涉及好幾步reduce,計(jì)算的指標(biāo)之間有聯(lián)系,用Stream卡住了。
98、1.如何在同一窗口內(nèi)實(shí)現(xiàn)多次的聚合,比如像spark中的這樣2.多個(gè)實(shí)時(shí)流的jion可以用window來(lái)處理一批次的數(shù)據(jù)嗎?
99、寫(xiě)的批處理的功能,現(xiàn)在本機(jī)跑是沒(méi)問(wèn)題的,就是在linux集群上出現(xiàn)了問(wèn)題,就是不知道如果通過(guò)本地調(diào)用遠(yuǎn)程jar包然后傳參數(shù)和拿到結(jié)果參數(shù)返回本機(jī)
100、我用standalone開(kāi)啟一個(gè)flink集群,上傳flink官方用例Socket Window WordCount做測(cè)試,開(kāi)啟兩個(gè)parallelism能正常運(yùn)行,但是開(kāi)啟4個(gè)parallelism后出現(xiàn)錯(cuò)誤
101、 有使用AssignerWithPunctuatedWatermarks 的案例Demo嗎?網(wǎng)上找了都是AssignerWithPeriodicWatermarks的,不知道具體怎么使用?
102、 有一個(gè)datastream(從文件讀取的),然后我用flink sql進(jìn)行計(jì)算,這個(gè)sql是一個(gè)加總的運(yùn)算,然后通過(guò)retractStreamTableSink可以把文件做sql的結(jié)果輸出到文件嗎?這個(gè)輸出到文件的接口是用什么呢?
103、 為啥split這個(gè)流設(shè)置為過(guò)期的
104、 需要使用flink table的水印機(jī)制控制時(shí)間的亂序問(wèn)題,這種場(chǎng)景下我就使用水印+窗口了,我現(xiàn)在寫(xiě)的demo遇到了問(wèn)題,就是在把觸發(fā)計(jì)算的窗口table(WindowedTable)轉(zhuǎn)換成table進(jìn)行sql操作時(shí)發(fā)現(xiàn)窗口中的數(shù)據(jù)還是亂序的,是不是flink table的WindowedTable不支持水印窗口轉(zhuǎn)table-sql的功能
105、 Flink 對(duì) SQL 的重視性
106、 flink job打開(kāi)了checkpoint,任務(wù)跑了幾個(gè)小時(shí)后就出現(xiàn)下面的錯(cuò),截圖是打出來(lái)的日志,有個(gè)OOM,又遇到過(guò)的沒(méi)?
107、 本地測(cè)試是有數(shù)據(jù)的,之前該任務(wù)放在集群也是有數(shù)據(jù)的,可能提交過(guò)多次,現(xiàn)在讀不到數(shù)據(jù)了 group id 也換過(guò)了, 只能重啟集群解決么?
108、使用flink清洗數(shù)據(jù)存到es中,直接在flatmap中對(duì)處理出來(lái)的數(shù)據(jù)用es自己的ClientInterface類(lèi)直接將數(shù)據(jù)存入es當(dāng)中,不走sink,這樣的處理邏輯是不是會(huì)有問(wèn)題。
108、 flink從kafka拿數(shù)據(jù)(即增量數(shù)據(jù))與存量數(shù)據(jù)進(jìn)行內(nèi)存聚合的需求,現(xiàn)在有一個(gè)方案就是程序啟動(dòng)的時(shí)候先用flink table將存量數(shù)據(jù)加載到內(nèi)存中創(chuàng)建table中,然后將stream的增量數(shù)據(jù)與table的數(shù)據(jù)進(jìn)行關(guān)聯(lián)聚合后輸出結(jié)束,不知道這種方案可行么。目前個(gè)人認(rèn)為有兩個(gè)主要問(wèn)題:1是增量數(shù)據(jù)stream轉(zhuǎn)化成append table后不知道能與存量的table關(guān)聯(lián)聚合不,2是聚合后輸出的結(jié)果數(shù)據(jù)是否過(guò)于頻繁造成網(wǎng)絡(luò)傳輸壓力過(guò)大
109、 設(shè)置時(shí)間時(shí)間特性有什么區(qū)別呢, 分別在什么場(chǎng)景下使用呢?兩種設(shè)置時(shí)間延遲有什么區(qū)別呢 , 分別在什么場(chǎng)景下使用
110、 flink從rabbitmq中讀取數(shù)據(jù),設(shè)置了rabbitmq的CorrelationDataId和checkpoint為EXACTLY_ONCE;如果flink完成一次checkpoint后,在這次checkpoint之前消費(fèi)的數(shù)據(jù)都會(huì)從mq中刪除。如果某次flink停機(jī)更新,那就會(huì)出現(xiàn)mq中的一些數(shù)據(jù)消費(fèi)但是處于Unacked狀態(tài)。在flink又重新開(kāi)啟后這批數(shù)據(jù)又會(huì)重新消費(fèi)。那這樣是不是就不能保證EXACTLY_ONCE了
111、1. 在Flink checkpoint 中, 像 operator的狀態(tài)信息 是在設(shè)置了checkpoint 之后自動(dòng)的進(jìn)行快照嗎 ?2. 上面這個(gè)和我們手動(dòng)存儲(chǔ)的 Keyed State 進(jìn)行快照(這個(gè)應(yīng)該是增量快照)
112、現(xiàn)在有個(gè)實(shí)時(shí)商品數(shù),交易額這種統(tǒng)計(jì)需求,打算用 flink從kafka讀取binglog日志進(jìn)行計(jì)算,但binglog涉及到insert和update這種操作時(shí) 怎么處理才能統(tǒng)計(jì)準(zhǔn)確,避免那種重復(fù)計(jì)算的問(wèn)題?
113、我這邊用flink做實(shí)時(shí)監(jiān)控,功能很簡(jiǎn)單,就是每條消息做keyby然后三分鐘窗口,然后做些去重操作,觸發(fā)閾值則報(bào)警,現(xiàn)在問(wèn)題是同一個(gè)時(shí)間窗口同一個(gè)人的告警會(huì)觸發(fā)兩次,集群是三臺(tái)機(jī)器,standalone cluster,初步結(jié)果是三個(gè)算子里有兩個(gè)收到了同樣的數(shù)據(jù)
114、在使用WaterMark的時(shí)候,默認(rèn)是每200ms去設(shè)置一次watermark,那么每個(gè)taskmanager之間,由于得到的數(shù)據(jù)不同,所以往往產(chǎn)生的最大的watermark不同。 那么這個(gè)時(shí)候,是各個(gè)taskmanager廣播這個(gè)watermark,得到全局的最大的watermark,還是說(shuō)各個(gè)taskmanager都各自用自己的watermark。主要沒(méi)看到廣播watermark的源碼。不知道是自己觀察不仔細(xì)還是就是沒(méi)有廣播這個(gè)變量。
115、現(xiàn)在遇到一個(gè)需求,需要在job內(nèi)部定時(shí)去讀取redis的信息,想請(qǐng)教flink能實(shí)現(xiàn)像普通程序那樣的定時(shí)任務(wù)嗎?
116、有個(gè)觸發(fā)事件開(kāi)始聚合,等到數(shù)量足夠,或者超時(shí)則sink推mq 環(huán)境 flink 1.6 用了mapState 記錄觸發(fā)事件 1 數(shù)據(jù)足夠這個(gè)OK 2 超時(shí)state ttl 1.6支持,但是問(wèn)題來(lái)了,如何在超時(shí)時(shí)候增加自定義處理?
117、請(qǐng)問(wèn)impala這種mpp架構(gòu)的sql引擎,為什么穩(wěn)定性比較差呢?
118、watermark跟并行度相關(guān)不是,過(guò)于全局了,期望是keyby之后再針對(duì)每個(gè)keyed stream 打watermark,這個(gè)有什么好的實(shí)踐呢?
119、請(qǐng)問(wèn)如果把一個(gè)文件的內(nèi)容讀取成datastream和dataset,有什么區(qū)別嗎??他們都是一條數(shù)據(jù)一條數(shù)據(jù)的被讀取嗎?
120、有沒(méi)有kylin相關(guān)的資料,或者調(diào)優(yōu)的經(jīng)驗(yàn)?
121、flink先從jdbc讀取配置表到流中,另外從kafka中新增或者修改這個(gè)配置,這個(gè)場(chǎng)景怎么把兩個(gè)流一份配置流?我用的connect,接著發(fā)不成廣播變量,再和實(shí)體流合并,但在合并時(shí)報(bào)Exception in thread "main" java.lang.IllegalArgumentException
122、Flink exactly-once,kafka版本為0.11.0 ,sink基于FlinkKafkaProducer011 每五分鐘一次checkpoint,但是checkpoint開(kāi)始后系統(tǒng)直接卡死,at-lease-once 一分鐘能完成的checkpoint, 現(xiàn)在十分鐘無(wú)法完成沒(méi)進(jìn)度還是0, 不知道哪里卡住了
123、flink的狀態(tài)是默認(rèn)存在于內(nèi)存的(也可以設(shè)置為rocksdb或hdfs),而checkpoint里面是定時(shí)存放某個(gè)時(shí)刻的狀態(tài)信息,可以設(shè)置hdfs或rocksdb是這樣理解的嗎?
124、Flink異步IO中,下圖這兩種有什么區(qū)別?為啥要加 CompletableFuture.supplyAsync,不太明白?
125、flink的狀態(tài)是默認(rèn)存在于內(nèi)存的(也可以設(shè)置為rocksdb或hdfs),而checkpoint里面是定時(shí)存放某個(gè)時(shí)刻的狀態(tài)信息,可以設(shè)置hdfs或rocksdb是這樣理解的嗎?
126、有個(gè)計(jì)算場(chǎng)景,從kafka消費(fèi)兩個(gè)數(shù)據(jù)源,兩個(gè)數(shù)據(jù)結(jié)構(gòu)都有時(shí)間段概念,計(jì)算需要做的是匹配兩個(gè)時(shí)間段,匹配到了,就生成一條新的記錄。請(qǐng)問(wèn)使用哪個(gè)工具更合適,flink table還是cep?請(qǐng)大神指點(diǎn)一下 我這邊之前的做法,將兩個(gè)數(shù)據(jù)流轉(zhuǎn)為table.兩個(gè)table over window后join成新的表。結(jié)果job跑一會(huì)就oom.
127、一個(gè)互聯(lián)網(wǎng)公司,或者一個(gè)業(yè)務(wù)系統(tǒng),如果想做一個(gè)全面的監(jiān)控要怎么做?有什么成熟的方案可以參考交流嗎?有什么有什么度量指標(biāo)嗎?
128、怎么深入學(xué)習(xí)flink,或者其他大數(shù)據(jù)組件,能為未來(lái)秋招找一份大數(shù)據(jù)相關(guān)(計(jì)算方向)的工作增加自己的競(jìng)爭(zhēng)力?
129、oppo的實(shí)時(shí)數(shù)倉(cāng),其中明細(xì)層和匯總層都在kafka中,他們的關(guān)系庫(kù)的實(shí)時(shí)數(shù)據(jù)也抽取到kafka的ods,那么在構(gòu)建數(shù)倉(cāng)的,需要join 三四個(gè)大業(yè)務(wù)表,業(yè)務(wù)表會(huì)變化,那么是大的業(yè)務(wù)表是從kafka的ods讀取嗎?實(shí)時(shí)數(shù)倉(cāng),多個(gè)大表join可以嗎
130、Tuple類(lèi)型有什么方法轉(zhuǎn)換成json字符串嗎?現(xiàn)在的場(chǎng)景是,結(jié)果在存儲(chǔ)到sink中時(shí)希望存的是json字符串,這樣應(yīng)用程序獲取數(shù)據(jù)比較好轉(zhuǎn)換一點(diǎn)。如果Tuple不好轉(zhuǎn)換json字符串,那么應(yīng)該以什么數(shù)據(jù)格式存儲(chǔ)到sink中
140、端到端的數(shù)據(jù)保證,是否意味著中間處理程序中斷,也不會(huì)造成該批次處理失敗的消息丟失,處理程序重新啟動(dòng)之后,會(huì)再次處理上次未處理的消息
141、關(guān)于flink datastream window相關(guān)的。比如我現(xiàn)在使用滾動(dòng)窗口,統(tǒng)計(jì)一周內(nèi)去重用戶(hù)指標(biāo),按照正常watermark觸發(fā)計(jì)算,需要等到當(dāng)前周的window到達(dá)window的endtime時(shí),才會(huì)觸發(fā),這樣指標(biāo)一周后才能產(chǎn)出結(jié)果。我能不能實(shí)現(xiàn)一小時(shí)觸發(fā)一次計(jì)算,每次統(tǒng)計(jì)截止到當(dāng)前時(shí)間,window中所有到達(dá)元素的去重?cái)?shù)量。
142、FLIP-16 Loop Fault Tolerance 是講現(xiàn)在的checkpoint機(jī)制無(wú)法在stream loop的時(shí)候容錯(cuò)嗎?現(xiàn)在這個(gè)問(wèn)題解決了沒(méi)有呀?
143、現(xiàn)在的需求是,統(tǒng)計(jì)各個(gè)key的今日累計(jì)值,一分鐘輸出一次。如,各個(gè)用戶(hù)今日累計(jì)點(diǎn)擊次數(shù)。這種需求用datastream還是table API方便點(diǎn)?
144、本地idea可以跑的工程,放在standalone集群上,總報(bào)錯(cuò),報(bào)錯(cuò)截圖如下,大佬請(qǐng)問(wèn)這是啥原因
145、比如現(xiàn)在用k8s起了一個(gè)flink集群,這時(shí)候數(shù)據(jù)源kafka或者h(yuǎn)dfs會(huì)在同一個(gè)集群上嗎,還是會(huì)多帶帶再起一個(gè)hdfs/kafka集群
146、flink kafka sink 的FlinkFixedPartitioner 分配策略,在并行度小于topic的partitions時(shí),一個(gè)并行實(shí)例固定的寫(xiě)消息到固定的一個(gè)partition,那么就有一些partition沒(méi)數(shù)據(jù)寫(xiě)進(jìn)去?
147、[基于事件時(shí)間,每五分鐘一個(gè)窗口,五秒鐘滑動(dòng)一次,同時(shí)watermark的時(shí)間同樣是基于事件事件時(shí)間的,延遲設(shè)為1分鐘,假如數(shù)據(jù)流從12:00開(kāi)始,如果12:07-12:09期間沒(méi)有產(chǎn)生任何一條數(shù)據(jù),即在12:07-12:09這段間的數(shù)據(jù)流情況為···· (12:07:00,xxx),(12:09:00,xxx)······,那么窗口[12:02:05-12:07:05],[12:02:10-12:07:10]等幾個(gè)窗口的計(jì)算是否意味著只有等到,12:09:00的數(shù)據(jù)到達(dá)之后才會(huì)觸發(fā)](https://t.zsxq.com/fmq3fYF)
148、使用flink1.7,當(dāng)消費(fèi)到某條消息(protobuf格式),報(bào)Caused by: org.apache.kafka.common.KafkaException: Record batch for partition Notify-18 at offset 1803009 is invalid, cause: Record is corrupt 這個(gè)異常。 如何設(shè)置跳過(guò)已損壞的消息繼續(xù)消費(fèi)下一條來(lái)保證業(yè)務(wù)不終斷? 我看了官網(wǎng)kafka connectors那里,說(shuō)在DeserializationSchema.deserialize(...)方法中返回null,flink就會(huì)跳過(guò)這條消息,然而依舊報(bào)這個(gè)異常
149、是否可以抽空總結(jié)一篇Flink 的 watermark 的原理案例?一直沒(méi)搞明白基于事件時(shí)間處理時(shí)的數(shù)據(jù)亂序和數(shù)據(jù)遲到底咋回事
150、flink中rpc通信的原理,與幾個(gè)類(lèi)的講解,有沒(méi)有系統(tǒng)詳細(xì)的文章樣,如有求分享,謝謝
151、Flink中如何使用基于事件時(shí)間處理,但是又不使用Watermarks? 我在會(huì)話窗口中使用遇到一些問(wèn)題,圖一是基于處理時(shí)間的,測(cè)試結(jié)果session是基于keyby(用戶(hù))的,圖二是基于事件時(shí)間的,不知道是我用法不對(duì)還是怎么的,測(cè)試結(jié)果發(fā)現(xiàn)并不是基于keyby(用戶(hù)的),而是全局的session。不知道怎么修改?
152、flink實(shí)時(shí)計(jì)算平臺(tái),yarn模式日志收集怎么做,為什么會(huì)checkpoint失敗,報(bào)警處理,后需要做什么嗎?job監(jiān)控怎么做
153、有flink與jstorm的在不同應(yīng)用場(chǎng)景下, 性能比較的數(shù)據(jù)嗎? 從網(wǎng)絡(luò)上能找大部分都是flink與storm的比較. 在jstorm官網(wǎng)上有一份比較的圖表, 感覺(jué)參考意義不大, 應(yīng)該是比較早的flink版本.
154、為什么使用SessionWindows.withGap窗口的話,State存不了東西呀,每次加1 ,拿出來(lái)都是null, 我換成 TimeWindow就沒(méi)問(wèn)題。
155、請(qǐng)問(wèn)一下,flink datastream流處理怎么統(tǒng)計(jì)去重指標(biāo)? 官方文檔中只看到批處理有distinct概念。
156、好全的一篇文章,對(duì)比分析 Flink,Spark Streaming,Storm 框架
157、關(guān)于 structured_streaming 的 paper
158、zookeeper集群切換領(lǐng)導(dǎo)了,flink集群項(xiàng)目重啟了就沒(méi)有數(shù)據(jù)的輸入和輸出了,這個(gè)該從哪方面入手解決?
159、我想請(qǐng)教下datastream怎么和靜態(tài)數(shù)據(jù)join呢
160、時(shí)鐘問(wèn)題導(dǎo)致收到了明天的數(shù)據(jù),這時(shí)候有什么比較好的處理方法?看到有人設(shè)置一個(gè)最大的跳躍閾值,如果當(dāng)前數(shù)據(jù)時(shí)間 - 歷史最大時(shí)間 超過(guò)閾值就不更新。如何合理的設(shè)計(jì)水印,有沒(méi)有一些經(jīng)驗(yàn)?zāi)兀?/p>
161、大佬們flink怎么定時(shí)查詢(xún)數(shù)據(jù)庫(kù)?
162、現(xiàn)在我們公司有個(gè)想法,就是提供一個(gè)頁(yè)面,在頁(yè)面上選擇source sink 填寫(xiě)上sql語(yǔ)句,然后后臺(tái)生成一個(gè)flink的作業(yè),然后提交到集群。功能有點(diǎn)類(lèi)似于華為的數(shù)據(jù)中臺(tái),就是頁(yè)面傻瓜式操作。后臺(tái)能自動(dòng)根據(jù)相應(yīng)配置得到結(jié)果。請(qǐng)問(wèn)拘你的了解,可以實(shí)現(xiàn)嗎?如何實(shí)現(xiàn)?有什么好的思路。現(xiàn)在我無(wú)從下手
163、請(qǐng)教一下 flink on yarn 的 ha機(jī)制
164、在一般的流處理以及cep, 都可以對(duì)于eventtime設(shè)置watermark, 有時(shí)可能需要設(shè)置相對(duì)大一點(diǎn)的值, 這內(nèi)存壓力就比較大, 有沒(méi)有辦法不應(yīng)用jvm中的內(nèi)存, 而用堆外內(nèi)存, 或者其他緩存, 最好有cache機(jī)制, 這樣可以應(yīng)對(duì)大流量的峰值.
165、請(qǐng)教一個(gè)flink sql的問(wèn)題。我有兩個(gè)聚合后的流表A和B,A和Bjoin得到C表。在設(shè)置state TTL 的時(shí)候是直接對(duì)C表設(shè)置還是,對(duì)A表和B表設(shè)置比較好?
166、spark改寫(xiě)為flink,會(huì)不會(huì)很復(fù)雜,還有這兩者在SQL方面的支持差別大嗎?
167、請(qǐng)問(wèn)flink allowedLateness導(dǎo)致窗口被多次fire,最終數(shù)據(jù)重復(fù)消費(fèi),這種問(wèn)題怎么處理,數(shù)據(jù)是寫(xiě)到es中
168、設(shè)置taskmanager.numberOfTaskSlots: 4的時(shí)候沒(méi)有問(wèn)題,但是cpu沒(méi)有壓上去,只用了30%左右,于是設(shè)置了taskmanager.numberOfTaskSlots: 8,但是就報(bào)錯(cuò)誤找不到其中一個(gè)自定義的類(lèi),然后kafka數(shù)據(jù)就不消費(fèi)了。為什么?cpu到多少合適?slot是不是和cpu數(shù)量一致是最佳配置?kafka分區(qū)數(shù)多少合適,是不是和slot,parallesim一致最佳?
169、需求是根據(jù)每條日志切分出需要9個(gè)字段,有五個(gè)指標(biāo)再根據(jù)9個(gè)字段的不同組合去做計(jì)算。 第一個(gè)方法是:我目前做法是切分的9個(gè)字段開(kāi)5分鐘大小1分鐘計(jì)算一次的滑動(dòng)窗口窗口,進(jìn)行一次reduce去重,然后再map取出需要的字段,然后過(guò)濾再開(kāi)5分鐘大小1分鐘計(jì)算一次的滑動(dòng)窗口窗口進(jìn)行計(jì)算保存結(jié)果,這個(gè)思路遇到的問(wèn)題是上一個(gè)滑動(dòng)窗口會(huì)每一分鐘會(huì)計(jì)算5分鐘數(shù)據(jù),到第二個(gè)窗口劃定的5分鐘范圍的數(shù)據(jù)會(huì)有好多重復(fù),這個(gè)思路會(huì)造成數(shù)據(jù)重復(fù)。 第二個(gè)方法是:切分的9個(gè)字段開(kāi)5分鐘大小1分鐘計(jì)算一次的滑動(dòng)窗口窗口,再pross方法里完成所有的過(guò)濾,聚合計(jì)算,但是再高峰期每分鐘400萬(wàn)條數(shù)據(jù),這個(gè)思路擔(dān)心在高峰期flink計(jì)算不過(guò)來(lái)
170、a,b,c三個(gè)表,a和c有eventtime,a和c直接join可以,a和b join后再和c join 就會(huì)報(bào)錯(cuò),這是怎么回事呢
171、自定義的source是這樣的(圖一所示) 使用的時(shí)候是這樣的(圖二所示),為什么無(wú)論 sum.print().setParallelism(2)(圖2所示)的并行度設(shè)置成幾最后結(jié)果都是這樣的
172、剛接觸flink,如有問(wèn)的不合適的地方,請(qǐng)見(jiàn)諒。 1、為什么說(shuō)flink是有狀態(tài)的計(jì)算? 2、這個(gè)狀態(tài)是什么?3、狀態(tài)存在哪里
173、這邊用flink 1.8.1的版本,采用flink on yarn,hadoop版本2.6.0。代碼是一個(gè)簡(jiǎn)單的滾動(dòng)窗口統(tǒng)計(jì)函數(shù),但啟動(dòng)的時(shí)候報(bào)錯(cuò),如下圖片。 (2)然后我把flink版本換成1.7.1,重新提交到2.6.0的yarn平臺(tái),就能正常運(yùn)行了。 (3)我們測(cè)試集群hadoop版本是3.0,我用flink 1.8.1版本將這個(gè)程序再次打包,提交到3.0版本的yarn平臺(tái),也能正常運(yùn)行。 貌似是flink 1.8.1版本與yarn 2.6.0版本不兼容造成的這個(gè)問(wèn)題
174、StateBackend我使用的是MemoryStateBackend, State是怎么釋放內(nèi)存的,例如我在函數(shù)中用ValueState存儲(chǔ)了歷史狀態(tài)信息。但是歷史狀態(tài)數(shù)據(jù)我沒(méi)有手動(dòng)釋放,那么程序會(huì)自動(dòng)釋放么?還是一直駐留在內(nèi)存中
175、請(qǐng)問(wèn)老師是否可以提供一些Apachebeam的學(xué)習(xí)資料 謝謝
176、flink 的 DataSet或者DataStream支持索引查詢(xún)以及刪除嗎,像spark rdd,如果不支持的話,該轉(zhuǎn)換成什么
177、關(guān)于flink的狀態(tài),能否把它當(dāng)做數(shù)據(jù)庫(kù)使用,類(lèi)似于內(nèi)存數(shù)據(jù)庫(kù),在處理過(guò)程中存業(yè)務(wù)數(shù)據(jù)。如果是數(shù)據(jù)庫(kù)可以算是分布式數(shù)據(jù)庫(kù)嗎?是不是使用rocksdb這種存儲(chǔ)方式才算是?支持的單庫(kù)大小是不是只是跟本地機(jī)器的磁盤(pán)大小相關(guān)?如果使用硬盤(pán)存儲(chǔ)會(huì)不會(huì)效率性能有影響
178、我這邊做了個(gè)http sink,想要批量發(fā)送數(shù)據(jù),不過(guò)現(xiàn)在只能用數(shù)量控制發(fā)送,但最后的幾個(gè)記錄沒(méi)法觸發(fā)發(fā)送動(dòng)作,想問(wèn)下有沒(méi)有什么辦法
179、請(qǐng)問(wèn)下如何做定時(shí)去重計(jì)數(shù),就是根據(jù)時(shí)間分窗口,窗口內(nèi)根據(jù)id去重計(jì)數(shù)得出結(jié)果,多謝。試了不少辦法,沒(méi)有簡(jiǎn)單直接辦法
180、我有個(gè)job使用了elastic search sink. 設(shè)置了批量5000一寫(xiě)入,但是看es監(jiān)控顯示每秒只能插入500條。是不是bulkprocessor的currentrequest為0有關(guān)
181、有docker部署flink的資料嗎
182、在說(shuō)明KeyBy的StreamGraph執(zhí)行過(guò)程時(shí),keyBy的ID為啥是6? 根據(jù)前面說(shuō),ID是一個(gè)靜態(tài)變量,每取一次就遞增1,我覺(jué)得應(yīng)該是3啊,是我理解錯(cuò)了嗎
183、有沒(méi)計(jì)劃出Execution Graph的遠(yuǎn)碼解析
184、可以分享下物理執(zhí)行圖怎樣劃分task,以及task如何執(zhí)行,還有他們之間數(shù)據(jù)如何傳遞這塊代碼嘛?
185、Flink源碼和這個(gè)學(xué)習(xí)項(xiàng)目的結(jié)構(gòu)圖
186、請(qǐng)問(wèn)flink1.8,如何做到動(dòng)態(tài)加載外部udf-jar包呢?
187、同一個(gè)Task Manager中不同的Slot是怎么交互的,比如:source處理完要傳遞給map的時(shí)候,如果在不同的Slot中,他們的內(nèi)存是相互隔離,是怎么交互的呢? 我猜是通過(guò)序列化和反序列化對(duì)象,并且通過(guò)網(wǎng)絡(luò)來(lái)進(jìn)行交互的
188、你們有沒(méi)有這種業(yè)務(wù)場(chǎng)景。flink從kafka里面取數(shù)據(jù),每一條數(shù)據(jù)里面有mongdb表A的id,這時(shí)我會(huì)在map的時(shí)候采用flink的異步IO連接A表,然后查詢(xún)出A表的字段1,再根據(jù)該字段1又需要異步IO去B表查詢(xún)字段2,然后又根據(jù)字段2去C表查詢(xún)字段3.....像這樣的業(yè)務(wù)場(chǎng)景,如果多來(lái)幾種邏輯,我應(yīng)該用什么方案最好呢
189、今天本地運(yùn)行flink程序,消費(fèi)socket中的數(shù)據(jù),連續(xù)只能消費(fèi)兩條,第三條flink就消費(fèi)不了了
190、源數(shù)據(jù)經(jīng)過(guò)過(guò)濾后分成了兩條流,然后再分別提取事件時(shí)間和水印,做時(shí)間窗口,我測(cè)試時(shí)一條流沒(méi)有數(shù)據(jù),另一條的數(shù)據(jù)看日志到了窗口操作那邊就沒(méi)走下去,貌似窗口一直沒(méi)有等到觸發(fā)
191、有做flink cep的嗎,有資料沒(méi)?
192、麻煩問(wèn)一下 BucketingSink跨集群寫(xiě),如果任務(wù)運(yùn)行在hadoop A集群,從kafka讀取數(shù)據(jù)處理后寫(xiě)到Hadoo B集群,即使把core-site.xml和hdfs-site.xml拷貝到代碼resources下,路徑使用hdfs://hadoopB/xxx,會(huì)提示ava.lang.RuntimeException: Error while creating FileSystem when initializing the state of the BucketingSink.,跨集群寫(xiě)這個(gè)問(wèn)題 flink不支持嗎?
193、想咨詢(xún)下,如何對(duì)flink中的datastream和dataset進(jìn)行數(shù)據(jù)采樣
194、一個(gè)flink作業(yè)經(jīng)常發(fā)生oom,可能是什么原因?qū)е碌摹? 處理流程只有15+字段的解析,redis數(shù)據(jù)讀取等操作,TM配置10g。 業(yè)務(wù)會(huì)在夜間刷數(shù)據(jù),qps能打到2500左右~
195、我看到flink 1.8的狀態(tài)過(guò)期僅支持Processing Time,那么如果我使用的是Event time那么狀態(tài)就不會(huì)過(guò)期嗎
196、請(qǐng)問(wèn)我想每隔一小時(shí)統(tǒng)計(jì)一個(gè)屬性從當(dāng)天零點(diǎn)到當(dāng)前時(shí)間的平均值,這樣的時(shí)間窗該如何定義?
197、flink任務(wù)里面反序列化一個(gè)類(lèi),報(bào)ClassNotFoundException,可是包里面是有這個(gè)類(lèi)的,有遇到這種情況嗎?
198、在構(gòu)造StreamGraph,類(lèi)似PartitionTransformmation 這種類(lèi)型的 transform,為什么要添加成一個(gè)虛擬節(jié)點(diǎn),而不是一個(gè)實(shí)際的物理節(jié)點(diǎn)呢?
199、flink消費(fèi)kafka的數(shù)據(jù)寫(xiě)入到hdfs中,我采用了BucketingSink 這個(gè)sink將operator出來(lái)的數(shù)據(jù)寫(xiě)入到hdfs文件上,并通過(guò)在hive中建外部表來(lái)查詢(xún)這個(gè)。但現(xiàn)在有個(gè)問(wèn)題,處于in-progress的文件,hive是無(wú)法識(shí)別出來(lái)該文件中的數(shù)據(jù),可我想能在hive中實(shí)時(shí)查詢(xún)進(jìn)來(lái)的數(shù)據(jù),且不想產(chǎn)生很多的小文件,這個(gè)該如何處理呢
200、采用Flink單機(jī)集群模式一個(gè)jobmanager和兩個(gè)taskmanager,機(jī)器是單機(jī)是24核,現(xiàn)在做個(gè)簡(jiǎn)單的功能從kafka的一個(gè)topic轉(zhuǎn)滿(mǎn)足條件的消息到另一個(gè)topic,topic的分區(qū)是30,我設(shè)置了程序默認(rèn)并發(fā)為30,現(xiàn)在每秒消費(fèi)2w多數(shù)據(jù),不夠快,請(qǐng)問(wèn)可以怎么提高job的性能呢?
201、Flink Metric 源碼分析
等等等,還有很多,復(fù)制粘貼的我手累啊
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/75583.html
摘要:模塊中的類(lèi)結(jié)構(gòu)如下博客從到學(xué)習(xí)介紹從到學(xué)習(xí)上搭建環(huán)境并構(gòu)建運(yùn)行簡(jiǎn)單程序入門(mén)從到學(xué)習(xí)配置文件詳解從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)轉(zhuǎn)換從到學(xué)習(xí)介紹中的從到學(xué)習(xí)中的幾種詳解從到學(xué)習(xí)讀取數(shù)據(jù)寫(xiě)入到從到學(xué) Flink-Client 模塊中的類(lèi)結(jié)構(gòu)如下: https://t.zsxq.com/IMzNZjY showImg(https://segmentfau...
摘要:模塊中的類(lèi)結(jié)構(gòu)如下博客從到學(xué)習(xí)介紹從到學(xué)習(xí)上搭建環(huán)境并構(gòu)建運(yùn)行簡(jiǎn)單程序入門(mén)從到學(xué)習(xí)配置文件詳解從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)轉(zhuǎn)換從到學(xué)習(xí)介紹中的從到學(xué)習(xí)中的幾種詳解從到學(xué)習(xí)讀取數(shù)據(jù)寫(xiě)入到從到學(xué) Flink-Annotations 模塊中的類(lèi)結(jié)構(gòu)如下: https://t.zsxq.com/f6eAu3J showImg(https://segme...
摘要:博客從到學(xué)習(xí)介紹從到學(xué)習(xí)上搭建環(huán)境并構(gòu)建運(yùn)行簡(jiǎn)單程序入門(mén)從到學(xué)習(xí)配置文件詳解從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)轉(zhuǎn)換從到學(xué)習(xí)介紹中的從到學(xué)習(xí)中的幾種詳解從到學(xué)習(xí)讀取數(shù)據(jù)寫(xiě)入到從到學(xué)習(xí)項(xiàng)目如何運(yùn)行從到學(xué) https://t.zsxq.com/UnA2jIi 博客 1、Flink 從0到1學(xué)習(xí) —— Apache Flink 介紹 2、Flink 從0到1學(xué)...
摘要:博客從到學(xué)習(xí)介紹從到學(xué)習(xí)上搭建環(huán)境并構(gòu)建運(yùn)行簡(jiǎn)單程序入門(mén)從到學(xué)習(xí)配置文件詳解從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)轉(zhuǎn)換從到學(xué)習(xí)介紹中的從到學(xué)習(xí)中的幾種詳解從到學(xué)習(xí)讀取數(shù)據(jù)寫(xiě)入到從到學(xué)習(xí)項(xiàng)目如何運(yùn)行從到學(xué) JobGraph https://t.zsxq.com/naaMf6y 博客 1、Flink 從0到1學(xué)習(xí) —— Apache Flink 介紹 2、Fl...
摘要:處理博客從到學(xué)習(xí)介紹從到學(xué)習(xí)上搭建環(huán)境并構(gòu)建運(yùn)行簡(jiǎn)單程序入門(mén)從到學(xué)習(xí)配置文件詳解從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)介紹從到學(xué)習(xí)如何自定義從到學(xué)習(xí)轉(zhuǎn)換從到學(xué)習(xí)介紹中的從到學(xué)習(xí)中的幾種詳解從到學(xué)習(xí)讀取數(shù)據(jù)寫(xiě)入到從到學(xué)習(xí)項(xiàng)目如何運(yùn)行從 JobManager 處理 SubmitJobhttps://t.zsxq.com/3JQJMzZ 博客 1、Flink 從0到1學(xué)習(xí) —— Apache...
閱讀 1709·2021-11-02 14:47
閱讀 3657·2019-08-30 15:44
閱讀 1345·2019-08-29 16:42
閱讀 1740·2019-08-26 13:53
閱讀 943·2019-08-26 10:41
閱讀 3472·2019-08-23 17:10
閱讀 613·2019-08-23 14:24
閱讀 1725·2019-08-23 11:59