摘要:概述是一個我們正在用的工作流調度器,相對于傳統的任務管理,很好的為我們理清了復雜的任務依賴關系監控任務執行的情況。步驟三修改默認數據庫找到配置文件修改配置注意到,之前使用的的方式是行不通的。微信號商業使用請聯系作者。
概述
Airflow 是一個我們正在用的工作流調度器,相對于傳統的crontab任務管理,Airflow很好的為我們理清了復雜的任務依賴關系、監控任務執行的情況。我們喜歡它是因為它寫代碼太容易了,也便于調試、維護和繼承重用,而不是像xml那樣的配置文件用來描述DAG。
通過SQL和HQL的臨時查詢,我們還可以快速生成前端圖表,而且順帶連數據的API接口也都生成了,這幾乎要讓的Web開發工程師失業了。
當然Airflow還支持移動端顯示,只要收藏頁面,我們就可以實現"移動監控"。
功能總覽 1. 任務調度系統:DAGs強大的任務調度與管理
調度代碼一覽無余
2. 數據剖析配置 SQL 語句,以及作圖的option
圖表自動生成
API數據自動生成
將當前的圖表地址 http://localhost:8080/admin/airflow/chart?chart_id=2&iteration_no=40
替換成 http://localhost:8080/admin/airflow/chart_data?chart_id=2&iteration_no=40即可返回json數據
如果對 API數據自動生成不夠滿意,還可以輕松地對源代碼自行定制。
3. 監控管理任務日志
任務監控
調度配置化
4. 權限管理系統配置
用戶管理
數據源管理
實戰 步驟一:安裝Airflow如果通過 docker
docker pull airflow
如果通過 pip
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple airflow步驟二:修改默認路徑
這里如果不修改路徑,默認的配置就是 ~/airflow
臨時修改 AIRFLOW_HOME 環境變量, 這里的 /home/airflow 可以替換成你想要的文件夾目錄
export AIRFLOW_HOME=/home/airflow
永久修改環境變量
echo "export AIRFLOW_HOME=/home/airflow" >> /etc/profile source /etc/profile
系統默認的配置文件是從 airflow包的configuration.py文件中獲取的,在設置了路徑和airflow.cfg之后,配置將由airflow.cfg所替代。
步驟三:修改默認數據庫找到配置文件
vi /home/airflow/airflow.cfg
修改sql配置
sql_alchemy_conn = mysql://root:FinanceR@localhost:3306/airflow
注意到,之前使用的 mysql+driver://root:FinanceR@localhost:3306/airflow的方式是行不通的。
初始化服務器的數據庫
airflow initdb
airflow webserver
就可以開啟后臺管理界面,默認訪問localhost:8080即可。
步驟四:修改數據源配置通過create按鈕,添加相應的參數
步驟五:解決中文字符集顯示問題注意到 airflow 的所有.py文件都聲明了 utf-8 字符集
# -*- coding: utf-8 -*-
如果需要顯示中文,需要在extra選項中添加
{"charset":"utf8"}的配置
Airflow 源碼
解密 Airbnb 的數據流編程神器:Airflow 中的技巧和陷阱
Airflow實戰
Advanced Airflow
CSDN: airflow詳解
Work Flow Management for Big Data: Guide to Airflow
Airflow agari
Agari使用Airbnb的Airflow實現更智能計劃任務的實踐
工作流調研 oozie vs azkaban
Oozie Demo WorkFlow
招聘廣告mobike 招聘 BI數據產品經理
mobike 招聘 Data Scienctist
mobike 招聘 大數據平臺架構師 Data Architect
更優閱讀體驗可直接訪問原文地址:https://segmentfault.com/a/11...
作為分享主義者(sharism),本人所有互聯網發布的圖文均遵從CC版權,轉載請保留作者信息并注明作者 Harry Zhu 的 FinanceR專欄:https://segmentfault.com/blog...,如果涉及源代碼請注明GitHub地址:https://github.com/harryprince。微信號: harryzhustudio
商業使用請聯系作者。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/38048.html
摘要:顯然,這單獨執行不起作用這將通過子操作符被作為像是自己的調度任務中那樣運行。子也必須有個可用調度即使子作為其父的一部分被觸發子也必須有一個調度如果他們的調度是設成,這個子操作符將不會觸發任何任務。這兩個例子都是緣起子操作符被當做了回填工作。 showImg(https://segmentfault.com/img/remote/1460000006768714); 前言 Airbnb的...
摘要:數據科學項目的完整流程通常是這樣的五步驟需求定義數據獲取數據治理數據分析數據可視化一需求定義需求定義是數據科學項目和數據科學比賽的最大不同之處,在真實情景下,我們往往對目標函數自變量約束條件都并不清晰。 概述 和那些數據科學比賽不同,在真實的數據科學中,我們可能更多的時間不是在做算法的開發,而是對需求的定義和數據的治理。所以,如何更好的結合現實業務,讓數據真正產生價值成了一個更有意義的...
摘要:對于異常機制的合理運用是直接關系到碼農飯碗的事情所以,本文將具體介紹一下和的異常處理機制,闡明二者在異常處理機制上的異同。下面將具體介紹二者的異常處理機制。 概述 showImg(https://segmentfault.com/img/remote/1460000006760426); 異常處理,是編程語言或計算機硬件里的一種機制,用于處理軟件或信息系統中出現的異常狀況(即超出程序正...
摘要:主頁暫時下線社區暫時下線知識庫自媒體平臺微博知乎簡書博客園合作侵權,請聯系請抄送一份到特色項目中文文檔和教程與機器學習實用指南人工智能機器學習數據科學比賽系列項目實戰教程文檔代碼視頻數據科學比賽收集平臺,,劍指,經典算法實現系列課本課本描述 【主頁】 apachecn.org 【Github】@ApacheCN 暫時下線: 社區 暫時下線: cwiki 知識庫 自媒體平臺 ...
摘要:主頁暫時下線社區暫時下線知識庫自媒體平臺微博知乎簡書博客園合作侵權,請聯系請抄送一份到特色項目中文文檔和教程與機器學習實用指南人工智能機器學習數據科學比賽系列項目實戰教程文檔代碼視頻數據科學比賽收集平臺,,劍指,經典算法實現系列課本課本描述 【主頁】 apachecn.org 【Github】@ApacheCN 暫時下線: 社區 暫時下線: cwiki 知識庫 自媒體平臺 ...
閱讀 1062·2021-11-22 15:33
閱讀 3374·2021-11-08 13:20
閱讀 1390·2021-09-22 10:55
閱讀 2059·2019-08-29 11:08
閱讀 782·2019-08-26 12:24
閱讀 3078·2019-08-23 17:15
閱讀 2240·2019-08-23 16:12
閱讀 1944·2019-08-23 16:09