国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

[原]數據科學教程:如何使用Airflow調度數據科學工作流

v1 / 2523人閱讀

摘要:概述是一個我們正在用的工作流調度器,相對于傳統的任務管理,很好的為我們理清了復雜的任務依賴關系監控任務執行的情況。步驟三修改默認數據庫找到配置文件修改配置注意到,之前使用的的方式是行不通的。微信號商業使用請聯系作者。

概述

Airflow 是一個我們正在用的工作流調度器,相對于傳統的crontab任務管理,Airflow很好的為我們理清了復雜的任務依賴關系、監控任務執行的情況。我們喜歡它是因為它寫代碼太容易了,也便于調試、維護和繼承重用,而不是像xml那樣的配置文件用來描述DAG。

通過SQL和HQL的臨時查詢,我們還可以快速生成前端圖表,而且順帶連數據的API接口也都生成了,這幾乎要讓的Web開發工程師失業了。

當然Airflow還支持移動端顯示,只要收藏頁面,我們就可以實現"移動監控"。

功能總覽 1. 任務調度系統:DAGs

強大的任務調度與管理


調度代碼一覽無余

2. 數據剖析

配置 SQL 語句,以及作圖的option

圖表自動生成

API數據自動生成

將當前的圖表地址 http://localhost:8080/admin/airflow/chart?chart_id=2&iteration_no=40
替換成 http://localhost:8080/admin/airflow/chart_data?chart_id=2&iteration_no=40即可返回json數據

如果對 API數據自動生成不夠滿意,還可以輕松地對源代碼自行定制。

3. 監控管理

任務日志

任務監控

調度配置化

4. 權限管理

系統配置

用戶管理

數據源管理

實戰 步驟一:安裝Airflow

如果通過 docker

docker pull airflow

如果通過 pip

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple airflow
步驟二:修改默認路徑

這里如果不修改路徑,默認的配置就是 ~/airflow

臨時修改 AIRFLOW_HOME 環境變量, 這里的 /home/airflow 可以替換成你想要的文件夾目錄

export AIRFLOW_HOME=/home/airflow

永久修改環境變量

echo "export AIRFLOW_HOME=/home/airflow" >> /etc/profile
source /etc/profile

系統默認的配置文件是從 airflow包的configuration.py文件中獲取的,在設置了路徑和airflow.cfg之后,配置將由airflow.cfg所替代。

步驟三:修改默認數據庫

找到配置文件

vi /home/airflow/airflow.cfg

修改sql配置

sql_alchemy_conn = mysql://root:FinanceR@localhost:3306/airflow

注意到,之前使用的 mysql+driver://root:FinanceR@localhost:3306/airflow的方式是行不通的。

初始化服務器的數據庫

airflow initdb
airflow webserver

就可以開啟后臺管理界面,默認訪問localhost:8080即可。

步驟四:修改數據源配置

通過create按鈕,添加相應的參數

步驟五:解決中文字符集顯示問題

注意到 airflow 的所有.py文件都聲明了 utf-8 字符集

# -*- coding: utf-8 -*-

如果需要顯示中文,需要在extra選項中添加
{"charset":"utf8"}的配置

參考資料

Airflow 源碼

解密 Airbnb 的數據流編程神器:Airflow 中的技巧和陷阱

Airflow實戰

Advanced Airflow

CSDN: airflow詳解

Work Flow Management for Big Data: Guide to Airflow

Airflow agari

Agari使用Airbnb的Airflow實現更智能計劃任務的實踐

工作流調研 oozie vs azkaban

Oozie Demo WorkFlow

招聘廣告

mobike 招聘 BI數據產品經理

mobike 招聘 Data Scienctist

mobike 招聘 大數據平臺架構師 Data Architect

更優閱讀體驗可直接訪問原文地址:https://segmentfault.com/a/11...
作為分享主義者(sharism),本人所有互聯網發布的圖文均遵從CC版權,轉載請保留作者信息并注明作者 Harry Zhu 的 FinanceR專欄:https://segmentfault.com/blog...,如果涉及源代碼請注明GitHub地址:https://github.com/harryprince。微信號: harryzhustudio
商業使用請聯系作者。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/38048.html

相關文章

  • [譯] 解密 Airbnb 的數據流編程神器:Airflow 中的技巧和陷阱

    摘要:顯然,這單獨執行不起作用這將通過子操作符被作為像是自己的調度任務中那樣運行。子也必須有個可用調度即使子作為其父的一部分被觸發子也必須有一個調度如果他們的調度是設成,這個子操作符將不會觸發任何任務。這兩個例子都是緣起子操作符被當做了回填工作。 showImg(https://segmentfault.com/img/remote/1460000006768714); 前言 Airbnb的...

    zsy888 評論0 收藏0
  • 數據科學部門如何使用Python和R組合完成任務

    摘要:數據科學項目的完整流程通常是這樣的五步驟需求定義數據獲取數據治理數據分析數據可視化一需求定義需求定義是數據科學項目和數據科學比賽的最大不同之處,在真實情景下,我們往往對目標函數自變量約束條件都并不清晰。 概述 和那些數據科學比賽不同,在真實的數據科學中,我們可能更多的時間不是在做算法的開發,而是對需求的定義和數據的治理。所以,如何更好的結合現實業務,讓數據真正產生價值成了一個更有意義的...

    Apollo 評論0 收藏0
  • [] 深入對比數據科學工具箱:Python 和 R 的異常處理機制

    摘要:對于異常機制的合理運用是直接關系到碼農飯碗的事情所以,本文將具體介紹一下和的異常處理機制,闡明二者在異常處理機制上的異同。下面將具體介紹二者的異常處理機制。 概述 showImg(https://segmentfault.com/img/remote/1460000006760426); 異常處理,是編程語言或計算機硬件里的一種機制,用于處理軟件或信息系統中出現的異常狀況(即超出程序正...

    FreeZinG 評論0 收藏0
  • ApacheCN 學習資源匯總 2019.3

    摘要:主頁暫時下線社區暫時下線知識庫自媒體平臺微博知乎簡書博客園合作侵權,請聯系請抄送一份到特色項目中文文檔和教程與機器學習實用指南人工智能機器學習數據科學比賽系列項目實戰教程文檔代碼視頻數據科學比賽收集平臺,,劍指,經典算法實現系列課本課本描述 【主頁】 apachecn.org 【Github】@ApacheCN 暫時下線: 社區 暫時下線: cwiki 知識庫 自媒體平臺 ...

    array_huang 評論0 收藏0
  • ApacheCN 學習資源匯總 2019.3

    摘要:主頁暫時下線社區暫時下線知識庫自媒體平臺微博知乎簡書博客園合作侵權,請聯系請抄送一份到特色項目中文文檔和教程與機器學習實用指南人工智能機器學習數據科學比賽系列項目實戰教程文檔代碼視頻數據科學比賽收集平臺,,劍指,經典算法實現系列課本課本描述 【主頁】 apachecn.org 【Github】@ApacheCN 暫時下線: 社區 暫時下線: cwiki 知識庫 自媒體平臺 ...

    Prasanta 評論0 收藏0

發表評論

0條評論

v1

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<