PyODPS DataFrame：統(tǒng)一的數(shù)據(jù)查詢語言

李義發(fā)布于2019-06-25 18:32 / 1113人閱讀

摘要：而真正的執(zhí)行根據(jù)具體的輸入數(shù)據(jù)，來決定執(zhí)行的后端?？梢钥吹?，就是一個(gè)統(tǒng)一的數(shù)據(jù)查詢語言，用戶不需要改寫一行代碼，就可以根據(jù)輸入讓數(shù)據(jù)在本地和數(shù)據(jù)庫上執(zhí)行，由于框架的靈活性，我們甚至還可以擴(kuò)展出非執(zhí)行后端的支持。

摘要：前幾天，PyODPS發(fā)布了0.7版本，這篇文章給大家介紹下PyODPS新版本帶來的重要特性。之前也有若干篇文章介紹過了，我們PyODPS DataFrame是延遲執(zhí)行的，在調(diào)用立即執(zhí)行的方法，比如execute、persist等之前，都只是構(gòu)建了表達(dá)式。

點(diǎn)此查看原文：http://click.aliyun.com/m/41051/

前幾天，PyODPS發(fā)布了0.7版本，這篇文章給大家介紹下PyODPS新版本帶來的重要特性。

之前也有若干篇文章介紹過了，我們PyODPS DataFrame是延遲執(zhí)行的，在調(diào)用立即執(zhí)行的方法，比如execute、persist等之前，都只是構(gòu)建了表達(dá)式。而真正的執(zhí)行根據(jù)具體的輸入數(shù)據(jù)，來決定執(zhí)行的后端。

比如，我們可以根據(jù)輸入是pandas DataFrame（本地?cái)?shù)據(jù)），還是MaxCompute Table（MaxCompute數(shù)據(jù)）來決定是在本地執(zhí)行，還是在MaxComput上執(zhí)行。

</>復(fù)制代碼 
In [1]: import pandas as pd
In [2]: pd_df = pd.DataFrame({"a": range(3)})
In [3]: from odps.df import DataFrame
In [4]: df = DataFrame(pd_df)  # 本地?cái)?shù)據(jù)
In [5]: df.a.sum()
|==========================================|   1 /  1  (100.00%)         0s
3
In [6]: %load_ext odps
In [7]: %enter
Out[7]: 
In [8]: df = DataFrame(o.get_table("pyodps_iris"))  # MaxCompute數(shù)據(jù)
In [9]: df.sepal_width.sum()
|==========================================|   1 /  1  (100.00%)        15s
458.10000000000014

數(shù)據(jù)庫執(zhí)行

來到了0.7版本，我們的后端武器庫進(jìn)一步擴(kuò)充，現(xiàn)在我們支持Postgresql和MySQL，原則上我們支持所有的主流數(shù)據(jù)庫，但我們只在這兩個(gè)數(shù)據(jù)庫上做了測試。

我們的數(shù)據(jù)庫執(zhí)行后端使用 sqlalchemy 實(shí)現(xiàn)，想要執(zhí)行還需要對(duì)應(yīng)數(shù)據(jù)庫的driver。

現(xiàn)在，如果DataFrame輸入的數(shù)據(jù)是sqlalchemy Table，那么我們就可以使用數(shù)據(jù)庫后端來執(zhí)行。

</>復(fù)制代碼 
In [24]: mysql_engine = sqlalchemy.create_engine("mysql://root:123@localhost/movielens") 
In [25]: metadata = sqlalchemy.MetaData(bind=mysql_engine)   # 需要綁定engine
In [26]: table = sqlalchemy.Table("top_users", metadata, extend_existing=True, autoload=True)
In [27]: top_users = DataFrame(table)
In [28]: top_users.age.sum()
|==========================================|   1 /  1  (100.00%)         0s
763

對(duì)于postgresql也是一樣。 值得注意的是，現(xiàn)在還有部分DataFrame操作，比如自定義函數(shù)尚未支持?jǐn)?shù)據(jù)庫后端 。

可以看到，PyODPS DataFrame就是一個(gè)統(tǒng)一的數(shù)據(jù)查詢語言，用戶不需要改寫一行代碼，就可以根據(jù)輸入讓數(shù)據(jù)在MaxCompute、本地和數(shù)據(jù)庫上執(zhí)行，由于DataFrame框架的靈活性，我們甚至還可以擴(kuò)展出非SQL執(zhí)行后端的支持。

JOIN或者UNION數(shù)據(jù)庫和MaxCompute數(shù)據(jù)

過去一篇文章提到過，我們可以join或者union本地和MaxCompute上的數(shù)據(jù)，這樣的典型場景就是，比如我有個(gè)本地excel文件，我可以輕松讀取成本地DataFrame，然后直接就可以和MaxCompute數(shù)據(jù)進(jìn)行操作，省去了一大堆麻煩的過程。

現(xiàn)在，我們也同樣可以join 數(shù)據(jù)庫和MaxCompute上的數(shù)據(jù)，試想，有一堆用戶數(shù)據(jù)是在數(shù)據(jù)庫中進(jìn)行處理，然后我們無需經(jīng)過同步數(shù)據(jù)等繁瑣的過程，我們就可以直接join 數(shù)據(jù)庫和MaxCompute上的數(shù)據(jù)，這是何其方便的事情。

比如：

</>復(fù)制代碼 
In [29]: ratings = o.get_table("movielens_ratings").to_df()
In [32]: female_top_users = top_users[top_users.sex == "F"]  # MySQL中的數(shù)據(jù)
In [33]: ratings.join(female_top_users).rating.mean()
|==========================================|   1 /  1  (100.00%)        14s
2.9451170298627924

總結(jié)

我們PyODPS一直處在快速迭代的過程中，我們所有所做的努力，都是為了讓大家以更好的體驗(yàn)來進(jìn)行數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。盡管我們很努力，但精力畢竟有限，難免會(huì)有bug，會(huì)有功能不完善。希望大家能給我們提issue，能貢獻(xiàn)代碼就更好啦。

項(xiàng)目文檔：http://pyodps.readthedocs.io
項(xiàng)目地址：https://github.com/aliyun/ali...
提issue：https://github.com/aliyun/ali...

釘釘掃碼：

云服務(wù)器 GPU云服務(wù)器統(tǒng)一建模語言 DataFrame PyODPS 統(tǒng)一發(fā)短信的平臺(tái)國外

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/17667.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

李義

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

【python開發(fā)】1. __init__.py與導(dǎo)包

閱讀 3332·2021-11-25 09:43
性能測試工具-Jmeter使用方法

閱讀 1314·2021-11-23 09:51
Linode：新用戶注冊(cè)送100美元,11個(gè)數(shù)據(jù)中心云服務(wù)器$5/月起

閱讀 3618·2021-10-11 11:06
Adobe Flash Player 34.0.0.184 特別版（2021/08/10發(fā)布）

閱讀 3732·2021-08-31 09:41
前端模塊化規(guī)范

閱讀 3608·2019-08-30 15:53
三欄布局中間自適應(yīng)總結(jié)

閱讀 3519·2019-08-30 15:53
前端小報(bào) - 201903月刊

閱讀 976·2019-08-30 15:43
canvas入門實(shí)戰(zhàn)--邀請(qǐng)卡生成與下載

閱讀 3319·2019-08-29 14:02

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

PyODPS DataFrame：統(tǒng)一的數(shù)據(jù)查詢語言

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！