摘要:摘要北京云棲大會上阿里云發(fā)布了最新的功能,萬眾期待的功能終于支持啦,我怎么能不一試為快,今天就分享如何通過進行開發(fā)。注冊函數(shù)在腳本中編輯試用好了,一個簡單完整的通過開發(fā)實踐分享完成。
摘要: 2017/12/20 北京云棲大會上阿里云MaxCompute發(fā)布了最新的功能Python UDF,萬眾期待的功能終于支持啦,我怎么能不一試為快,今天就分享如何通過Studio進行Python udf開發(fā)。
點此查看原文:http://click.aliyun.com/m/40729/
2017/12/20 北京云棲大會上阿里云MaxCompute發(fā)布了最新的功能Python UDF,萬眾期待的功能終于支持啦,我怎么能不一試為快,今天就分享如何通過Studio進行Python udf開發(fā)。
前置條件
了解到,雖然功能發(fā)布,不過還在公測階段,如果想要使用,還得申請開通:https://page.aliyun.com/form/...。這里我就不介紹申請開通具體流程了。
環(huán)境準(zhǔn)備
MaxCompute Studio支持Python UDF開發(fā),前提需要安裝python, pyodps和idea的python插件。
1.安裝Python:可以Google或者百度搜索下如何安裝。
2.安裝pyodps:可以參考python sdk文檔的安裝步驟。即,在 Python 2.6 以上(包括 Python 3),系統(tǒng)安裝 pip 后,只需運行下 pip install pyodps,PyODPS 的相關(guān)依賴便會自動安裝。
3.Intellij IDEA中安裝Python插件。搜索Python Community Edition插件并安裝
配置studio module對python的依賴。
File -> Project structure,添加python sdk:
File -> Project structure,添加python facets:
File -> Project structure,配置module依賴python facets:
開發(fā)Python UDF
環(huán)境都準(zhǔn)備好后,既可在對應(yīng)依賴的module里創(chuàng)建進行python udf開發(fā)。
新建python腳本。
右鍵 new | MaxCompute Python,彈框里輸入腳本名稱,選擇類型為python udf:
生成的模板已自動填充框架代碼,只需要編寫UDF的入?yún)⒊鰠ⅲ约昂瘮?shù)邏輯:
本地調(diào)試
代碼開發(fā)好后,可以在Studio中進行本地調(diào)試。Studio支持下載表的部分sample數(shù)據(jù)到本地運行,進行debug,步驟如下:
右鍵python udf類,點擊”運行”菜單,彈出run configuration對話框。UDF|UDAF|UDTF一般作用于select子句中表的某些列,此處需配置MaxCompute project,table和column(元數(shù)據(jù)來源于project explorer窗口和warehouse下的example項目):
點擊OK后,通過tunnel自動下載指定表的sample數(shù)據(jù)到本地warehouse目錄(若之前已下載過,則不會再次重復(fù)下載,否則利用tunnel服務(wù)下載數(shù)據(jù)。默認(rèn)下載100條,如需更多數(shù)據(jù)測試,可自行使用console的tunnel命令或者studio的表下載功能)。下載完成后,可以在warehouse目錄看到下載的sample數(shù)據(jù)。這里用戶也可以使用warehouse里的數(shù)據(jù)進行調(diào)試,具體可參考java udf開發(fā)中的關(guān)于本地運行的warehouse目錄”部分)。
然后本地運行框架會根據(jù)指定的列,獲取data文件里指定列的數(shù)據(jù),調(diào)用UDF本地運行。
注冊發(fā)布Python UDF
代碼調(diào)試好后,將python腳本添加為MaxCompute的Resource:
注意此處選擇的MaxCompute project必須是已經(jīng)申請開通python udf的project。
注冊python 函數(shù):
在sql腳本中編輯MaxCompute sql試用python udf:
好了,一個簡單完整的python UDF通過Studio開發(fā)實踐分享完成。
更多python UDF可以參考其他文章:
北京云棲大會MaxCompute又出大招,Python UDF搶先體驗!
Python on MaxCompute之UDF操作命令行
Python實現(xiàn)MaxCompute UDF/UDAF/UDTF
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/41276.html
摘要:中使用首先,我們需要寫一個文件,假設(shè)我們就是把某一列按格式放的一列轉(zhuǎn)成格式。這里我們指定了函數(shù)名叫,主類使我們上傳的文件里的類。現(xiàn)在我們就可以在中調(diào)用這個了。這樣我們就完成了在中使用的整個過程。 摘要: PyODPS 中使用 Python UDF 包含兩方面,一個是直接使用,也就是在 MaxCompute SQL 中使用;一個是間接的方式,也就是 PyODPS DataFrame,這種...
摘要:中使用首先,我們需要寫一個文件,假設(shè)我們就是把某一列按格式放的一列轉(zhuǎn)成格式。這里我們指定了函數(shù)名叫,主類使我們上傳的文件里的類。現(xiàn)在我們就可以在中調(diào)用這個了。這樣我們就完成了在中使用的整個過程。 摘要: PyODPS 中使用 Python UDF 包含兩方面,一個是直接使用,也就是在 MaxCompute SQL 中使用;一個是間接的方式,也就是 PyODPS DataFrame,這種...
摘要:摘要支持用來對對象進行操作,它提供了來用類似的接口進行大規(guī)模數(shù)據(jù)分析以及預(yù)處理,并且可以用模塊來執(zhí)行機器學(xué)習(xí)算法。現(xiàn)在為了讓大家能更好地使用,我們總結(jié)開發(fā)過程中的最佳實踐,來讓大家更高效地開發(fā)程序。 摘要: PyODPS支持用 Python 來對 MaxCompute 對象進行操作,它提供了 DataFrame API 來用類似 pandas 的接口進行大規(guī)模數(shù)據(jù)分析以及預(yù)處理,并且可...
摘要:編寫完成后,將代碼保存為,并在中執(zhí)行此后創(chuàng)建函數(shù)。執(zhí)行創(chuàng)建后,便可以在中執(zhí)行查詢暫不支持,因而需禁用其他如果包依賴了其他包,需要一并上傳并同時加入到依賴中。 摘要: 新版 MaxCompute Isolation Session 支持 Python UDF。也就是說,Python UDF 中已經(jīng)可以跑二進制包。剛才以 Scipy 為例踩了一下坑,把相關(guān)的過程分享出來。 新版 MaxCo...
閱讀 2894·2021-11-24 09:38
閱讀 3517·2021-11-23 09:51
閱讀 986·2021-09-09 11:52
閱讀 4038·2021-08-11 11:18
閱讀 1115·2019-08-30 14:05
閱讀 3235·2019-08-30 11:23
閱讀 1772·2019-08-29 17:02
閱讀 1132·2019-08-26 13:49