国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

Apache Sqoop:云端大數(shù)據(jù)分析的關(guān)鍵一環(huán)

ShevaKuilin / 2444人閱讀

摘要:,類(lèi)似于其他工具,使用元數(shù)據(jù)模型來(lái)判斷數(shù)據(jù)類(lèi)型并在數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)移到時(shí)確保類(lèi)型安全的數(shù)據(jù)處理。默認(rèn)情況下的并行意味著假設(shè)大數(shù)據(jù)是在分區(qū)鍵范圍內(nèi)均勻分布的。直接驅(qū)動(dòng)需要特權(quán)來(lái)讀取類(lèi)似和這樣的元數(shù)據(jù)。

Hadoop正成為企業(yè)用于大數(shù)據(jù)分析的最熱門(mén)選擇,但想將你的數(shù)據(jù)移植過(guò)去并不容易。Apache Sqoop正在加緊幫助客戶(hù)將重要數(shù)據(jù)從數(shù)據(jù)庫(kù)移到Hadoop。

正當(dāng)大數(shù)據(jù)變得越來(lái)越重要,而越來(lái)越多應(yīng)用都在云上部署時(shí),云管理員也面臨了不斷增長(zhǎng)的將數(shù)據(jù)從源系統(tǒng)轉(zhuǎn)移到分析系統(tǒng)——其中最熱門(mén)的就是Hadoop——的需求。ETL工具的自定義腳本在過(guò)去輔助了這種數(shù)據(jù)遷移,現(xiàn)在Apache Sqoop正崛起成為更好的選擇。

隨著Hadoop和關(guān)系型數(shù)據(jù)庫(kù)之間的數(shù)據(jù)移動(dòng)漸漸變成一個(gè)標(biāo)準(zhǔn)的流程,云管理員們能夠利用Sqoop的并行批量數(shù)據(jù)加載能力來(lái)簡(jiǎn)化這一流程,降低編寫(xiě)自定義數(shù)據(jù)加載腳本的需求。

Apache Sqoop是一個(gè)將數(shù)據(jù)在關(guān)系數(shù)據(jù)庫(kù)及Hadoop之間轉(zhuǎn)移的命令行工具。對(duì)于某些NoSQL數(shù)據(jù)庫(kù)它也提供了連接器。Sqoop,類(lèi)似于其他ETL工具,使用元數(shù)據(jù)模型來(lái)判斷數(shù)據(jù)類(lèi)型并在數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)移到Hadoop時(shí)確保類(lèi)型安全的數(shù)據(jù)處理。Sqoop專(zhuān)為大數(shù)據(jù)批量傳輸設(shè)計(jì),能夠分割數(shù)據(jù)集并創(chuàng)建Hadoop任務(wù)來(lái)處理每個(gè)區(qū)塊。

Sqoop有一個(gè)非常小的命令集,里面包括導(dǎo)入和導(dǎo)出,列出數(shù)據(jù)庫(kù)和表信息,生成Java類(lèi)來(lái)操縱數(shù)據(jù),解析SQL命令以及其他一些更專(zhuān)門(mén)的命令。生成Java類(lèi)的命令對(duì)于在Hadoop里編寫(xiě)Java應(yīng)用來(lái)進(jìn)行數(shù)據(jù)操作特別有用。SQL解析命令可以顯示執(zhí)行SQL語(yǔ)句的結(jié)果,這在搜索新數(shù)據(jù)庫(kù)或產(chǎn)生復(fù)雜邏輯的查詢(xún)時(shí)非常有用。

使用Sqoop比自定義腳本有一定的優(yōu)勢(shì)。其一就是,Sqoop被設(shè)計(jì)成具備容錯(cuò)性。你也可以自定義腳本來(lái)監(jiān)控你的工作狀態(tài),然后從故障中恢復(fù),但是那有可能難以置信的耗時(shí)。

使用Sqoop需要注意的地方

盡管有以上的優(yōu)點(diǎn),在使用Sqoop的時(shí)候還有一些事情需要注意。首先,對(duì)于默認(rèn)的并行機(jī)制要小心。默認(rèn)情況下的并行意味著Sqoop假設(shè)大數(shù)據(jù)是在分區(qū)鍵范圍內(nèi)均勻分布的。這在當(dāng)你的源系統(tǒng)是使用一個(gè)序列號(hào)發(fā)生器來(lái)生成主鍵的時(shí)候工作得很好。打個(gè)比方,當(dāng)你有一個(gè)10個(gè)節(jié)點(diǎn)的集群,那么工作負(fù)載是在這10臺(tái)服務(wù)器上平均分配的。但是,如果你的分割鍵是基于字母數(shù)字的,擁有比如以“A”作為開(kāi)頭的鍵值的數(shù)量會(huì)是“M”作為開(kāi)頭鍵值數(shù)量的20倍,那么工作負(fù)載就會(huì)變成從一臺(tái)服務(wù)器傾斜到另一臺(tái)服務(wù)器上。

如果你最擔(dān)心是性能,那么可以研究下直接加載。直接加載繞過(guò)通常的Java數(shù)據(jù)庫(kù)連接導(dǎo)入,使用數(shù)據(jù)庫(kù)本身提供的直接載入工具,比如MySQL的mysqldump。但是有特定數(shù)據(jù)庫(kù)的限制。比如,你不能使用MySQL或者PostgreSQL的連接器來(lái)導(dǎo)入BLOB和CLOB類(lèi)型。也沒(méi)有驅(qū)動(dòng)支持從視圖的導(dǎo)入。Oracle直接驅(qū)動(dòng)需要特權(quán)來(lái)讀取類(lèi)似dba_objects和v_$parameter這樣的元數(shù)據(jù)。請(qǐng)查閱你的數(shù)據(jù)庫(kù)直連驅(qū)動(dòng)程序局限性的相關(guān)文檔。

進(jìn)行增量導(dǎo)入是與效率有關(guān)的更受關(guān)注的問(wèn)題,因?yàn)镾qoop專(zhuān)門(mén)是為大數(shù)據(jù)集設(shè)計(jì)的。Sqoop支持增量更新,將新記錄添加到最近一次的導(dǎo)出的數(shù)據(jù)源上,或者指定上次修改的時(shí)間戳。

由于Sqoop將數(shù)據(jù)移入和移出關(guān)系型數(shù)據(jù)庫(kù)的能力,其對(duì)于Hive—Hadoop生態(tài)系統(tǒng)里的著名的類(lèi)SQL數(shù)據(jù)倉(cāng)庫(kù)—有專(zhuān)門(mén)的支持不足為奇。命令“create-hive-table”可以用來(lái)將數(shù)據(jù)表定義導(dǎo)入到Hive。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/4122.html

相關(guān)文章

  • 數(shù)據(jù)集成工具使用(一)---Sqoop 從理論學(xué)習(xí)到熟練使用

    本期與大家分享的是,小北精心整理的大數(shù)據(jù)學(xué)習(xí)筆記,數(shù)據(jù)采集工具Sqoop 的詳細(xì)介紹,希望對(duì)大家能有幫助,喜歡就給點(diǎn)鼓勵(lì)吧,記得三連哦!歡迎各位大佬評(píng)論區(qū)指教討論! ???制作不易,各位大佬們給點(diǎn)鼓勵(lì)! ???點(diǎn)贊? ? 收藏? ? 關(guān)注? ???歡迎各位大佬指教,一鍵三連走起! 一、理論學(xué)習(xí)篇 1、Sqoop簡(jiǎn)介 ????????在阿帕奇閣樓(The Apache Attic)中,...

    verano 評(píng)論0 收藏0
  • 數(shù)據(jù)框架hadoop服務(wù)角色介紹

    摘要:大數(shù)據(jù)框架服務(wù)角色介紹翻了一下最近一段時(shí)間寫(xiě)的分享,發(fā)行版本下載安裝運(yùn)行環(huán)境部署等相關(guān)內(nèi)容幾乎都已經(jīng)寫(xiě)了一遍了。這些數(shù)據(jù)通常是由于吞吐量的要求而通過(guò)處理日志和日志聚合來(lái)解決。 大數(shù)據(jù)框架hadoop服務(wù)角色介紹翻了一下最近一段時(shí)間寫(xiě)的分享,DKHadoop發(fā)行版本下載、安裝、運(yùn)行環(huán)境部署等相關(guān)內(nèi)容幾乎都已經(jīng)寫(xiě)了一遍了。雖然有的地方可能寫(xiě)的不是很詳細(xì),個(gè)人理解水平有限還請(qǐng)見(jiàn)諒吧!我記得在...

    atinosun 評(píng)論0 收藏0
  • 如何克服云端數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)遷移問(wèn)題?

    摘要:如果我們可以克服一些數(shù)據(jù)遷移的挑戰(zhàn),將一個(gè)數(shù)據(jù)倉(cāng)庫(kù)以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專(zhuān)用服務(wù)器轉(zhuǎn)移到基于云的文件系統(tǒng)和數(shù)據(jù)庫(kù)就可以解決這個(gè)問(wèn)題。數(shù)據(jù)遷移工具輔助向云端遷移從數(shù)據(jù)庫(kù)抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫(kù)中有效挖掘大容量數(shù)據(jù)確是一項(xiàng)挑戰(zhàn)。 云計(jì)算和數(shù)據(jù)倉(cāng)庫(kù)是合理的一對(duì)。云存儲(chǔ)可以按需擴(kuò)展,云可以將大量服務(wù)器貢獻(xiàn)于某一具體任務(wù)。數(shù)據(jù)倉(cāng)庫(kù)通用功能是本地?cái)?shù)據(jù)分析工具,受到計(jì)算和存儲(chǔ) 資源的限制,同時(shí)也...

    sumory 評(píng)論0 收藏0
  • 數(shù)據(jù)遷移工具輔助向云端遷移

    摘要:如果我們可以克服一些數(shù)據(jù)遷移的挑戰(zhàn),將一個(gè)數(shù)據(jù)倉(cāng)庫(kù)以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專(zhuān)用服務(wù)器轉(zhuǎn)移到基于云的文件系統(tǒng)和數(shù)據(jù)庫(kù)就可以解決這個(gè)問(wèn)題。數(shù)據(jù)遷移工具輔助向云端遷移從數(shù)據(jù)庫(kù)抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫(kù)中有效挖掘大容量數(shù)據(jù)確是一項(xiàng)挑戰(zhàn)。 云計(jì)算和數(shù)據(jù)倉(cāng)庫(kù)是合理的一對(duì)。云存儲(chǔ)可以按需擴(kuò)展,云可以將大量服務(wù)器貢獻(xiàn)于某一具體任務(wù)。數(shù)據(jù)倉(cāng)庫(kù)通用功能是本地?cái)?shù)據(jù)分析工具,受到計(jì)算和存儲(chǔ)資源的限制,同時(shí)也受...

    scq000 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<