国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

數(shù)據(jù)遷移工具輔助向云端遷移

scq000 / 3117人閱讀

摘要:如果我們可以克服一些數(shù)據(jù)遷移的挑戰(zhàn),將一個數(shù)據(jù)倉庫以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專用服務器轉移到基于云的文件系統(tǒng)和數(shù)據(jù)庫就可以解決這個問題。數(shù)據(jù)遷移工具輔助向云端遷移從數(shù)據(jù)庫抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫中有效挖掘大容量數(shù)據(jù)確是一項挑戰(zhàn)。

云計算和數(shù)據(jù)倉庫是合理的一對。云存儲可以按需擴展,云可以將大量服務器貢獻于某一具體任務。數(shù)據(jù)倉庫通用功能是本地數(shù)據(jù)分析工具,受到計算和存儲資源的限制,同時也受到設計者考慮新數(shù)據(jù)源集成的能力的限制。如果我們可以克服一些數(shù)據(jù)遷移的挑戰(zhàn),將一個數(shù)據(jù)倉庫以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專用服務器轉移到基于云的文件系統(tǒng)和數(shù)據(jù)庫就可以解決這個問題。

云端數(shù)據(jù)管理通常牽扯到在分布式文件系統(tǒng)中加載和維護文件,像Hadoop分布式文件系統(tǒng)(HDFS),隨后用類似MapReduce這樣的工具處理數(shù)據(jù)。對于數(shù)據(jù)倉庫和其他的分析人物,像Hive這樣的數(shù)據(jù)庫工具在分布式文件系統(tǒng)之上提供了類SQL的功能。

盡管傳統(tǒng)關系型數(shù)據(jù)庫管理系統(tǒng)和云端非關系型數(shù)據(jù)庫之間可以并行描述,但是在兩個片段之間轉移數(shù)據(jù)時,不同的運行方式會導致問題。抽取轉換和加載流程甚至會造成更多挑戰(zhàn)。

數(shù)據(jù)遷移工具輔助向云端遷移

從數(shù)據(jù)庫抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫中有效挖掘大容量數(shù)據(jù)確是一項挑戰(zhàn)。如果由于數(shù)據(jù)量的增長,數(shù)據(jù)倉庫面臨性能或者存儲問題,可能就是時候考慮使用運資源了。下面提供了一些工具來協(xié)助從關系型數(shù)據(jù)庫加載數(shù)據(jù)到云文件系統(tǒng)和數(shù)據(jù)庫。

專業(yè)工具,像Sqoop(SQL-to-Hadoop)生成代碼從關系型數(shù)據(jù)庫抽取數(shù)據(jù),并將其拷貝到HDFS或者Hive。Sqoop使用JDBC驅動,同多種類型的關系型數(shù)據(jù)庫工作,但是通過JDBC推出大量數(shù)據(jù)導致了性能成本。

為了遷移到云端,從關系型數(shù)據(jù)庫抽取數(shù)據(jù)時,你可能需要進行數(shù)據(jù)轉換。如果你所工作的所有數(shù)據(jù)來自于單一數(shù)據(jù)庫,就可以在源數(shù)據(jù)庫中進行轉換。如果從兩個分離的系統(tǒng)合并數(shù)據(jù),在抽取之后再轉移數(shù)據(jù)源更有效。然而,你應該在加載數(shù)據(jù)到最終數(shù)據(jù)存儲庫之前做這些。Cascading數(shù)據(jù)處理API可以協(xié)助這項任務的進行。

Cascading提供了運行在Hadoop之上的功能,像工作流處理計劃和調度。就比如說,它同管道過濾器工作;數(shù)據(jù)應用過濾器通過管道從一個源流到目的源。其他功能像grouping可以應用于數(shù)據(jù)流。Cascading用Java實現(xiàn),在MapReduce工作中調用轉換API。

如果你正在同MySQL共事,Sqoop介意使用MySQL轉儲功能繞離JDBC并更加有效地抽取數(shù)據(jù)。Sqoop也可以生成Java類,這個類可以用于操縱加載數(shù)據(jù)并將其直接導入Hive。HIHO (Hadoop Input and Output)從關系型表抽取數(shù)據(jù)并提供一些基本的轉換服務,像去重以及合并輸入流。

當生成文件在將其加載到HDFS文件系統(tǒng)或者Hive數(shù)據(jù)倉庫之前,要求最小化轉換,你就能直接加載文件了。在確定目標表和分割規(guī)格后,Hive有一個命令來加載數(shù)據(jù)。Pig是數(shù)據(jù)分析程序的一種高水平語言,尤其是和Java中的MapReduce編碼對比的時候。它提供了一種基本的統(tǒng)計函數(shù),你可以在關系型數(shù)據(jù)庫中找到(像minmaxcount),在數(shù)學和字符串處理功能中也能找到。Pig支持架構化和非結構化文本文件的壓縮。

云計算資源補充了數(shù)據(jù)倉庫基礎架構。然而,為將數(shù)據(jù)倉庫轉移到云端的利益較大化,適當結構化數(shù)據(jù)并使用正確的數(shù)據(jù)分析工具很重要。

TechTarget中國原創(chuàng)內容,原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_58751.htm

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/3562.html

相關文章

  • 如何克服云端數(shù)據(jù)倉庫數(shù)據(jù)遷移問題?

    摘要:如果我們可以克服一些數(shù)據(jù)遷移的挑戰(zhàn),將一個數(shù)據(jù)倉庫以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專用服務器轉移到基于云的文件系統(tǒng)和數(shù)據(jù)庫就可以解決這個問題。數(shù)據(jù)遷移工具輔助向云端遷移從數(shù)據(jù)庫抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫中有效挖掘大容量數(shù)據(jù)確是一項挑戰(zhàn)。 云計算和數(shù)據(jù)倉庫是合理的一對。云存儲可以按需擴展,云可以將大量服務器貢獻于某一具體任務。數(shù)據(jù)倉庫通用功能是本地數(shù)據(jù)分析工具,受到計算和存儲 資源的限制,同時也...

    sumory 評論0 收藏0
  • 一文看懂:云爆發(fā)的定義與應用

    摘要:這種情況并非完全是一個云爆發(fā)的場景,因為根據(jù)定義,爆發(fā)意味著工作負載在一段時間內被移動到云端,然后最終返回到內部部署。在這種情況下,云爆發(fā)將是其設計的固有特征。如今,公共云已迅速成為構建IT基礎設施的一種簡單而無障礙的方式。如果企業(yè)已經擁有內部部署系統(tǒng),那么在某些時候,可能就會希望將內部部署和外部部署整合在一起。而實現(xiàn)這一目標的一種方法是采用云爆發(fā),但云爆發(fā)究竟是什么?以及爆發(fā)在云端意味著什...

    LeanCloud 評論0 收藏0
  • 成功進行云遷移的12個關鍵步驟

    摘要:以下概述了成功的云遷移所涉及的主要步驟。是大多數(shù)云遷移的典型模型。企業(yè)對云遷移的優(yōu)先級要特別小心謹慎。云計算架構師必須考慮整個部署范圍,并在執(zhí)行實際工作負載遷移之前安裝和驗證任何所需的依賴項。企業(yè)為將內部部署應用程序遷移到云端做好準備了嗎?從重新托管與重新設計到測試和監(jiān)控,企業(yè)需要遵循一些關鍵步驟才能成功實現(xiàn)云遷移。 很多企業(yè)出于各種原因將工作負載遷移到了云端。公有云比大多數(shù)內部部署數(shù)...

    不知名網友 評論0 收藏0
  • 2018年最緊俏的5大云計算技能

    摘要:隨著機器學習等技術不斷沖擊就業(yè)市場,整個行業(yè)的技能差距將會越來越大。機器學習和機器學習人工智能和大數(shù)據(jù)正在逐漸成為項目的核心,預測機器學習和的將會出現(xiàn)爆炸性增長,未來三年的支出將增長。 2018年,隨著各種規(guī)模的企業(yè)開始推進云計算項目,預計公有云采用量將會增加,IDC預測在三年內公有云支出將達到1970億美元...

    Godtoy 評論0 收藏0
  • 2018年最緊俏的5大云計算技能

    摘要:隨著機器學習等技術不斷沖擊就業(yè)市場,整個行業(yè)的技能差距將會越來越大。機器學習和機器學習人工智能和大數(shù)據(jù)正在逐漸成為項目的核心,預測機器學習和的將會出現(xiàn)爆炸性增長,未來三年的支出將增長。 2018年,隨著各種規(guī)模的企業(yè)開始推進云計算項目,預計公有云采用量將會增加,IDC預測在三年內公有云支出將達到1970億美元,因此對云計算相關技能的需求越來越高。隨著機器學習等技術不斷沖擊就業(yè)市場,整個行業(yè)的...

    stackfing 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<