HBase基礎(chǔ)

xfee 發(fā)布于2019-08-16 18:34 / 1892人閱讀

摘要：回過頭來看關(guān)系數(shù)據(jù)庫，雖然每個表只有兩個維度，但可以通過表之間的關(guān)系來建立高維度屬性來描述事物。屬性識別屬性可以唯一的確定一條數(shù)據(jù)在關(guān)系數(shù)據(jù)庫中作為主鍵，在中作為。

HBase的讀寫流程設(shè)計

寫數(shù)據(jù)：先預(yù)寫日式WAL，和寫入內(nèi)容MemStore。WAL用來在節(jié)點宕機后恢復(fù)寫入的數(shù)據(jù)。在MemStore寫滿后會寫入磁盤，生成一個新的HFile，一旦寫入不會再修改。一個列族有一個MemStore，一個列族有多個HFile。

讀數(shù)據(jù)：每個列族有自己的BlockCache，用來在內(nèi)存中緩存從HFile讀入的數(shù)據(jù)，采用LRU算法淘汰數(shù)據(jù)。讀數(shù)據(jù)時，先從MemStore中嘗試讀取修改的數(shù)據(jù)，然后檢查BlockCache緩存，最后才訪問HFile。

刪除數(shù)據(jù)：先給數(shù)據(jù)打上刪除標記，HFile在大合并中才真正刪除掉這些數(shù)據(jù)。

數(shù)據(jù)坐標

如何準確的定位一個數(shù)據(jù)：
rowKey -> column family -> column qualifier -> versin -> value

HBase和關(guān)系數(shù)據(jù)庫的設(shè)計思想的區(qū)別

HBase是一種鍵-值型數(shù)據(jù)庫，key由rowKey -> column family -> column qualifier -> versin這些元素共同組成。

關(guān)系型數(shù)據(jù)庫每個表只有兩個維度，通過id和屬性名可以得到相應(yīng)的值。

數(shù)據(jù)庫是用來存儲事物的載體，關(guān)系數(shù)據(jù)庫的局限在于從兩個維度描述事物的屬性，它可以方便的展現(xiàn)事物的一級屬性，但是想要表現(xiàn)事物的多層級屬性卻不容易。如一個對象：

{
    "name":{
        "firstName":"Si",
        "lastName":"Li"
    },
    "age":10
}

在關(guān)系數(shù)據(jù)庫中存儲這樣一個對象，要么將屬性都提升為一級屬性，要么在name屬性中存儲一個json數(shù)據(jù)，要么另起一個表，專門存儲name的數(shù)據(jù)，并且通過name的id來關(guān)聯(lián)數(shù)據(jù)間的關(guān)系。

而HBase則是一個四維的表，描述事物的能力更強，上述問題只要建立一個name的列族就可以解決。

像這種key-value型數(shù)據(jù)庫，key可以描述無限維度的屬性層級，可以更方便的描述事物，似乎是將來數(shù)據(jù)存儲發(fā)展的趨勢。

回過頭來看關(guān)系數(shù)據(jù)庫，雖然每個表只有兩個維度，但可以通過表之間的關(guān)系來建立高維度屬性來描述事物。從這個角度來看，關(guān)系型數(shù)據(jù)庫反而道出了事物的本質(zhì)。

面型列編程

一般情況下，現(xiàn)有數(shù)據(jù)的邏輯模型，然后物理模型根據(jù)邏輯模型進行設(shè)計和優(yōu)化。而在HBase中，需要逆向思考，由于HBase中數(shù)據(jù)的物理存儲遵循一定的規(guī)則，利用好這些規(guī)則來設(shè)計邏輯模型，可以大大的提高使用數(shù)據(jù)的效率。

HBase的各層級的key都是有序排列的，從row key到qualifier按照字節(jié)遞增排列，而version則按照遞減順序排列。

HBase在一行記錄里，如果某列沒數(shù)據(jù)，則不會進行存儲，不會占用存儲空間，所以說是面向列編程。每行數(shù)據(jù)的每個列族可能會有多個HFile，但是一個列族的數(shù)據(jù)一定要在同一個物理存儲中。

HBase不滿足ACID

對于每行的操作，是原子的。

對于多行的操作，不是原子的。

掃描并不是對某一時刻的數(shù)據(jù)快照的讀取，如果某行數(shù)據(jù)被掃描到前有變更，則讀取的數(shù)據(jù)是變更后的數(shù)據(jù)。

Hadoop Mapreduce運行原理

工作過程：
map: 負責轉(zhuǎn)化數(shù)據(jù)，將key1、value1輸入轉(zhuǎn)化key2、value2輸出。
shuffle: 數(shù)據(jù)按照key分組、排序等。
reduce: 對一個key下的所有值進行處理，產(chǎn)生最后結(jié)果。

JobTracker: 負責調(diào)度、監(jiān)控mapreduce任務(wù)。
TaskTracker: 負責實際的運行map或reduce任務(wù)。

HBase的分布式結(jié)構(gòu)

一個表被分為多個region。RegionServer運行在HDFS系統(tǒng)之上，是HDFS的客戶端，負責管理多個region。

如何定位region？-ROOT-、.META.是兩個特殊的表，它們也放在region中。-ROOT-表只在一個region中，.META.表則可能被分到多個region中。整個定位的過程如一個3層分布式B+樹：

ZooKeeper管理了表的-ROOT-的信息。

先在-ROOT-中查找，定位擁有該數(shù)據(jù)信息的.META.的region。

從.META.的region中的信息可以定位到數(shù)據(jù)在哪一個RegionServer里。

Mapreduce與HBase

HBase既可以做Mapreduce的數(shù)據(jù)源，也可以作為數(shù)據(jù)目的地。

如何在Mapreduce中做聯(lián)結(jié)操作

對于不同表中的數(shù)據(jù)，通過rowKey將相關(guān)數(shù)據(jù)聯(lián)結(jié)起來的操作對于非關(guān)系型數(shù)據(jù)庫HBase來說并非易事。

在Mapreduce中可以有以下3種聯(lián)結(jié)的實現(xiàn)方式：

在reduce側(cè)做聯(lián)結(jié)。將相同rowKey的數(shù)據(jù)在reduce任務(wù)上進行聯(lián)結(jié)，需要在map和reduce之間做數(shù)據(jù)洗牌和排序，有很大的IO開銷。

在map側(cè)聯(lián)結(jié)。將兩個表中，數(shù)量小的表緩存在map節(jié)點中，map任務(wù)在拿到關(guān)聯(lián)鍵后從緩存中讀取相應(yīng)的值，結(jié)合后進行發(fā)射。

在map中讀取HBase。一個表作為mapreduce的數(shù)據(jù)源，在map任務(wù)中從HBase讀取另一個表中相關(guān)聯(lián)的數(shù)據(jù)。

HBase的可用性

可用性不是一個二元特性，即不是非此即彼的，而是一種程度上的模糊屬性。HBase是高可用的，在RegionServer發(fā)生故障時，它管理的數(shù)據(jù)會切換到其它的RegionServer節(jié)點上。

單一命名空間。HBase把數(shù)據(jù)存儲在一個文件系統(tǒng)上，一個RegionServer的讀寫數(shù)據(jù)可以為其它所有RegionServer讀寫。所以當一個RegionServer宕機時，其它RegionServer可以及時的接替它的任務(wù)。

HBase進階 如何建模來充分發(fā)揮HBase的能力

HBase雖然號稱是無模式的數(shù)據(jù)庫，但是提前設(shè)計好數(shù)據(jù)的存儲schema可以更好的發(fā)揮HBase的性能。

列族一般要提前定義好，盡量少的改動。而列可以動態(tài)的增減，列即數(shù)據(jù)。

HBase沒有跨行實務(wù)的概念。

同一列族的數(shù)據(jù)在物理上是放在一起的，在列族中找到某一個列的大體過程是一個二分查找。所以，訪問寬行要比窄行開銷大。

精細的描述所需數(shù)據(jù)帶來的收益

行鍵：獲取指定行的數(shù)據(jù)，該行下的所有相關(guān)HFile都會被讀取。

列族：進一步縮小讀取HFile范圍，只讀相關(guān)的HFile。

列限定符：不會進一步限定列族的范圍，但會減少返回數(shù)據(jù)的網(wǎng)絡(luò)占用。

時間戳：進一步減少返回數(shù)據(jù)量。

反規(guī)范化

規(guī)范化是關(guān)系型數(shù)據(jù)庫中的概念，指將每個表指保存自己關(guān)心的核心數(shù)據(jù)，其它的數(shù)據(jù)通過鍵來關(guān)聯(lián)，通過join來查詢多個表中的數(shù)據(jù)，盡量的避免同一份數(shù)據(jù)出現(xiàn)在兩個地方，避免數(shù)據(jù)的不一致性。

反規(guī)范化是HBase中的概念，指行中可以冗余部分其它表的數(shù)據(jù)，以方便讀取。

規(guī)范化是寫優(yōu)化，反規(guī)范化是讀優(yōu)化。

從關(guān)系型數(shù)據(jù)庫到非關(guān)系型數(shù)據(jù)庫

謹慎的將現(xiàn)有的系統(tǒng)從關(guān)系型數(shù)據(jù)庫遷移到非關(guān)系型數(shù)據(jù)庫，有時候付出的代價遠比你得到的收益要高。

實體

關(guān)系型、非關(guān)系型數(shù)據(jù)庫都通過表存儲實體。

屬性

識別屬性（可以唯一的確定一條數(shù)據(jù)）在關(guān)系數(shù)據(jù)庫中作為主鍵，在HBase中作為rowKey。非識別屬性在HBase中對應(yīng)列限定符。

聯(lián)系

關(guān)系型數(shù)據(jù)庫通過外鍵，或者關(guān)系表來刻畫數(shù)據(jù)之間的關(guān)系。而HBase中沒有這種限制，只能在應(yīng)用中實現(xiàn)數(shù)據(jù)關(guān)系的代碼。

參考《HBase實戰(zhàn)》

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/75336.html

發(fā)表評論

登陸后可評論

0條評論

xfee

男|高級講師

我要關(guān)注我要私信

TA的文章

STM32F103基于spi實現(xiàn)OLED顯示

閱讀 3927·2021-11-22 09:34
Raksmart美國服務(wù)器靠譜嗎（RAKsmart服務(wù)器省錢策略）

閱讀 1501·2021-11-04 16:10
Python中的運算符介紹（下）

閱讀 1733·2021-10-11 10:59
前端面試每日 3+1 —— 第124天

閱讀 3281·2019-08-30 15:44
淺談Canvas

閱讀 2045·2019-08-30 13:17
解決koala報錯invalid byte sequence in UTF-8

閱讀 3455·2019-08-30 11:05
CSS選擇器、層疊、繼承的那些事

閱讀 752·2019-08-29 14:02
JavaScript-作用域是什么

閱讀 2627·2019-08-26 13:34

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

HBase基礎(chǔ)

相關(guān)文章

HBase運維基礎(chǔ)——元數(shù)據(jù)逆向修復(fù)原理

**企業(yè)打開云HBase的正確方式，來自阿里云云數(shù)據(jù)庫團隊的解讀**

飛馳在Mesos的渦輪引擎上

發(fā)表評論

0條評論

xfee

男|高級講師

TA的文章

STM32F103基于spi實現(xiàn)OLED顯示

Raksmart美國服務(wù)器靠譜嗎（RAKsmart服務(wù)器省錢策略）

Python中的運算符介紹（下）

前端面試每日 3+1 —— 第124天

淺談Canvas

解決koala報錯invalid byte sequence in UTF-8

CSS選擇器、層疊、繼承的那些事

JavaScript-作用域是什么

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

HBase基礎(chǔ)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！