{eval=Array;=+count(Array);}
Spark Shark |即Hive onSpark
a.在實(shí)現(xiàn)上是把HQL翻譯成Spark上的RDD操作,然后通過(guò)Hive的metadata獲取數(shù)據(jù)庫(kù)里的表信息,Shark獲取HDFS上的數(shù)據(jù)和文件夾放到Spark上運(yùn)算.
b.它的最大特性就是快以及與Hive完全兼容
c.Shark使用了Hive的API來(lái)實(shí)現(xiàn)queryparsing和logic plan generation,最后的Physical Plan execution階段用Spark代替Hadoop MR。
d.通過(guò)配置Shark參數(shù),Shark可以自動(dòng)在內(nèi)存中緩存特定的RDD,實(shí)現(xiàn)數(shù)據(jù)重用,進(jìn)而加快特定數(shù)據(jù)集的檢索。
e.Shark通過(guò)UDF實(shí)現(xiàn)特定的數(shù)據(jù)分析學(xué)習(xí)算法,使得SQL數(shù)據(jù)查詢和運(yùn)算分析結(jié)合在一起,最大化RDD的重復(fù)使用。
Spark SQL
a.是基于Catalyst(翻譯為催化劑)引擎的交互式大數(shù)據(jù)SQL技術(shù),使用SchemaRDD來(lái)操作SQL,比Shark支持更過(guò)的查詢表達(dá)式。
b.支持Hive|HBase|Oracle
0
回答0
回答10
回答2
回答0
回答2
回答0
回答0
回答0
回答0
回答