摘要:創(chuàng)新萌芽期望最頂點(diǎn)下調(diào)預(yù)期至低點(diǎn)回歸理想生產(chǎn)率平臺(tái)。而大數(shù)據(jù)已從頂峰滑落,和云計(jì)算接近谷底。對(duì)于迅速成長(zhǎng)的中國(guó)市場(chǎng),大公司也意味著大數(shù)據(jù)。三家對(duì)大數(shù)據(jù)的投入都是不惜余力的。
非商業(yè)轉(zhuǎn)載請(qǐng)注明作譯者、出處,并保留本文的原始鏈接:http://www.ituring.com.cn/article/177529
董飛,Coursera數(shù)據(jù)工程師。曾先后在創(chuàng)業(yè)公司酷迅,百度基礎(chǔ)架構(gòu)組,Amazon 云計(jì)算部門(mén),LinkedIn擔(dān)任高級(jí)工程師,負(fù)責(zé)垂直搜索,百度云計(jì)算平臺(tái)研發(fā)和廣告系統(tǒng)的架構(gòu)。董飛本科畢業(yè)于南開(kāi)大學(xué),碩士畢業(yè)于杜克大學(xué)計(jì)算機(jī)系。他在知乎上分享過(guò)多個(gè)引起強(qiáng)烈反響的問(wèn)答,其中包括《哪些硅谷創(chuàng)業(yè)公司能給拜訪(fǎng)者留下深刻印象》、《美國(guó)大數(shù)據(jù)工程師面試攻略》、《Coursera 上有哪些課程值得推薦》等。
問(wèn):硅谷最火的高科技創(chuàng)業(yè)公司都有哪些?
在硅谷大家非常熱情地談創(chuàng)業(yè)談機(jī)會(huì),我也通過(guò)自己的一些觀(guān)察和積累,看到了不少最近幾年涌現(xiàn)的熱門(mén)創(chuàng)業(yè)公司。這個(gè)是華爾街網(wǎng)站的全世界創(chuàng)業(yè)公司融資規(guī)模評(píng)選。它本來(lái)的標(biāo)題是billion startup club,不到一年的時(shí)間,截至到2015年1月17日,現(xiàn)在的排名和規(guī)模已經(jīng)發(fā)生了很大的變化。
首先,估值在10 Billlon的達(dá)到了7家,而一年前一家都沒(méi)有。
第二、第一名是中國(guó)人家喻戶(hù)曉的小米。
第三、前20名中,絕大多數(shù)(8成在美國(guó),在加州,在硅谷,在舊金山!)比如Uber,Airbnb,Dropbox,Pinterest。
第四、里面也有不少相似的成功模式,比如Flipkart就是印度市場(chǎng)的淘寶,Uber與Airbnb都是共享經(jīng)濟(jì)的范疇。
所以大家還是可以在移動(dòng)(Uber),大數(shù)據(jù)(Palantir),消費(fèi)級(jí)互聯(lián)網(wǎng),通訊(Snapchat),支付(Square),O2O App里面尋找到大機(jī)會(huì)。這里面很多公司我都親自面試和感受過(guò)他們的環(huán)境。
問(wèn):有如此之多的高估值公司,是否意味著存在很大的泡沫?
我認(rèn)為在硅谷這個(gè)充滿(mǎn)夢(mèng)想的地方,投資人鼓勵(lì)創(chuàng)業(yè)者大膽去做,同樣也助長(zhǎng)了泡沫。很多項(xiàng)目在幾個(gè)月的時(shí)間就會(huì)估值翻2、3倍,如Uber,Snapchat等等,我也驚訝于他們的巨額融資規(guī)模。
下面這張圖講的就是“新興技術(shù)炒作”周期,把各類(lèi)技術(shù)按照技術(shù)成熟度和期望值分類(lèi),這是硅谷創(chuàng)業(yè)孵化器YCombinator的課程How to start a startup提到的。“創(chuàng)新萌芽(Innovation Trigger)”、“期望最頂點(diǎn)(Peak ofInflated Expectation)”、“下調(diào)預(yù)期至低點(diǎn)(Trough of Disillusion)”、“回歸理想(Slope ofEnlightenment)”、“生產(chǎn)率平臺(tái)(Plateau of Productivity)”。越往左,技術(shù)約新潮,越處于概念階段;越往右,技術(shù)約成熟,越容易進(jìn)入商業(yè)化應(yīng)用,發(fā)揮出提高生產(chǎn)率的效果。縱軸代表預(yù)期值,人們對(duì)于新技術(shù)通常會(huì)隨著認(rèn)識(shí)的深入,預(yù)期不斷升溫,伴之以媒體炒作而到達(dá)頂峰;隨之因技術(shù)瓶頸或其他原因,預(yù)期逐漸冷卻至低點(diǎn);但技術(shù)成熟后,期望又重新上升,重新積累用戶(hù),然后就到了可持續(xù)增長(zhǎng)的健康軌道上來(lái)。今年和去年的圖對(duì)比顯示,物聯(lián)網(wǎng)、自動(dòng)駕駛汽車(chē)、消費(fèi)級(jí)3D打印、自然語(yǔ)言問(wèn)答等概念正在處于炒作的頂峰。而大數(shù)據(jù)已從頂峰滑落,NFC和云計(jì)算接近谷底。
問(wèn):你認(rèn)為未來(lái)高科技創(chuàng)業(yè)的趨勢(shì)是什么?
我先提一部最近看過(guò)的電影《模仿游戲》(Imitation Game),這部影片講的是計(jì)算機(jī)邏輯的奠基者艾倫圖靈艱難的一生。他當(dāng)年為破譯德軍密碼制作了圖靈機(jī)為二戰(zhàn)勝利做出卓越貢獻(xiàn),挽回幾千萬(wàn)人的生命,可在那個(gè)時(shí)代,他因?yàn)槭峭詰俣慌谢瘜W(xué)閹割,最后自殺結(jié)束了短暫的42歲生命。他的偉大貢獻(xiàn)之一就是在人工智能方面的開(kāi)拓,他提出圖靈測(cè)試(Turing Test),測(cè)試某機(jī)器是否能表現(xiàn)出與人等價(jià)或無(wú)法區(qū)分的智能。在今天,人工智能已經(jīng)有了很大進(jìn)步,從專(zhuān)家系統(tǒng)到基于統(tǒng)計(jì)的學(xué)習(xí),從支持向量機(jī)到神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),每一步都帶領(lǐng)機(jī)器智能走向下一個(gè)階梯。
Google的資深科學(xué)家吳軍博士(《數(shù)學(xué)之美》,《浪潮之巔》作者),他提出當(dāng)前技術(shù)發(fā)展三個(gè)趨勢(shì):第一、云計(jì)算和和移動(dòng)互聯(lián)網(wǎng),這是正在進(jìn)行時(shí);第二、機(jī)器智能,現(xiàn)在開(kāi)始發(fā)生,但對(duì)社會(huì)的影響很多人還沒(méi)有意識(shí)到;第三、大數(shù)據(jù)和機(jī)器智能結(jié)合,這是未來(lái)時(shí),一定會(huì)發(fā)生,有公司在做,但還沒(méi)有太形成規(guī)模。他認(rèn)為未來(lái)機(jī)器會(huì)控制98%的人,而現(xiàn)在我們就要做個(gè)選擇,怎么成為剩下的2%? 李開(kāi)復(fù)在2015年新年展望也提出未來(lái)五年物聯(lián)網(wǎng)將帶來(lái)龐大創(chuàng)業(yè)機(jī)會(huì)。
問(wèn):為什么大數(shù)據(jù)和機(jī)器智能結(jié)合的未來(lái)一定會(huì)到來(lái)?
其實(shí)在工業(yè)革命(1820年)之前,世界人均GDP在1800年前的兩三千年里基本沒(méi)有變化,而從1820年到2001年的180年里,世界人均GDP從原來(lái)的667美元增長(zhǎng)到6049美元。由此足見(jiàn),工業(yè)革命帶來(lái)的收入增長(zhǎng)的確是翻天覆地的。但人類(lèi)的進(jìn)步并沒(méi)有停止或者穩(wěn)步增長(zhǎng),在發(fā)明了電力、電腦、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)之后,全球年GDP增長(zhǎng)從萬(wàn)分之5漲到了2%,信息也是在急劇增長(zhǎng)。根據(jù)計(jì)算,最近兩年的信息量是之前30年的總和,最近10年的信息量遠(yuǎn)超人類(lèi)所有之前累計(jì)的信息量之和。在計(jì)算機(jī)時(shí)代,有個(gè)著名的摩爾定律,就是說(shuō)同樣成本下,每隔18個(gè)月晶體管數(shù)量會(huì)翻倍,反過(guò)來(lái)同樣數(shù)量晶體管成本會(huì)減半,這個(gè)規(guī)律已經(jīng)很好地對(duì)應(yīng)了最近30年的發(fā)展,并且可以衍生到很多類(lèi)似的領(lǐng)域,比如存儲(chǔ)、功耗、帶寬、像素等等。
作為20世紀(jì)最重要的數(shù)學(xué)家之一,現(xiàn)代計(jì)算機(jī)、博弈論和核武器等諸多領(lǐng)域的科學(xué)全才之一,馮?諾伊曼提出“技術(shù)”將會(huì)逼近人類(lèi)歷史上的某種本質(zhì)的奇點(diǎn),在那之后,全部人類(lèi)行為都不可能以我們熟悉的面貌繼續(xù)存在。這就是著名的奇點(diǎn)理論。目前,信息量正在以越來(lái)越快的指數(shù)型速度增長(zhǎng),美國(guó)未來(lái)學(xué)家Ray Kurzweil稱(chēng)人類(lèi)能夠在2045年實(shí)現(xiàn)數(shù)字化永生,他自己也創(chuàng)辦了奇點(diǎn)大學(xué)。相信隨著信息技術(shù)、無(wú)線(xiàn)網(wǎng)、生物、物理等領(lǐng)域的指數(shù)級(jí)增長(zhǎng),人類(lèi)將在2029年實(shí)現(xiàn)人工智能,人的壽命也將會(huì)在未來(lái)15年得到大幅延長(zhǎng)。
問(wèn):國(guó)外值得關(guān)注的大數(shù)據(jù)公司都有哪些?國(guó)內(nèi)又有哪些?
大致可以把大數(shù)據(jù)公司分成基礎(chǔ)架構(gòu)類(lèi)和應(yīng)用類(lèi),而底層都是會(huì)用到一些通用技術(shù),如Hadoop、Mahout、HBase、Cassandra等等;在分析領(lǐng)域,Cloudera、Hortonworks、MapR是Hadoop的三劍客;在運(yùn)維領(lǐng)域,MongoDB、CouchBase都是NoSQL的代表;在服務(wù)領(lǐng)域,AWS和Google BigQuery劍拔弩張;在傳統(tǒng)數(shù)據(jù)庫(kù),Oracle收購(gòu)了MySQL,DB2是老牌銀行專(zhuān)用,而Teradata則做了多年數(shù)據(jù)倉(cāng)庫(kù)。
Apps領(lǐng)域的大數(shù)據(jù)公司更多,比如社交消費(fèi)領(lǐng)域的Google、 Amazon、Netflix、Twitter等等, 商業(yè)智能領(lǐng)域的SAP、GoodData,還有一些在廣告媒體領(lǐng)域,TURN、Rocketfuel,另外還有做智能運(yùn)維的Sumo Logic等等。去年的新星 Databricks 伴隨著Spark的浪潮震撼了Hadoop的生態(tài)系統(tǒng)。
對(duì)于迅速成長(zhǎng)的中國(guó)市場(chǎng),大公司也意味著大數(shù)據(jù)。BAT三家對(duì)大數(shù)據(jù)的投入都是不惜余力的。我4年前在百度的時(shí)候,百度就提出框計(jì)算的概念,最近兩年成立了百度硅谷研究院,挖來(lái)Andrew Ng作為首席科學(xué)家,研究項(xiàng)目就是百度大腦,在語(yǔ)音、圖片識(shí)別技術(shù)上大幅提高精確度和召回率,最近還做了個(gè)無(wú)人自行車(chē),非常有趣。騰訊作為最大的社交應(yīng)用對(duì)大數(shù)據(jù)也是情有獨(dú)鐘,他們自己研發(fā)了C++平臺(tái)的海量存儲(chǔ)系統(tǒng)。淘寶去年雙十一主戰(zhàn)場(chǎng),2分鐘突破10億,交易額突破571億,背后有很多故事,當(dāng)年在百度做Pyramid(按Google三輛馬車(chē)打造的金字塔三層分布式系統(tǒng))的有志之士,繼續(xù)在OceanBase創(chuàng)造神話(huà)。阿里云當(dāng)年備受爭(zhēng)議,馬云也被懷疑是不是被王堅(jiān)忽悠,最后經(jīng)歷了雙十一的洗禮證明了OceanBase和阿里云是靠譜的。小米的雷軍對(duì)大數(shù)據(jù)也寄托厚望,一方面這么多數(shù)據(jù)幾何級(jí)數(shù)增長(zhǎng),另一方面存儲(chǔ)帶寬都是巨大成本,沒(méi)價(jià)值就真破產(chǎn)了。
問(wèn):與大數(shù)據(jù)技術(shù)關(guān)系最緊密的就是云計(jì)算,您曾在A(yíng)mazon 云計(jì)算部門(mén)工作過(guò),能簡(jiǎn)單介紹一下亞馬遜的AWS和Redshift框架嗎?
AWS總體上成熟度很高,有大量startup都是基于上面開(kāi)發(fā),比如有名的Netflix,Pinterest,Coursera等。Amazon還在不斷創(chuàng)新,每年召開(kāi)reInvent大會(huì)推廣新的云產(chǎn)品和分享成功案例。在這里面我隨便說(shuō)幾個(gè),S3是簡(jiǎn)單面向?qū)ο蟮拇鎯?chǔ),DynamoDB是對(duì)關(guān)系型數(shù)據(jù)庫(kù)的補(bǔ)充,Glacier是對(duì)冷數(shù)據(jù)做歸檔處理,Elastic MapReduce直接對(duì)MapReduce做打包提供計(jì)算服務(wù),EC2就是基礎(chǔ)的虛擬主機(jī),Data Pipeline 會(huì)提供圖形化界面直接串聯(lián)工作任務(wù)。
Redshift是一種大規(guī)模并行計(jì)算(massively parallel computer)架構(gòu),是非常方便的數(shù)據(jù)倉(cāng)庫(kù)解決方案,它作為SQL接口跟各個(gè)云服務(wù)無(wú)縫連接。Redshift的最大特點(diǎn)就是快,在TB到PB級(jí)別有非常好的性能。我在工作中也是直接使用Redshift,它還支持不同的硬件平臺(tái),如果想速度更快,可以使用SSD的,當(dāng)然支持容量就小些。
問(wèn):Hadoop是現(xiàn)今最流行的大數(shù)據(jù)技術(shù),在它出現(xiàn)的當(dāng)時(shí),是什么造成了Hadoop的流行?當(dāng)時(shí)Hadoop具有哪些設(shè)計(jì)上的優(yōu)勢(shì)?
要看Hadoop從哪里開(kāi)始,就不得不提Google的先進(jìn)性。在10多年前,Google發(fā)表了3篇論文論述分布式系統(tǒng)的做法,分別是GFS、MapReduce、BigTable。雖然都是很厲害的系統(tǒng),但沒(méi)人見(jiàn)過(guò)。在工業(yè)界很多人癢癢得就想按其思想去仿作。當(dāng)時(shí)Apache Nutch Lucene的作者Doug Cutting也是其中之一。后來(lái)Doug他們被Yahoo收購(gòu),專(zhuān)門(mén)成立Team來(lái)投入研究,這就是Hadoop開(kāi)始和大規(guī)模發(fā)展的地方。之后隨著Yahoo的衰落,牛人去了Facebook、 Google,也有的成立了Cloudera、Hortonworks等大數(shù)據(jù)公司,把Hadoop的實(shí)踐帶到各個(gè)硅谷公司。而Google還沒(méi)有停止,又出了新的三輛馬車(chē),Pregel、Caffeine、Dremel,后來(lái)又有很多人步入后塵,開(kāi)始了新一輪開(kāi)源大戰(zhàn)。
為啥Hadoop就比較適合做大數(shù)據(jù)呢?首先擴(kuò)展性很好,直接通過(guò)加節(jié)點(diǎn)就可以把系統(tǒng)能力提高。Hadoop有個(gè)重要思想就是移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù),因?yàn)閿?shù)據(jù)的移動(dòng)會(huì)帶來(lái)很大的成本,需要網(wǎng)絡(luò)帶寬。其次,Hadoop提出的目標(biāo)就是利用廉價(jià)的普通計(jì)算機(jī)(硬盤(pán)),這樣雖然可能不穩(wěn)定(磁盤(pán)壞的幾率),但通過(guò)系統(tǒng)級(jí)別上的容錯(cuò)和冗余達(dá)到高可靠性。并且非常靈活,可以使用各種數(shù)據(jù),二進(jìn)制、文檔型、記錄型,也可以使用各種形式,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化(所謂的schemaless),在按需計(jì)算上也是個(gè)技巧。
問(wèn):MapReduce模型有什么問(wèn)題?
第一、需要寫(xiě)很多底層的代碼,不夠高效。第二、所有的事情必須要轉(zhuǎn)化成兩個(gè)操作Map或Reduce,這本身就很奇怪,也不能解決所有的情況。
問(wèn):Spark從何而來(lái)?Spark相比于Hadoop MapReduce設(shè)計(jì)上有什么樣的優(yōu)勢(shì)?
其實(shí)Spark出現(xiàn)就是為了解決上面的問(wèn)題。先說(shuō)一些Spark的起源,它來(lái)自 2010年Berkeley AMPLab,發(fā)表在HotCloud上的Spark是一個(gè)從學(xué)術(shù)界到工業(yè)界的成功典范,也吸引了頂級(jí)VC Andreessen Horowitz的注資。在2013年,這些大牛(包括Berkeley系主任,MIT最年輕的助理教授)從Berkeley AMPLab出去成立了Databricks,引無(wú)數(shù)Hadoop大佬盡折腰。
Spark是用函數(shù)式語(yǔ)言Scala編寫(xiě)的,Spark簡(jiǎn)單說(shuō)就是內(nèi)存計(jì)算(包含迭代式計(jì)算、DAG計(jì)算、流式計(jì)算 )框架。之前MapReduce因效率低下,經(jīng)常被大家詬病,而Spark的出現(xiàn)讓大家感覺(jué)很清新。 Reynod 作為Spark核心開(kāi)發(fā)者,介紹說(shuō)Spark性能超Hadoop百倍,算法實(shí)現(xiàn)僅有其1/10或1/100。在去年的Sort benchmark上,Spark用了23min跑完了100TB的排序,刷新了之前Hadoop保持的世界紀(jì)錄。
問(wèn):Linkedin都采用了哪些大數(shù)據(jù)開(kāi)源技術(shù)?
在LinkedIn有很多數(shù)據(jù)產(chǎn)品,比如People you may like、Job you may be interested。你的用戶(hù)訪(fǎng)問(wèn)來(lái)源,甚至你的career path都可以挖掘出來(lái)。Linkedin也大量用到了開(kāi)源技術(shù),我這里就說(shuō)一個(gè)最成功的Kafka。Kafka是一個(gè)分布式的消息隊(duì)列,可以用在tracking、機(jī)器內(nèi)部metrics、數(shù)據(jù)傳輸上。數(shù)據(jù)在前端后端會(huì)經(jīng)過(guò)不同的存儲(chǔ)或者平臺(tái),每個(gè)平臺(tái)都有自己的格式,如果沒(méi)有一個(gè)unified log,會(huì)出現(xiàn)災(zāi)難型的O(m*n)的數(shù)據(jù)對(duì)接復(fù)雜度。如果你設(shè)定的格式一旦發(fā)生變化,也要修改所有相關(guān)的格式。所以這里提出的中間橋梁就是Kafka,大家約定用一個(gè)格式作為傳輸標(biāo)準(zhǔn),然后在接受端可以任意定制你想要的數(shù)據(jù)源(topics),最后實(shí)現(xiàn)線(xiàn)性的O(m+n)復(fù)雜度。對(duì)應(yīng)的設(shè)計(jì)細(xì)節(jié),還是要參考設(shè)計(jì)文檔 ,這里面主要作者Jay Kreps、Rao Jun成立了Kafka作為獨(dú)立發(fā)展的公司。
Hadoop作為批處理的主力,大量應(yīng)用在各個(gè)產(chǎn)品線(xiàn)上。比如廣告組,我們一方面需要去做一些靈活的查詢(xún),分析廣告主的匹配、廣告預(yù)測(cè)和實(shí)際效果,另外在報(bào)表生成方面也是用Hadoop作為支持。如果你想去面試LinkedIn 后端組,我建議應(yīng)該去把Hive、Pig、Azkaban(數(shù)據(jù)流的管理軟件)、Avro 數(shù)據(jù)定義格式、Kafka、Voldemort 都了解一下。LinkedIn有專(zhuān)門(mén)的開(kāi)源社區(qū),也是在建設(shè)自己的技術(shù)品牌。
問(wèn):能談一談Coursera在大數(shù)據(jù)架構(gòu)方面和其他硅谷創(chuàng)業(yè)公司相比有什么特點(diǎn)?是什么原因和技術(shù)取向造成了這些特點(diǎn)?
首先我介紹一下Coursera。作為MOOC(大型開(kāi)放式網(wǎng)絡(luò)課程)中的領(lǐng)頭羊,Coursera在2012年由Stanford大學(xué)的Andrew和Daphne兩名教授創(chuàng)立,目前160名員工,原Yale校長(zhǎng)擔(dān)任CEO。Coursera的使命是universal access to world"s best education。很多人問(wèn)我為什么加入,首先我非常認(rèn)可公司的使命,我相信教育可以改變?nèi)松瑯游覀円部梢愿淖兘逃D懿荒馨鸭夹g(shù)跟教育結(jié)合起來(lái),這是一個(gè)很有趣的話(huà)題,里面有很多東西可以結(jié)合。比如提供高可靠平臺(tái)支持大規(guī)模用戶(hù)在線(xiàn)并發(fā)訪(fǎng)問(wèn),利用數(shù)據(jù)挖掘分析學(xué)生行為做個(gè)性化課程學(xué)習(xí)并提高課程滿(mǎn)意度,通過(guò)機(jī)器學(xué)習(xí)識(shí)別作業(yè)、互相評(píng)判,用技術(shù)讓人們平等便捷的獲取教育服務(wù)。
Coursera作為創(chuàng)業(yè)公司,非常想保持敏捷和高效。從技術(shù)上來(lái)說(shuō),所有的技術(shù)都是基于A(yíng)WS開(kāi)發(fā)的,可以隨意啟動(dòng)云端服務(wù)并做實(shí)驗(yàn)。我們大致分成產(chǎn)品組,架構(gòu)組和數(shù)據(jù)分析組。因?yàn)楣颈容^新,所以沒(méi)有什么歷史遺留遷移的問(wèn)題。大家大膽地使用Scala作為主要編程語(yǔ)言,采用Python作為腳本控制。比如產(chǎn)品組就是提供課程產(chǎn)品,里面大量使用Play Framework,JavaScript的backbone作為控制中樞。而架構(gòu)組主要是維護(hù)底層存儲(chǔ)、通用服務(wù)、性能和穩(wěn)定性。我所在的數(shù)據(jù)組由10多人構(gòu)成,一部分是對(duì)商業(yè)產(chǎn)品,核心增長(zhǎng)指標(biāo)做監(jiān)控、挖掘和改進(jìn)。一部分是搭建數(shù)據(jù)倉(cāng)庫(kù)完善跟各個(gè)部門(mén)的無(wú)縫數(shù)據(jù)流動(dòng),這里也用到了很多技術(shù)。例如使用Scalding編寫(xiě)Hadoop MapReduce程序,也有人做AB testing框架、 推薦系統(tǒng),盡可能用最少人力做有影響力的事情。其實(shí)除了開(kāi)源世界,我們也積極使用第三方的產(chǎn)品,比如我們用Sumo Logic做日志錯(cuò)誤分析,用Redshift作為大數(shù)據(jù)分析平臺(tái),用Slack做內(nèi)部通訊。而所有的這些就是想解放生產(chǎn)力,把重心放到用戶(hù)體驗(yàn)、產(chǎn)品開(kāi)發(fā)和迭代上去。
Coursera是一個(gè)有使命驅(qū)動(dòng)的公司,大家不是為了追求技術(shù)的極致,而是為了服務(wù)好老師、同學(xué),解決他們的痛點(diǎn),分享他們的成功。這點(diǎn)是跟其他技術(shù)公司最大的區(qū)別。從某個(gè)方面來(lái)說(shuō),現(xiàn)在我們還是處于早期積累階段,大規(guī)模計(jì)算時(shí)代還沒(méi)有來(lái)臨,我們只有積極學(xué)習(xí)、適應(yīng)變化才能保持創(chuàng)業(yè)公司的高速成長(zhǎng)。
問(wèn):如果想從事大數(shù)據(jù)方面的工作,是否可以推薦一些有效的學(xué)習(xí)方法?有哪些推薦的書(shū)籍?
首先還是打好基礎(chǔ),Hadoop雖然火熱,但它的基礎(chǔ)原理都是書(shū)本上很多年的積累。像算法導(dǎo)論、Unix設(shè)計(jì)哲學(xué)、數(shù)據(jù)庫(kù)原理、深入理解計(jì)算機(jī)原理、Java設(shè)計(jì)模式,有一些重量級(jí)的書(shū)可以參考,Hadoop 最經(jīng)典的The Definitive Guide, 我在知乎上也有分享。
其次是選擇目標(biāo),如果你想做數(shù)據(jù)科學(xué)家,我可以推薦coursera上的data science課程,通俗易懂。學(xué)習(xí)Hive,Pig這些基本工具,如果做應(yīng)用層,主要是要熟悉Hadoop的一些工作流,包括一些基本調(diào)優(yōu)。如果是想做架構(gòu),除了要能搭建集群,要對(duì)各個(gè)基礎(chǔ)軟件服務(wù)很了解,還要理解計(jì)算機(jī)的瓶頸和負(fù)載管理以及Linux的一些性能工具。
最后,還是要多加練習(xí)。大數(shù)據(jù)本身就靠實(shí)踐,你可以先按API寫(xiě)書(shū)上的例子,做到有能力調(diào)試成功。再下面就是多積累,當(dāng)遇到相似的問(wèn)題時(shí)能找到對(duì)應(yīng)的經(jīng)典模式。然后就是實(shí)際問(wèn)題了,也許周邊誰(shuí)也沒(méi)遇到過(guò)這樣的問(wèn)題,你需要靈感和在網(wǎng)上問(wèn)問(wèn)題的技巧,然后根據(jù)實(shí)際情況作出最佳選擇。
更多精彩,加入圖靈訪(fǎng)談微信!文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/91472.html
摘要:皮埃羅指出,更神奇的是,基因編輯有可能重塑人類(lèi)生育方式,讓無(wú)性繁殖變成可能。皮埃羅認(rèn)為,這項(xiàng)實(shí)驗(yàn)的意義非常重大。 《硅谷百年史》作者、硅谷人工智能研究院院長(zhǎng)皮埃羅·斯加魯菲(Piero Scaruffi) 在其著作《人類(lèi)2.0》中提出,人類(lèi)發(fā)展將進(jìn)入2.0 時(shí)代,人類(lèi)歷史上幾千年來(lái)的生、老、病、死大問(wèn)題,已正式被納入技術(shù)的解決范疇,接下來(lái)的科技革命將可能會(huì)重新定義人類(lèi)。 showImg...
摘要:我們來(lái)聊聊可能很快就會(huì)影響世界的九大創(chuàng)新人工智能能夠獨(dú)立于人類(lèi)主人而學(xué)習(xí)操作的人工智能,這看上去就像科幻小說(shuō)。以色列公司建立了世界最大的海水淡化工廠(chǎng),每天能生產(chǎn)立方米淡水。 本文轉(zhuǎn)載自:眾成翻譯譯者:文藺鏈接:http://www.zcfy.cc/article/830原文:https://medium.com/startup-grind/9-innovations-that-coul...
閱讀 976·2022-06-21 15:13
閱讀 1858·2021-10-20 13:48
閱讀 1046·2021-09-22 15:47
閱讀 1377·2019-08-30 15:55
閱讀 3134·2019-08-30 15:53
閱讀 528·2019-08-29 12:33
閱讀 724·2019-08-28 18:15
閱讀 3472·2019-08-26 13:58