{eval=Array;=+count(Array);}
推薦的學(xué)習(xí)書(shū)單
1.《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ) 數(shù)據(jù)挖掘、推理與預(yù)測(cè)》
盡管應(yīng)用的是統(tǒng)計(jì)學(xué)方法,但強(qiáng)調(diào)的是概念,而不是數(shù)學(xué)。《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與預(yù)測(cè)》內(nèi)容廣泛,從有指導(dǎo)的學(xué)習(xí)(預(yù)測(cè)),到無(wú)指導(dǎo)的學(xué)習(xí);從神經(jīng)網(wǎng)絡(luò)、支持向量機(jī),到分類(lèi)樹(shù)、提升等主題,應(yīng)有盡有,許多例子還附以彩圖,是同類(lèi)書(shū)籍中介紹最全面的。計(jì)算和信息技術(shù)的飛速發(fā)展帶來(lái)了醫(yī)學(xué)、生物學(xué)、財(cái)經(jīng)和營(yíng)銷(xiāo)等諸多領(lǐng)域的海量數(shù)據(jù)。理解這些數(shù)據(jù)是一種挑戰(zhàn),這導(dǎo)致了統(tǒng)計(jì)學(xué)領(lǐng)域新工具的發(fā)展,并延伸到諸如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和生物信息學(xué)等新領(lǐng)域。
2.《模式分類(lèi)》第二版
除了保留了第1版的關(guān)于統(tǒng)計(jì)模式識(shí)別和結(jié)構(gòu)模式識(shí)別的主要內(nèi)容以外,讀者將會(huì)發(fā)現(xiàn)新增了許多近25年來(lái)的新理論和新方法,其中包括神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、進(jìn)化計(jì)算、不變量理論、隱馬爾可夫模型、統(tǒng)計(jì)學(xué)習(xí)理論和支持向量機(jī)等。
3.《推薦系統(tǒng)實(shí)踐》
過(guò)大量代碼和圖表全面系統(tǒng)地闡述了和推薦系統(tǒng)有關(guān)的理論基礎(chǔ),介紹了評(píng)價(jià)推薦系統(tǒng)優(yōu)劣的各種標(biāo)準(zhǔn)(比如覆蓋率、滿(mǎn)意度)和方法(比如AB測(cè)試),總結(jié)了當(dāng)今互聯(lián)網(wǎng)領(lǐng)域中各種和推薦有關(guān)的產(chǎn)品和服務(wù)。
4.《深入搜索引擎–海量信息的壓縮、索引和查詢(xún)》
理論和實(shí)踐并重,深入淺出地給出了海量信息數(shù)據(jù)處理的整套解決方案,包括壓縮、索引和查詢(xún)的方方面面。其最大的特色在于不僅僅滿(mǎn)足信息檢索理論學(xué)習(xí)的需要,更重要的是給出了實(shí)踐中可能面對(duì)的各種問(wèn)題及其解決方法。
5.《概率論與數(shù)理統(tǒng)計(jì)》
這本書(shū)不用過(guò)多介紹了吧,普遍大學(xué)里大一時(shí)期的教科書(shū),只恨當(dāng)年沒(méi)聽(tīng)課啊,現(xiàn)在正在慢慢啃。
6.《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》
主要內(nèi)容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項(xiàng)集挖掘、聚類(lèi)算法、廣告管理及推薦系統(tǒng)。
7.《Web數(shù)據(jù)挖掘》
信息檢索領(lǐng)域的書(shū)籍,該書(shū)深入講解了從大量非結(jié)構(gòu)化Web數(shù)據(jù)中提取和產(chǎn)生知識(shí)的技術(shù)。書(shū)中首先論述了Web的基礎(chǔ)(包括Web信息采集機(jī)制、Web標(biāo)引機(jī)制以及基于關(guān)鍵字或基于相似性搜索機(jī)制),然后系統(tǒng)地描述了Web挖掘的基礎(chǔ)知識(shí),著重介紹基于超文本的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法,如聚類(lèi)、協(xié)同過(guò)濾、監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),最后講述了這些基本原理在Web挖掘中的應(yīng)用。《Web數(shù)據(jù)挖掘》為讀者提供了堅(jiān)實(shí)的技術(shù)背景和最新的知識(shí)。
8.《數(shù)據(jù)之巔》
對(duì)大數(shù)據(jù)追根溯源,提出當(dāng)前信息技術(shù)的發(fā)展,已經(jīng)讓中國(guó)獲得了后發(fā)優(yōu)勢(shì),中國(guó)要在大數(shù)據(jù)時(shí)代的全球競(jìng)爭(zhēng)中勝出,必須把大數(shù)據(jù)從科技符號(hào)提升成為文化符號(hào),在全社會(huì)倡導(dǎo)數(shù)據(jù)文化。
9.《深入淺出統(tǒng)計(jì)學(xué)》
本書(shū)涵蓋的知識(shí)點(diǎn)包括:信息可視化、概率計(jì)算、幾何分布、二項(xiàng)分布及泊松分布、正態(tài)分布、統(tǒng)計(jì)抽樣、置信區(qū)間的構(gòu)建、假設(shè)檢驗(yàn)、卡方分布、相關(guān)與回歸等等,完整涵蓋AP考試范圍。
10.《矩陣分析》
本書(shū)從數(shù)學(xué)分析的角度論述矩陣分析的經(jīng)典方法和現(xiàn)代方法,取材新,有一定的深度,并給出在多元微積分、復(fù)分析、微分方程、量?jī)?yōu)化、逼近理論中的許多重要應(yīng)用。主要內(nèi)容包括:特征值、特征向量和相似性,酉等價(jià)和正規(guī)矩陣,標(biāo)準(zhǔn)形,Hermite矩陣和對(duì)稱(chēng)矩陣,向量范數(shù)和矩陣范數(shù),特征值和估計(jì)和擾動(dòng),正定矩陣,非負(fù)矩陣。
11.《統(tǒng)計(jì)學(xué)習(xí)方法》
本書(shū)全面系統(tǒng)地介紹了統(tǒng)計(jì)學(xué)習(xí)的主要方法,特別是監(jiān)督學(xué)習(xí)方法,包括感知機(jī)、k近鄰法、樸素貝葉斯法、決策樹(shù)、邏輯斯諦回歸與最大熵模型、支持向量機(jī)、提升方法、em算法、隱馬爾可夫模型和條件隨機(jī)場(chǎng)等。除第1章概論和最后一章總結(jié)外,每章介紹一種方法。敘述從具體問(wèn)題或?qū)嵗胧郑蓽\入深,闡明思路,給出必要的數(shù)學(xué)推導(dǎo),便于讀者掌握統(tǒng)計(jì)學(xué)習(xí)方法的實(shí)質(zhì),學(xué)會(huì)運(yùn)用。為滿(mǎn)足讀者進(jìn)一步學(xué)習(xí)的需要,書(shū)中還介紹了一些相關(guān)研究,給出了少量習(xí)題,列出了主要參考文獻(xiàn)。
12.《機(jī)器學(xué)習(xí)導(dǎo)論》
對(duì)機(jī)器學(xué)習(xí)的定義和應(yīng)用實(shí)例進(jìn)行了介紹,涵蓋了監(jiān)督學(xué)習(xí)。貝葉斯決策理論。參數(shù)方法、多元方法、維度歸約、聚類(lèi)、非參數(shù)方法、決策樹(shù)。線性判別式、多層感知器,局部模型、隱馬爾可夫模型。分類(lèi)算法評(píng)估和比較,組合多學(xué)習(xí)器以及增強(qiáng)學(xué)習(xí)等。
《機(jī)器學(xué)習(xí)及其應(yīng)用》:全書(shū)共分14章,內(nèi)容涉及因果推斷、流形學(xué)習(xí)與降維、遷移學(xué)習(xí)、類(lèi)別不平衡學(xué)習(xí)、演化聚類(lèi)、多標(biāo)記學(xué)習(xí)、排序?qū)W習(xí)、半監(jiān)督學(xué)習(xí)等技術(shù)和協(xié)同過(guò)濾、社區(qū)推薦、機(jī)器翻譯等應(yīng)用,以及互聯(lián)網(wǎng)應(yīng)用對(duì)機(jī)。
謝謝邀請(qǐng)!
大數(shù)據(jù)的基礎(chǔ)學(xué)科有三個(gè),分別是數(shù)學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)學(xué),所以學(xué)習(xí)大數(shù)據(jù)首先要具備一定的數(shù)學(xué)基礎(chǔ),包括高等數(shù)學(xué)、線性代數(shù)、概率論和離散數(shù)學(xué),然后是基礎(chǔ)的統(tǒng)計(jì)學(xué)基礎(chǔ)和計(jì)算機(jī)基礎(chǔ)。
雖然大數(shù)據(jù)的崗位比較多,遍布數(shù)據(jù)的采集、整理、存儲(chǔ)、安全、分析、呈現(xiàn)等方面,但是比較核心的大數(shù)據(jù)崗位包括大數(shù)據(jù)平臺(tái)研發(fā)、大數(shù)據(jù)應(yīng)用開(kāi)發(fā)和大數(shù)據(jù)分析等,這些崗位雖然在知識(shí)結(jié)構(gòu)上有一定的區(qū)別,但是基本的大數(shù)據(jù)知識(shí)是一定要具備的,下面做一個(gè)介紹。
第一:算法設(shè)計(jì)。大數(shù)據(jù)的核心是數(shù)據(jù)價(jià)值化,數(shù)據(jù)分析則是數(shù)據(jù)價(jià)值化的重要途徑,而算法設(shè)計(jì)則是數(shù)據(jù)分析的核心,因此算法設(shè)計(jì)在大數(shù)據(jù)知識(shí)體系中具有重要的地位。算法設(shè)計(jì)的書(shū)籍比較多,推薦讀一下《算法導(dǎo)論》,這是一本比較經(jīng)典的算法設(shè)計(jì)類(lèi)書(shū)籍。
第二:編程語(yǔ)言。算法設(shè)計(jì)之后就需要進(jìn)行算法實(shí)現(xiàn),算法實(shí)現(xiàn)就需要掌握編程語(yǔ)言,能夠?qū)崿F(xiàn)算法的編程語(yǔ)言有很多,包括R、Python、Java等都可以,推薦系統(tǒng)學(xué)習(xí)一下Python語(yǔ)言,采用Python完成算法實(shí)現(xiàn)在目前的大數(shù)據(jù)和機(jī)器學(xué)習(xí)領(lǐng)域是一個(gè)比較普遍的選擇。
第三:大數(shù)據(jù)平臺(tái)。大數(shù)據(jù)平臺(tái)是大數(shù)據(jù)應(yīng)用的基礎(chǔ),目前比較常見(jiàn)的大數(shù)據(jù)平臺(tái)包括Hadoop和Spark。Hadoop平臺(tái)已經(jīng)被業(yè)界使用多年,已經(jīng)形成了一個(gè)比較完善的生態(tài)體系,建議從Hadoop開(kāi)始學(xué)起。
第四:機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)與大數(shù)據(jù)的關(guān)系越來(lái)越密切,目前在大數(shù)據(jù)分析領(lǐng)域經(jīng)常采用機(jī)器學(xué)習(xí)的方式。通過(guò)大數(shù)據(jù)進(jìn)入機(jī)器學(xué)習(xí)領(lǐng)域,再全面進(jìn)入人工智能領(lǐng)域也是目前一個(gè)比較常見(jiàn)的學(xué)習(xí)路線。
大數(shù)據(jù)的學(xué)習(xí)需要一個(gè)系統(tǒng)的過(guò)程,另外最好在學(xué)習(xí)的過(guò)程中能結(jié)合實(shí)際案例進(jìn)行,這樣會(huì)有一個(gè)更好的效果。
作者簡(jiǎn)介:中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)專(zhuān)業(yè)研究生導(dǎo)師,從事IT行業(yè)多年,研究方向包括動(dòng)態(tài)軟件體系結(jié)構(gòu)、大數(shù)據(jù)、人工智能相關(guān)領(lǐng)域,有多年的一線研發(fā)經(jīng)驗(yàn)。
歡迎關(guān)注作者,歡迎咨詢(xún)計(jì)算機(jī)相關(guān)問(wèn)題。
給大家推薦一份大數(shù)據(jù)書(shū)單
Flink是大數(shù)據(jù)處理領(lǐng)域最近冉冉升起的一顆新星,它可以基于Hadoop進(jìn)行開(kāi)發(fā)和使用,與Hadoop緊密結(jié)合。本書(shū)旨在幫助讀者從零開(kāi)始快速掌握Flink的基本原理與核心功能,
并具有以下特點(diǎn):
這是一本Flink入門(mén)級(jí)圖書(shū),力求詳細(xì)而完整地描述Flink基礎(chǔ)理論與實(shí)際操作。
采用Flink 1.6版本寫(xiě)作,案例豐富實(shí)用,做到學(xué)以致用。
細(xì)節(jié)與案例兼顧,深入淺出展現(xiàn)Flink技術(shù)精髓。
51CTO熱門(mén)網(wǎng)課配套教材,可與網(wǎng)課結(jié)合學(xué)習(xí),快速提升大數(shù)據(jù)開(kāi)發(fā)技能。
[美] 約西亞 L.卡爾森(Josiah,L.,Carlson) 著,黃健宏 譯
豆瓣評(píng)分8.0
李子驊 著
《Redis入門(mén)指南(第2版)》是一本Redis的入門(mén)指導(dǎo)書(shū)籍,以通俗易懂的方式介紹了Redis基礎(chǔ)與實(shí)踐方面的知識(shí),包括歷史與特性、在開(kāi)發(fā)和生產(chǎn)環(huán)境中部署運(yùn)行Redis、數(shù)據(jù)類(lèi)型與命令、使用Redis實(shí)現(xiàn)隊(duì)列、事務(wù)、復(fù)制、管道、持久化、優(yōu)化Redis存儲(chǔ)空間等內(nèi)容,并采用任務(wù)驅(qū)動(dòng)的方式介紹了PHP、Ruby、Python和Node.js這4種語(yǔ)言的Redis客戶(hù)端庫(kù)的使用方法。
[美] 喬治·特魯希略(George Trujillo) 著,陳鵬,肖明興 譯
本書(shū)旨在幫助讀者了解和掌握不同虛擬化Hadoop選擇的優(yōu)缺點(diǎn)、虛擬化Hadoop的配置及其注意事項(xiàng)。本書(shū)共分15章,主要內(nèi)容包括Hadoop平臺(tái)在企業(yè)轉(zhuǎn)型中扮演的重要角色、Hadoop基礎(chǔ)概念、YARN與HDFS、現(xiàn)代數(shù)據(jù)平臺(tái)、數(shù)據(jù)采集、Hadoop SQL引擎、Hadoop中的多租戶(hù)、虛擬化基礎(chǔ)、虛擬化Hadoop實(shí)踐、虛擬化Hadoop、虛擬化Hadoop主服務(wù)器、虛擬化Hadoop工作節(jié)點(diǎn)、私有云中的Hadoop即服務(wù)、Hadoop安裝以及Hadoop Linux配置。
[美] Lars George 著,代志遠(yuǎn),劉佳,蔣杰 譯
Apache HBase項(xiàng)目管理委員會(huì)主席Michael Stack作序推薦。作者Lars George是HBase Committer,HBase文檔的主要貢獻(xiàn)者,Cloudera公司解決方案架構(gòu)師,主要為Hadoop和HBase提供技術(shù)支持、咨詢(xún)和培訓(xùn)工作。這是一本介紹HBase內(nèi)部機(jī)制的書(shū),是HBase開(kāi)發(fā)指南。本書(shū)探討了如何通過(guò)使用與HBase高度集成的Hadoop將HBase的可伸縮性變得簡(jiǎn)單;把大型數(shù)據(jù)集分布到相對(duì)廉價(jià)的商業(yè)服務(wù)器集群中;使用本地Java客戶(hù)端,或者通過(guò)提供了REST、Avro和Thrift應(yīng)用編程接口的網(wǎng)關(guān)服務(wù)器來(lái)訪問(wèn)HBase;了解HBase架構(gòu)的細(xì)節(jié),包括存儲(chǔ)格式、預(yù)寫(xiě)日志、后臺(tái)進(jìn)程等;在HBase中集成MapReduce框架;了解如何調(diào)節(jié)集群、設(shè)計(jì)模式、拷貝表、導(dǎo)入批量數(shù)據(jù)和刪除節(jié)點(diǎn)等。 本書(shū)適合使用HBase進(jìn)行數(shù)據(jù)庫(kù)開(kāi)發(fā)的高級(jí)數(shù)據(jù)庫(kù)研發(fā)人員閱讀。
想從零開(kāi)始的人,就不要過(guò)于依賴(lài)大數(shù)據(jù)。理由,大數(shù)據(jù)會(huì)制約你的想象力,桎梏你的開(kāi)發(fā)能力。大數(shù)據(jù)對(duì)從零開(kāi)始的人來(lái)說(shuō),只可借鑒利用,絕不可重用。常規(guī)領(lǐng)域里的應(yīng)用,那是另一說(shuō)。哈哈。對(duì)吧?
第一階段:大數(shù)據(jù)基礎(chǔ)語(yǔ)言的學(xué)習(xí)
推薦書(shū)籍:
本書(shū)為我們帶來(lái)了共78條程序員必備的經(jīng)驗(yàn)法則,針對(duì)你每天都會(huì)遇到的編程問(wèn)題提出了有效、實(shí)用的解決方案。 書(shū)中的每一章都包含幾個(gè)"條目",以簡(jiǎn)潔的形式呈現(xiàn),自成獨(dú)立的短文,它們提出了具體的建議,對(duì)于Java平臺(tái)精妙之處的獨(dú)到見(jiàn)解,以及優(yōu)秀的代碼范例。每個(gè)條目的綜合描述和解釋都闡明了應(yīng)該怎么做,不應(yīng)該怎么做,以及為什么。
第二階段: Linux&Hadoop生態(tài)體系Linux體系、Hadoop離線計(jì)算大綱、分布式數(shù)據(jù)庫(kù)Hbase、數(shù)據(jù)倉(cāng)庫(kù)Hive、數(shù)據(jù)遷移工具Sqoop、Flume分布式日志框架
推薦書(shū)籍:
在大數(shù)據(jù)的背景下,我很少看到關(guān)于數(shù)據(jù)建模,數(shù)據(jù)層,數(shù)據(jù)處理需求分析以及數(shù)據(jù)架構(gòu)和存儲(chǔ)實(shí)現(xiàn)問(wèn)題。這本書(shū)卻提供了令人耳目一新的全面解決方案。
《Hadoop權(quán)威指南(中文版)》從Hadoop的緣起開(kāi)始,由淺入深,結(jié)合理論和實(shí)踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據(jù)集的理想工具。
《Hive編程指南》是一本Apache Hive的編程指南,旨在介紹如何使用Hive的SQL方法HiveQL來(lái)匯總、查詢(xún)和分析存儲(chǔ)在Hadoop分布式文件系統(tǒng)上的大數(shù)據(jù)集合。
第三階段: 分布式計(jì)算推薦書(shū)籍:
《Spark 快速大數(shù)據(jù)分析》是一本為Spark 初學(xué)者準(zhǔn)備的書(shū),它沒(méi)有過(guò)多深入實(shí)現(xiàn)細(xì)節(jié),而是更多關(guān)注上層用戶(hù)的具體用法。不過(guò),本書(shū)絕不僅僅限于Spark 的用法,它對(duì)Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
本書(shū)采用理論與大量實(shí)例相結(jié)合的方式幫助開(kāi)發(fā)人員掌握使用Spark進(jìn)行分析和實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法。通過(guò)這些示例和Spark在各種企業(yè)級(jí)系統(tǒng)中的應(yīng)用,幫助讀者解鎖Spark機(jī)器學(xué)習(xí)算法的復(fù)雜性,通過(guò)數(shù)據(jù)分析產(chǎn)生有價(jià)值的數(shù)據(jù)洞察力。
第四階段: 大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn)數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)、數(shù)據(jù)應(yīng)用
第五階段:大數(shù)據(jù)分析 —AI(人工智能)主要是講解Data Analyze數(shù)據(jù)分析基礎(chǔ)、數(shù)據(jù)可視化、sklearn中三類(lèi)樸素貝葉斯算法以及python機(jī)器學(xué)習(xí)等提升個(gè)人能力的內(nèi)容!
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答9
回答