{eval=Array;=+count(Array);}
優秀的數據分析師并不能速成,但是零經驗也有零經驗的捷徑。
市面上有《七周七數據庫》,《七周七編程語言》。今天我們就《七周七學習成為數據分析師》,沒錯,七周。
第一周:Excel學習掌握
如果Excel玩的順溜,可以略過這一周。但很多人并不會vlookup,所以有必要講下。
了解sum,count,sumif,countif,find,if,left/right,時間轉換等。excel的各類函數很多,完全不需要學全。重要的是學會搜索。我學函數是即用即查,將遇到的問題在網上搜索得到所需函數。
重中之重是學會vlookup和數據透視表。這兩個對后續的數據轉換有幫助。
學會vlookup,SQL中的join,Python中的merge能很快掌握。
學會數據透視表,SQL中的group,Python中的groupby也是同理。
這兩個搞定,基本10萬條以內的數據統計沒啥難度,也就速度慢了點。80%的辦公室白領都能秒殺。
網上多找些習題做,Excel是熟能生巧。
養成一個好習慣,不要合并單元格,不要過于花哨。表格按照原始數據、加工數據,圖表的類型管理。
附加學習:
1、了解中文編碼utf-8,ascii的含義和區別
2、了解單元格格式,幫助你了解后期的timestamp,date,string,int,bigint,char,factor等各類格式。
3、如果時間還有剩余,可以看《大數據時代》,培養職業興趣。
第二周:數據可視化
數據分析界有一句經典名言,字不如表,表不如圖。別說平常人,數據分析師自己看數據也頭大。這時就得靠數據可視化的神奇魔力了。
以上就是所謂的可視化。排除掉數據挖掘這類高級分析,不少數據分析師的平常工作之一就是監控數據觀察數據。
另外數據分析師是需要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰數據詳實的PPT給老板看。如果沒人認同分析結果,那么分析也不會被改進和優化,分析師的價值在哪里?工資也就漲不了對吧。
抽空花一段時間學習可視化的基礎,如《數據之美》
另外你還需要了解BI的概念。知名的BI產品有Tableau,Power BI,還有國產的FineBI等。都有體驗版和免費版能下載,網上找一點數據就能體驗可視化的魅力。比Excel的圖表高級多了。
BI需要了解儀表盤Dashboard的概念,知道維度的聯動和鉆取,知道絕大多數圖表適用的場景和怎么繪制。比如以下FineBI制作的dashboard。
第三周:分析思維的訓練
這周我們輕松一下,學學理論知識。
分析思維首推大名鼎鼎的《金字塔原理》,幫助數據分析師結構化思維。如果金字塔原理讓你醍醐灌頂,那么就可以學思維導圖,下載一個XMind中文網站,或者在線用百度腦圖。
再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經典。你要快速成為數據分析師,思考方式也得跟著改變。網上搜咨詢公司的面試題,搜Case Book。
題目用新學的思維導圖做,先套那些經典框架,做一遍,然后去看答案對比。因為要鍛煉數據分析能力。所以得結合數據導向的思維。
這里送三條金句:
一個業務沒有指標,則不能增長和分析
好的指標應該是比率或比例
好的分析應該對比或關聯。
舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎么分析?
這1000人的數量,和附件其他超市比是多是少?(對比)
這1000人的數量比昨天多還是少?(對比)
1000人有多少產生了實際購買?(轉化比例)
路過超市,超市外的人流是多少?(轉化比例)
這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。
第四周:數據庫學習
Excel對十萬條以內的數據處理起來一點不虛,但是資深的數據分析師還是笑摸狗頭,Too Young Too Sample,爺搞得都是百萬數據。要百萬數據,就得上數據庫。
SQL是數據分析師的核心技能之一。有些公司并不給數據庫權限,需要分析師寫郵件提需求,這非常不好。數據分析師經常有各類假設需要驗證,很多時候寫十幾行SQL就能得到的答案,還得麻煩其他部門導出數據。
SQL學習不需要買書,W3C學習就行了,SQL 教程。大多數互聯網公司都是MySQL,我也建議學,性價比最高。
作為數據分析師,只要懂Select相關,增刪改、約束、索引、數據庫范式全部略過。你的公司心得多大才會給你寫權限。
了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函數等即可。
你看,和Excel的函數都差不多。如果時間充裕,則學習row_number,substr,convert,contact等。和Excel一樣,學會搜索解決問題。不同引擎的函數也會有差異,例如Presto和phpMyAdmin。
期間你不需要考慮優化和寫法丑陋,查詢幾秒和幾分鐘對數據分析師沒區別,跑數據時喝杯咖啡唄,以后你跑個SVM都能去吃飯了。
網上搜索SQL相關的練習題,刷一遍就行。也能自己下載數據庫管理工具,找些數據練習。我用的是Sequel Pro。
第五周:統計知識學習
統計學是數據分析的基礎之一。
統計知識會要求我們以另一個角度看待數據。當你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會顯著提高。
這一周努力掌握描述性統計,包括均值、中位數、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。詳細的數學推導不用細看,誰讓我們是速成呢,只要看到數據,知道不能怎么樣,而是應該這樣分析即可。
Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變量多樣本,學會各種檢驗。
《統計數字會撒謊》休閑讀物,有趣的案例可以讓我們避免很多數據陷阱。
深入淺出統計學 (豆瓣)還是經典的HeadFirst系列,適應它一貫的啰嗦吧。
多說一句,老板和非分析師不會有興趣知道背后的統計學原理,通常要的是分析后的是與否,二元答案。不要告訴他們P值什么的,告訴他們活動有效果,或者沒效果。
第六周:業務學習(用戶行為、產品、運營)
這一周需要了解業務。對于數據分析師來說,業務的了解比數據方法論更重要。當然很遺憾,業務學習沒有捷徑。
我舉一個數據沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低于其他城市,導致用戶的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。后來在訪談中發覺,因為重慶是山城,路面高低落差比較夸張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。
這個案例中,我們只知道送貨員的送貨水平距離,數據上根本不可能知道垂直距離這個指標。這就是數據的局限,也是只會看數據的分析師和接地氣分析師的最大差異。
對于業務市場的了解是數據分析師工作經驗上最大優勢之一。既然是零經驗面試,公司肯定也知道剛入門分析師不會有太多業務經驗,不會以這個卡人。所以簡單花一周了解行業的各指標。
《增長黑客》
數據驅動業務的典型,里面包含產品運營最經典的AAARR框架,部分非數據的營銷案例,
《網站分析實戰》
如果應聘的公司涉及Web產品,可以了解流量的概念。書中案例以Google Analytics為主。其實現在是APP+Web的復合框架,比如朋友圈的傳播活動肯定需要用到網頁的指標去分析。
《精益數據分析》
互聯網數據分析的入門書籍,歸納總結了幾個常用的分析框架。比較遺憾的是案例都是歐美。
還有一個小建議,現在有不少第三方的數據應用,囊括了不少產品領域的數據分析和統計。自學黨們即使沒有生產環境的數據,也可以看一下應用Demo,有好處的。
除了業務知識,業務層面溝通也需要掌握。另外建議在面試前幾天收集該行業的業務強化一下。
第七周:Python/R學習
終于到第七周,也是最痛苦的一周。這時應該學習編程技巧。是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘,爬蟲,可視化報表都需要用到編程能力。掌握一門優秀的編程語言,可以讓數據分析師事半功倍,升職加薪,迎娶白富美。
這里有兩條支線,學習R語言或Python。速成只要學習一條,以后再補上另外一門。
R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函數的調用,繪圖,分析的前驗性論證,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,sklearn等各包也已經追平R。
如果學習R,建議看《R語言實戰》,照著書本打一遍代碼,一星期綽綽有余。另外還有一本《統計學》,偏知識理論,可以復習前面的統計學知識。
R學習和熟悉各種包。知道描述性統計的函數。掌握DataFrame。如果時間有余。可以再去學習ggplot2。
Python擁有很多分支,我們專注數據分析這塊,入門可以學習《深入淺出Python》。
需要學會條件判斷,字典,切片,循環,迭代,自定義函數等。知道數據領域最經典的包Pandas+Numpy。
在速成后的很長一段時間,我們都要做調包俠。
這兩門語言最好安裝IDE,R語言我建議用RStudio,Python我建議用 Anaconda。都是數據分析的利器。
Mac自帶Python2.7,但現在Python 3已經比幾年前成熟,而且沒有編碼問題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會有環境變量的問題,是個大坑(R的中文編碼也是天坑)。
到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟速成是以轉崗或拿offer為目的。有機會,我會專門寫文章講解每一周的具體知識,并且用爬蟲爬一些數據做練習和案例。
文章源自知乎作者秦路
作為一個奮戰在一線的數據分析崗,我覺得應該有些話語權。
首先,需要定位清楚,學習是一個量變的過程,但是,我想分享的是如何快速且高效的掌握到技能然后找到自己想要的工作。前面分享的各位大佬都把數據分析中用的工具給列了出來。
然而,我這里分享的就是數據分析崗需要解決什么任務,為了解決什么任務用什么樣的數據分析工具去分析。在這個分析的過程中,把工具使用透。而不是先把工具學會,再去分析,本末或許會被倒置。
互聯網電商常見命題:
訂單量增長原因,差評增加原因,訪問pvuv增長。
使用工具:最簡單的excel,基本的sql查詢語句、python的使用
通過以上兩種工具可以有效解決各種同類問題,對于工具類的使用,往往都是由點到面,因為工具很優秀,而你需要的只是,能夠在需要用到它的時候知道怎么用。
app運營常見命題:
app用戶注冊量、用戶ugc增長量
使用工具:sql、excel、python
那么問題來了,其實現如今,只要能夠利用這三個工具,就可以再數據分析入門的時候找到一份不錯的job。以戰代練,往往在技術性工作中能給自己帶來很大的幫助。
如有興趣,歡迎私聊。本人擔任某大型電商數據分析,歡迎交流經驗
不管是運營APP,還是運營微信公眾號,頭號號,大魚號,還是百家號,新媒體數據不僅是數據工程師和分析師的事情,在工作中也要求運營從業者有一定的數據分析能力。
新媒體數據分析
公子義認為數據是優化新媒體運營關鍵所在,能更好推動運營策略和工作的開展。
但運營童鞋多是數據小白,沒有編程和技術基礎,該怎么分析并用好數據呢?
今天從運營常見的數據問題出發,希望讓大家能快速地入門數據分析,讓數據更好地為工作服務,別白白浪費數據的價值。
一、數據分析應該從哪里入手?
從哪些角度入手?這是運營小伙伴們最頭痛的問題,不知道該關注、分析哪些數據,就算拿到數據后,也不知道到底從哪些方面去分析這些運營數據。
新媒體數據分析
公子義給小伙伴們整理一些運營常見的數據指標,也總結了一些比較適用的分析角度,希望有用~
1、新媒體運營關注的常見數據指標
1)訪問:PV、UV、IP(最常見);跳出率、平均訪問時長、平均訪問頁數等;
2)注冊:關注人數、關注走勢、累計關注人數、轉化率等;
用戶
1)活躍:內容PV、UV;UGC、PGC、文章數、關注數、閱讀數、互動數(評論、點贊等)、傳播數(轉發、分享等);
用戶喜好文章的類型
2)互動人數:每日評論人數、收藏人數、分享人數等
3)頭像:分析用戶屬性,關注年齡、性別、學歷、職業、地域、婚否、收入、興趣等;
2、新媒體運營數據分析要遵循哪些原則?
但是運營畢竟不是專業的數據分析師,主要能用好這些原則就夠了~
對比:分成橫向和縱向對比,比如縱向的同環比分析,橫向的不同產品、不同渠道的對比等;
走勢(變化):指標隨時間的變動,表現為增幅(同比、環比等);
分布:這個好理解,比如說用戶不同年齡段的分類、不同職業的分布、不同地域分布等;
用戶地域分布圖
細分:從多層級去了解數據,比如分析全國不同省份不同城市的具體訂單數據,從全國—省份—城市一一下鉆深入分析;
如何變身自己的“專屬分析師”呢~數據分析的整個過程:確定指標——數據收集——數據整合、數據處理/建模、數據分析、數據呈現、報表整理
數據收集:可通過公司數據庫埋點獲得,可以通過頭條號、微信公眾號、大魚號、百家號等媒體平臺獲得,也通過一些記錄的數據獲得。
數據整合:運營人要看的數據太多了,有數據庫,有各種第三平臺的數據(新榜、清博指數、公眾號等),每次都需要從不同平臺取數據,太分散了,最好能在一個數據平臺集中管理數據。
爆款文章數據分析
數據分析:可參考分析方法,比如“求和、計數、同環比、多粒度下鉆”等分析,一般在Excel中需通過寫公式搞定。
數據呈現(可視化):
簡單地說,就是如何制圖唄,報表匯報:將數據通過表格、圖表或其他形式向領導匯報。如何不依賴分析師,自己搞定數據分析呢?
1、學習一些數據分析理論。(數據思維)
2、了解、熟悉業務,這點很重要。(業務思路)
3、學習一些數據分析工具。(工具輔助)以我的個人經驗來看,真正把握這些真真是夠了
二、如何制作讓老板滿意的好看圖表?
沒有哪個老板喜歡雜亂的表格數據,顏值才是王道啊。簡單地說,就是數據如何可視化,讓數據直觀、明了。
分析數據占比:分析單維度的數據占比可用餅/環圖、分析多維度的數據占比,可用旭日圖和矩形樹圖。
分析數據走線圖:最常用的是折線圖,柱狀圖也可以表達,直觀度略低于折線圖。分析地區分布:全國、省份分布可用行政地圖,更詳細的地域分布可用經緯。
用戶分析詞頻
分析詞頻:比如用戶的職位分布,可用詞云,有3D效果哦~分析轉化效果:那肯定用漏斗圖最最合適。
關于轉化,分享一個自己身邊的真實故事。每個圖表都有適合的使用場景,用好各種圖表很重要,直接影響到數據的直觀和美觀程度。
三、如何快速找到數據背后的問題?
做了那么多的數據工作,最終無非是為了從數據中去發現問題,不斷優化運營策略。
不論數據是上升了還是下降了,肯定有其變化的原因,這里以用戶數據變化為例了解一下快速找到問題的思路。
看數據—發現問題—解決問題—再看數據—問題解決,或者看數據—發現增長—找到原因—繼續應用。
作者 l 公子義
來源 l 公子義(ID:gongzi348)
數據分析分為兩部分,數據和分析。
數據通過Excel和PPT即可展示,可以在一些專業的數據平臺獲得數據,比如艾媒北極星、百度指數、微指數、微信指數等等。
而分析才是大學問。對于數據的引用,分析的方法,推薦你可以參考一些部門、協會和機構的高質量數據報告,比如麥肯錫,尼爾森,思略特,艾媒咨詢,多參考專業的報告進行練習。
怎么入門數據分析?
1、打好概率與統計的基礎
概率與統計是數據分析的基石,像一些概率分布、抽樣、線性回歸、時間序列都是數據分析當中經常會用到的,可以說日常碰到的大部分的分析需求都可以用統計分析來解決。
2、掌握數據庫技能
做數據分析離不開查詢數據庫,這里主要涉及的是SQL。對于傳統的數據庫如MySQL,SQL Server,Oracle,或者大數據平臺Hadoop,都可以通過SQL查詢的方式來獲取數據。
3、掌握Python或者R
Python和R是數據分析當中最常用的兩門語言。R是為數據分析而生的一門語言,但Python在數據分析方面有后來居上的趨勢。
4、機器學習
數據分析如果繼續深入的話,可以學習機器學習。機器學習涉及的理論主要是分類、回歸、聚類、決策樹、貝葉斯定理等。
相關:大數據分析學習的詳細解讀
https://www.toutiao.com/i6616593013986558471/
數據科學,數據分析和機器學習之間的差異
https://www.toutiao.com/i6592350285857817102/
https://www.toutiao.com/i6630975917390823943/
- 數學基礎(數據分析的原理)
- 編程基礎(數據分析的實現手段)
- 這兩個基礎建議先了解一下基本的數學原理;
- 然后根據你需要,選擇一款相關數據分析軟件(Excel、SPSS、Matlab、R、Python),做些針對性的練習;
- 后面在不斷的實際應用中學習成長就好。
摘自今日頭條號《算法集市》— 數據分析的數學基礎簡介
1、描述性數據匯總
描述性數據匯總可以識別數據的典型性質,包括數據的中心趨勢和離中趨勢。
1.1、數據中心趨勢
數據中心趨勢度量包括:均值(mean)、中位數(median)、眾數(mode)、中列數(midrange,數據最大和最小值的平均值)、加權平均(weighted average)。
截斷均值(trimmed mean):為了抵消少數極端值的影響,同時避免損失有價值的信息,可以在計算均值前去掉上下各2%~5%的值。
1.2、數據離中趨勢
數據離中趨勢,即數據分散程度,其度量包括:極差(range,數據最大值和最小值之差)、方差(variance)
1.3、數據匯總可視化
數據匯總可視化可用不同的圖形表示:直方圖、餅圖、線圖、散點圖、雷達圖、組合圖等。
2、數據預處理
現實世界的數據通常是不完整、含噪聲、不一致的,對數據進行預處理,可提高數據質量,從而有助于提高其后數據挖掘的精度和性能。
2.1、數據清理
數據清理對象包括缺失值、噪聲數據、離群點。
缺失值:忽略缺失值所在組、人工填寫缺失值、使用全局常量填充、利用均值代替、利用最值代替;
噪聲數據:利用數據鄰近值的均值或中位數光滑(分箱)、利用回歸函數擬合數據;
離群點:人工去除離群點、設置數據最值邊界去除離群點、通過聚類檢測離群點。
2.2、數據變換
數據變換將數據轉換或統一成適合挖掘的形式。
光滑:去除數據噪聲,包括分箱、回歸、聚類;
聚集:對數據匯總或聚集,包括總和、均值、方差;
分類:根據數據屬性對其分類;
規范:將數據按比例縮放,包括最小-最大規范化、Z-score規范化、小數點移動規范化;
屬性構造:根據數據給定屬性,通過組合添加構建新屬性。
3、數據處理
1)分類和預測:可用相同的數據處理方法進行,分類是離散的函數模型,預測是連續的函數模型,包括回歸分析、神經網絡、遺傳算法、模糊分析、決策樹;
2)聚類:劃分方法、層次方法、基于密度的方法、基于網格的方法、基于模型的方法;
3)降維:主成分分析、低方差濾波、高相關濾波。
每個人的學習能力和基礎都不同,所以數據分析的學習周期也不同。如果是通過自學的方式,由于無專業老師指導及無法系統的學習,這個周期可能會很長。一般來講,如果零基礎的學習者進行系統的培訓,最快也要將近三、四個月的時間。
數據分析的學習應該首先從熟悉表以及表結構開始,它的原點一定是在首先了解熟悉Excel的基礎上,在能夠從數據庫里提數的基礎上再進行技能的升級。你的技能從能夠從數據庫里提數,并且用Excel和BI處理幾萬行的小數據量,到使用python批量化處理幾十萬甚至百萬行中量級數據量,到最終使用大數據的相關組件,例如hadoop,spark,flume等組件處理千萬級甚至是億級大數據量。每一個階段所需要的工具加方法論都是不一樣的。一般而言,對于自學而成為能處理中量級數據量的分析師而言,得至少入門python的pandas,numpy等數據處理庫。這個零自學的周期,也一般跟悟性和自律有關,悟性和自律性高的同學,可能在4個月能夠掌握;如果悟性和自律性不高的同學,這個周期有可能就是半途而廢,無法估量時間了。
(1) Excel
說起Excel可能會有人覺得這個很簡單,但是Excel確實是一個功能強大的利器。零基礎學數據分析師一定要從Excel入門,因為Excel是處理小型數據量企業用的最多的工具,在基礎數據分析師與數據運營崗位中具有極其重要的地位。作為數據分析師的核心工具,具體學習內容有Excel函數技巧(查找函數、統計函數、邏輯函數)、Excel快速處理技巧(格式調整、查找定位、快捷鍵技巧等)和Excel可視化技巧(組合圖、條形圖、數據氣泡地圖)等。
(2) Mysql
SQL同樣是零基礎學習數據分析的核心內容。因為作為數據分析師,你首先要解決的問題就是你要有數據來做分析。通常企業都會有自己的數據庫,數據分析師首先得根據業務需要知道自己要從企業數據庫中提取哪些數據。企業如果部署本地數據庫,那么一定是SQL語言做提取數據的語言。SQL簡單易懂,非常容易上手,并且是非學不可的。SQL語言從學習MySQL數據庫開始,涉及對表結構數據的增刪改查。真正在企業里面,數據分析師一般不會有增刪改的權限,只會有查的權限。學員應該重點掌握查的各種句式。
(3) Python
Python的基礎對于數據分析師而言是非常重要的。對于十萬級或者百萬級數據量而言,Excel和BI都會因為運行卡頓而變得完全無法使用。然而在實際企業運用中,一次性處理十萬級以及百萬級數據又是非常常見的。而Python則是處理這種中量級數據的利器。因為Python有很多的第三方強大的庫,比如Numpy、Pandas、Matplotlib、Seaborn等。這些庫能讓數據分析師對百萬數據進行數據清理和畫圖分析。Python不僅能數據清洗,畫圖,還能用sklearn進行大數據算法分析。雖然Python是數據分析的重要工具,但是不同的職業發展方向,Python掌握的程度也是不一樣的。
(4) BI商業智能工具
BI可以理解成Excel圖表透視表的高級版。BI是將表與表相連,然后得出很多指標圖。它是一個大屏的看板,如下圖:
企業銷售指標,運營指標,物流指標等等。這些圖可以表示企業在過去5個月的平均銷售單價,過去24個月銷售的物流發貨量的變化曲線,甚至是現在實時的銷售額,這些都是企業關心的問題。有了這個看板,領導層在監控企業業務方面就有了非常直觀的數據,以供他們及時做出決策調整。現在市面上比較流行的BI軟件,有FineBI,PowerBI等。而這些BI軟件實際上都是非常類似的,學起來難度也不大。學習FineReport、FineBI由入門到精通,快速挖掘數據價值,將這些數據轉化成有用的信息,讓企業決策有數據依據,從而驅動企業決策和運營。
(5) 數理統計與數據運營
數理統計和數據運營方法論是數據分析師的理論基石。數理統計包括概率論,統計學,線性代數,以及基礎的微積分理論。這些內容都不需要理解的很深,但是對它們的原理以及內涵都需要有所掌握。由于整個數據分析的源頭其實就是脫胎于描述性統計分析的。描述性統計分析是對樣本的總數、均值等指標做統計的;而數據分析后續涉及到的算法則是架構在統計學上更深一層次的建模。因此,掌握數理統計的相關知識對于入門數據分析師而言是基礎且必要的。
那數據運營方法論是什么呢?數據運營方法論實際上是學習各個行業所運營的分析模型。例如,對電商而言,漏斗分析可以分析出來進入主頁的人數PV1,到進入服裝板塊的人數PV2,PV2/PV1就可以得出一個進入服裝板塊的比率。還有很多通用的分析模型:相關分析,A/B test等。對于想往管理路線發展的數據分析師來講,數據運營是必須要學習的知識。其實數據運營知識也不復雜,就是根據自身業務需求將指標拆解到最細,然后運用同比和環比兩種數據分析方式。
(6) 機器學習
最后一個進階要求數據分析師掌握對大量數據分析的能力。這種分析就不只是停留在描述統計分析和運用數據運營方法進行分析了,而是進行預測分析。預測分析的本質是利用已有的數據做出一套變量x,與預測最終值y之間的關系(也就是數學算法公式),然后利用這套算法,將更多的x輸入算法中去得出一個預測的y值,這里聽不懂沒關系。總之,這個階段的數據分析是利用大量的歷史數據構建出一套數學公式(也就是算法),用這個數學公式去對未來進行預測。比如說:一個人大量地刷體育短視頻,根據算法可以得出這個人可能對觀看足球比賽的ucloud體育會員感興趣。這類推斷和預測對于商業世界是有著極大變現意義的。要想成為掌握算法的數據分析師,機器學習是不可跳過的入門。學員應該從簡單的一元回歸,多元回歸,以及邏輯回歸學習等,逐漸學習更多像決策樹,隨機森林,SVM等更高級的算法。
一、為什么學習數據分析
1、運營的尷尬:運營人需要一個硬技能
每個初入行的新人都會察覺到,運營是一個似乎并沒有自己的核心競爭力和安全感的工作。因為每天的工作好像都被各種瑣事所圍繞,而只有一個主題是永恒不變的,那就是---提需求,不斷的提各種需求。
運營人需要一個硬核技能,提升自己的職業價值,提高自己的職業安全感,而不是每天都在各種的等排期:數據分析排期、產品設計排期、UI排期、開發排期。
運營迫切需要通過利用SQL/Python等工具,從數據中及時發現更多的業務價值,提高自己的產出。
2、數據分析的前景這幾年隨著人工智能的火熱,數據分析技能也逐漸受到了更多的認可。從國外BA專業申請和國內數據分析培訓的火熱也可見一斑。但對于在職人士,從單純的技能習得角度去看,BA的能力完全是可以自學獲得的。
我認為,未來數據分析能力在運營人的能力模型中的比重仍會繼續加大,將來甚至會擠壓數據分析師的需求和生存空間,所以,對于數據分析,前景很好,而數據分析師,前景并不樂觀。
二、學習數據分析需要做的準備1、明確方向:數據分析有兩個方向:
一個是業務向:如數據產品經理、數據分析師,對技術要求并不那么高;
一個是技術向:需要懂數據挖掘、算法等,對技術的要求較高。
從自己的定位來看,并不打算做數據挖掘,因為自己的知識結構和時間上的投入產出比可能并不太高。主要希望通過數據分析技能,增強自己作為產品運營的競爭力。
2、做好持久戰準備:于我一個沒有任何基礎的純小白而言,并不是能速成的,需要做好持續學習的準備。
三、做好數據分析需要具備哪些技能1、統計學基礎知識
2、Excel的熟練使用
3、SQL
4、Python
5、分析方法和思維
6、對業務的充分理解
從自身來看,主要需要彌補的為:SQL+EXCEL+統計+PYTHON。
主要以看書為主,視頻為輔,不需要報任何的培訓班。
1、SQLSQL大概是互聯網公司做數據分析用到的最多、最重要的工具了,在整個數據分析過程中,用Sql提取數據,可能要占到整個數據分析過程的50%-80%,以至于很多數據分析師都被戲稱為“Sql Boy/Girl”。
mysql數據庫的功能可以用四個字概括:增刪改查。
但是對于我們來說,我們能用到的只會有數據庫查詢功能,其它權限是不可能開放給你的。
如果數據庫你覺得生澀的話,可以這么理解:
?SQL? 就是一條存取數據的命令
?數據庫? 就相當于一個文件夾
?數據表? 就相當于文件夾內的一個Excel文件
–表名就是文件名
–表中的每一列有一個名字,就是列名,也可以成為字段
SQL的學習可以分為三塊:
簡單查詢、
關聯查詢、
函數引用。
什么是查詢呢?
在數據庫建立之后,通過sql命令里最常用的語句SELECT,讓我們查看數據庫里保存的數據,并可以進行一定的分析和歸納。
簡單查詢:
SELECT語句的完整格式包含6個子句:
1、FROM 子句:查詢數據的表,指定數據的來源。
2、WHERE 子句:查詢數據的過濾條件。
3、GROUP BY 子句:對匹配 WHERE 子句的查詢結果進行分組。
4、HAVING 子句:對分組后的結果進行條件限制。
5、ORDER BY 子句:對查詢結果進行排序,后面跟 DESC 降序或 ASC 升序(默認)。
6、LIMIT 子句:對查詢的顯示結果限制行數。
關聯查詢:
如果要進行多表查詢,就需要用到連接。
連接查詢是把兩個或多個表連接在一起來獲取數據,是關系型數據庫中最主要的查詢。表的連接方式主要包括內連接、外連接和交叉連接等。
1、from 指定查詢表名、并給出別名。
2、left join 左外連接,左表全部記錄及右表匹配記錄出現在查詢結果中。
3、inner join 內連接,左表和右表共同的記錄出現在查詢結果中。
4、right join 右外連接,右表全部記錄及左表匹配記錄出現在查詢結果中。
5、on 指定關聯條件。
表連接后的結果可以通過這個圖清晰的展示出來。
舉個栗子:
函數引用:
利用函數可以提高sql的效率,經常用到的函數主要有:
邏輯運算:and、or、not;
數值運算:round、floor、ceil、rand、exp、sqrt等;
日期函數:from_unixtime、unix_timestamp、year、month、day、hour、minute、second、weekofyear、detediff、date_add、date_sub等;
條件函數:if、coalesce、case when等;
字符串函數:concat、substr、trim、reverse、split等;
集合統計函數:count、sum、max、min、percentile等。
推薦書目:
推薦下我們部門每個運營同學人手一本的必備書目:
《SQL必知必會》
Hive
隨著數據量的不斷增加,很多時候mysql已經滿足不了數據需要,很多公司開始使用hive或者presto。
其實有了SQL的基礎,HIVE學習還是比較簡單的。
推薦書目:《HIVE編程指南》
重點看下HQL的數據操作、查詢、調優部分,與mySQL大同小異,只是一些語法需要多帶帶注意下即可。
2、ExcelExcel大家多少都會一些,它的功能很強大,但是絕大多數人,可能使用了它的1%功能都不到。
Excel 可以進行各種數據的處理、統計分析和輔助決策等,作為常用的數據處理和展現工 具,我們除了要熟練使用Excel 的函數和數據透視表等操作工具,更重要的是,利用好Excel 的可視化,用圖表將結論展現出來,這樣分析和可視化能力會得到迅速提高。
SQL+Excel可以說是數據分析的必備神器。
推薦書目:《誰說菜鳥不會數據分析》。
這本書不只是介紹Excel的功能,更重要的是介紹一些實踐場景中數據分析的步驟和思路,對于初學者有很大的指導意義。
3、統計學統計學是數據分析的理論基礎,可以使數據分析更加系統化。沒有統計學基礎的數據分析師的職業發展之路不會長遠,因為在工作中可能會常常遇到不知道該用什么方法找尋數據規律的瓶頸,因此掌握數據分析的統計學基礎知識是成為一名優秀數據分析師的基礎。
主要需要掌握:
用于集中趨勢分析的平均數、中數、眾數;
用于離中趨勢分析的全距、 四分差、平均差、方差、標準差;
研究現象之間是否存在某種依存關系的相關分析;
確定兩種或 兩種以上變數間相互依賴的定量關系的回歸分析;
揭示同一個變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系的關聯分析、R-Q 型因子分析;
研究從變量群中提取共性因子 的因子分析;
用于兩個及以上樣本均數差別的顯著性檢驗的方差分析;
概率及分布、參數估計、 假設檢驗等等經典統計學內容。
很多人都推薦《商務與經濟統計》,說實話,這本書對小白并不友好。
我的進階路徑是:《赤裸裸的統計學》→《深入淺出統計學》→《商務與經濟統計》
前面2本書更加有趣味性,對于小白,更容易理解,不至于讓你很快從學習到放棄。
4、Python說實話,互聯網行業日常的數據分析中用到python的機會并不多,SQL+EXCEL可以說能解決95%的工作需要。另外5%主要是在數據量較大,SQL已經無法滿足工作需要時,那么Python大法就該出場了。
我們分析一般都是有了現成的公司數據,很少有從外部獲取的,所以爬蟲,可以暫時先不學,有需要的話,先找爬蟲插件搞定即可。
主要學習python基礎和數據分析的幾個包。
作為一個沒有編程、數學、統計基礎的小白,我是從《父與子的編程之旅》開始看的,這本書對我這種完全負基礎的人,真是極度友好,可以說,看了很多推薦的書和視頻,最開始學習的時候,只有這一本書是我可以看懂,而且看得下去的。
這本書看完后,又對照《笨方法學python》做了些題目,然后可以進入python數據分析的學習,主要是《利用python進行數據分析》,主要掌握numpy、pandas、Matplotlib庫等。
作為一個文科生,圖書館學專業。
大學第一次接觸計算機(不知道怎么開機,丟人嘍)。
四年優秀的大學生涯,第一次掛科是:計算機,最后一次掛科也是:計算機。
缺乏理科素養,計算機小白癡,又是計算專業的門外漢。
畢業找到了互聯網研發工作(大學自學編程:Java,前端)
工作是數據開發,寫SQL
現在,我在努力的學習統計學,多元分析,數據挖掘。這么努力只是因為我太窮!
我理解的數據:我們在由人,物,事 組成的時空場景,通過事來完成人與物的交互,這也是生命無終無始過程。人或物獨立存在時中我們只能用“0”去重新的描述。當人和物通過事交互的時,我們可以對人和我作出更多的了解,比如我們用尺子來度量人:不了解到人有高低胖瘦,尺有長短精密。數據是客觀描述與抽象認知。交互繁生數據,數據又作用于交互。
在統計,分析,挖掘中定位什么是數據分析:
統計的側重點:了解(描述)事物,數字化也更好的傳達這種數字化了解。
分析的側重點:發現問題,發現細微的差異變化。
挖掘的側重點:發現價值,升級認知,獲取更多價值。
所以開始學數據分析第一步是:學習基礎的統計學,只有了解了事物才能開始分析。
統計,分析,挖掘 都是處理數據的方式方法,是彼此銜接的一個過程,有聯系有交集。沒有明顯的界限,卻又獨特的特點。
統計: 需要了解基礎的統計量:最大值,最小值,中位數,中序數,眾數... 最重要的是均值和方差;數據的分布:卡方分布,二項式分布,正態分布;假設檢驗的方法;---是什么?
分析: 相關性分析方法比如:分類,聚類,判別,典型相關性。關聯分析考察多因素對事物的影響:方差分析,因子分析,主成分分析,回歸分析;--怎么了?
挖掘:挖掘通過統計和分析發現不了的潛在有價值的規則,比如:關聯推薦(啤酒與尿布),K近鄰,神經網絡;用高速計算的電腦來彌補人腦的短板。--這樣呀?
從統計學基礎開始,沒到周六日我都抱著《商務統計學》看呀看呀,看了很久,慢慢的開始頓悟了,也許這就是時間的力量,不斷堅持的力量吧,相信:無他,唯手熟爾。
然后,就買了一本 統計學基礎R版,開始學著用R語言去實踐分析,也是堅持學了R的各種常用的數據分析方法,大數據面前,excel的處理能力比較有所局限,學一門計算機語言,借助計算機的處理能力,我們的數據分析能力能夠更進一步,更上一層樓。
現在,每周堅持用R去做一些有趣的數據分析,累計寫了很多很多分析相關的文章,實踐演練是學習真功夫的最佳途徑;有圖為證。
發現數據分析也是一件有門有道,有章有法的事。簡單而言六個字:“構成,對比,趨勢”
構成——是數據內部的組合分布,主要描述“我”是誰?知道“我”是誰是最為關鍵的一步,正如一句古語:“知己知彼,百戰不殆”。
對比——是組成部分的對比知道我最重要的是什么;現在“我”與過去“我”的對比知道成長;同類的對比知道“我”與“他”的不同,顯示我的優劣不足,我們才能有的放矢。
趨勢——是變化走向的描述,主要掌握“我”要到哪里去,有跡可循,有蹤可跟,我們才能把握未知,不偏不倚的駛向好的未來。
希望,我們菜鳥展翅,一飛沖天吧。喜歡的話,點個贊再走吧。
沒有計算機基礎,沒有編程基礎,不知道有沒有數學基礎,線代基礎,統計方面的知識,要是有的話,學起來相對能輕松點。
是為了求職而學的話,數據分析職位對于應聘者的要求都有:數據庫會SQL,MYSQL或者其他,會R,Python,java其中一種或兩種編程,統計軟件的話,會SPSS,R,State等,當然,excel功能很強大,能熟練使用各種函數或者數據分析也是必須的。
學習建議的話,可以從excel入手,深度學習方法和技巧,接著學習線代,數學,統計的理論知識,會的話略過,然后開始著手軟件,結合各種案例多分析多聯系多思考,在學習計算機原理的同時,可以結合著學學編程,學編程的過程中會涉及到從數據庫挖掘數據什么的,可以看看數據庫的書,最后,可以爬蟲,挖掘需要的數據,并自己做有效分析,得出有價值的結論。
總之,從興趣出發,堅持學習就夠了。
0
回答10
回答0
回答5
回答0
回答1
回答0
回答0
回答0
回答0
回答