摘要:以大量微博用戶數(shù)據(jù)為基礎(chǔ)可建立數(shù)據(jù)模型。當(dāng)前微博除了用戶自己,其他人是不能查看該用戶所有粉絲數(shù)據(jù)的。
項(xiàng)目地址:
https://github.com/daweilang/...
開(kāi)始抓取微博數(shù)據(jù)的時(shí)候,只是想獲得一條熱門(mén)微博下的所有評(píng)論,因?yàn)槔锩嬗胁簧賵D片廣告,所以想試試能不能分析出熱門(mén)微博評(píng)論里的異常用戶。
使用PHP的Laravel框架后,通過(guò)隊(duì)列、命令等各種功能,最后構(gòu)架了一套完整的微博用戶數(shù)據(jù)抓取平臺(tái),經(jīng)過(guò)一段時(shí)間的運(yùn)行積累了大量數(shù)據(jù),那么使用這些數(shù)據(jù)能做什么呢?
微博數(shù)據(jù)分析很早就有人在做了,網(wǎng)上采集分析工具貌似有很多,搜索一下想找一些微博數(shù)據(jù)分析的具體方案。世事變幻,發(fā)現(xiàn)很多幾年前的微博數(shù)據(jù)分析平臺(tái)都不能用了,可能微博數(shù)據(jù)分析和微博一樣在商業(yè)上還是沒(méi)有什么更好的盈利模式。。。
根據(jù)之前網(wǎng)上微博數(shù)據(jù)分析的方案,微博傳播力是數(shù)據(jù)分析的一個(gè)方向,熱門(mén)微博轉(zhuǎn)發(fā)傳播可以用于廣告營(yíng)銷分析,這個(gè)數(shù)據(jù)基礎(chǔ)是采集微博內(nèi)容和傳播路徑,和我的數(shù)據(jù)獲取方式并不相同。
沒(méi)有找到用戶數(shù)據(jù)分析的解決方案,也沒(méi)有數(shù)據(jù)挖掘相關(guān)知識(shí)的基礎(chǔ),所以還是以一個(gè)程序員的角度說(shuō)說(shuō)微博用戶數(shù)據(jù)使用的設(shè)想吧。
使用Laravel框架搭建的平臺(tái)是以微博用戶為基礎(chǔ)的數(shù)據(jù)抓取模式,可以獲得某條微博下的所有評(píng)論、轉(zhuǎn)發(fā)和贊。進(jìn)一步深入,獲得一個(gè)微博用戶的所有微博后,即可以獲得該用戶所發(fā)微博,包括其評(píng)論、轉(zhuǎn)發(fā)和贊的所有數(shù)據(jù)。
微博用戶的完整數(shù)據(jù)中能夠得到什么? 一、通過(guò)微博贊積累微博用戶微博不能重復(fù)點(diǎn)贊,所以一條有百萬(wàn)個(gè)贊的微博就能獲得百萬(wàn)用戶基礎(chǔ)信息,這是積累微博用戶池效率比較高的方式,不過(guò)隨著累積量增加,重復(fù)數(shù)據(jù)變多,效率會(huì)降低。同樣評(píng)論和轉(zhuǎn)發(fā)也可以積累用戶信息,不過(guò)重復(fù)性使得獲取數(shù)據(jù)效率不高。
二、通過(guò)數(shù)據(jù)建立關(guān)于用戶的數(shù)學(xué)模型早就把數(shù)學(xué)模型還給大學(xué)老師了,當(dāng)年這東西也沒(méi)好好學(xué)。不過(guò)還是明白一點(diǎn),一個(gè)用戶,其粉絲量、微博數(shù)和轉(zhuǎn)發(fā)、評(píng)論、贊應(yīng)該有一定的數(shù)學(xué)模型關(guān)系。
具體來(lái)說(shuō),百萬(wàn)級(jí)的微博用戶,其微博的平均轉(zhuǎn)發(fā)、評(píng)論、贊,應(yīng)該在一定的范圍內(nèi)。以大量微博用戶數(shù)據(jù)為基礎(chǔ)可建立數(shù)據(jù)模型。這種模型可以用來(lái)評(píng)估一個(gè)微博用戶的健康性。
三、通過(guò)數(shù)據(jù)獲得用戶的活躍粉絲一個(gè)微博用戶的完整數(shù)據(jù),通過(guò)交叉對(duì)比可以獲得粉絲的活躍度。
當(dāng)前微博除了用戶自己,其他人是不能查看該用戶所有粉絲數(shù)據(jù)的。但是通過(guò)“共同關(guān)注”關(guān)系,可以判斷出是否是用戶粉絲。
理論上說(shuō)如果有全部幾十億微博用戶數(shù)據(jù),逐個(gè)對(duì)比,是可以獲取某用戶所有粉絲的,但這只是理論方案。
通過(guò)用戶微博下的轉(zhuǎn)發(fā)、評(píng)論、贊可縮小對(duì)比范圍,雖然不能得到用戶的所有粉絲,但能分析出和微博用戶有過(guò)互動(dòng)的所有粉絲,這些粉絲的占比可以評(píng)估出微博用戶粉絲的質(zhì)量。
以上就是通過(guò)微博用戶數(shù)據(jù)抓取平臺(tái)獲得的數(shù)據(jù)后在使用方面的一些設(shè)想。
作為一個(gè)程序員,還是不適合寫(xiě)這種理論性的東西,自己都看不懂,還是好好寫(xiě)程序去吧。。。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/22670.html
摘要:模擬登錄新浪微博的核心,也是與模擬登錄最大的不同,密碼加密。已經(jīng)實(shí)現(xiàn)模擬新浪微博登錄的功能,之后不再更新。 參考資料: http://www.csuldw.com/2016/11/10/2016-11-10-simulate-sina-login/ http://blog.csdn.net/fly_leopard/article/details/51148904 http://www....
摘要:本文經(jīng)授權(quán)轉(zhuǎn)自社區(qū),后續(xù)更新將以帖子內(nèi)容和內(nèi)容為準(zhǔn)。說(shuō)明另一個(gè)令人喜歡的地方,是擁有活躍的開(kāi)發(fā)者社區(qū),而活躍的開(kāi)發(fā)者社區(qū)帶來(lái)的,是繁華的擴(kuò)展包生態(tài)。本文對(duì)上打了標(biāo)簽的擴(kuò)展包進(jìn)行整理,截止到現(xiàn)在年月號(hào),有超過(guò)個(gè)擴(kuò)展包,以下是下載量最大的個(gè)。 本文經(jīng)授權(quán)轉(zhuǎn)自 PHPHub 社區(qū),后續(xù)更新將以 PHPHub 帖子內(nèi)容 和 GitHub 內(nèi)容 為準(zhǔn)。 說(shuō)明 Laravel 另一個(gè)令人喜歡的地方...
摘要:目前支持的認(rèn)證有。英文不好的同學(xué)比如我,下面是中文文檔通過(guò)擴(kuò)展的,實(shí)現(xiàn)了很多第三方認(rèn)證。國(guó)內(nèi)的有微博微信豆瓣。至于和的具體值,這個(gè)是由新浪微博分發(fā)給你的,在新浪微博的授權(quán)回調(diào)頁(yè)中填寫(xiě)。 前言 第三方登錄認(rèn)證能簡(jiǎn)化用戶登錄/注冊(cè)的操作,降低用戶登錄/注冊(cè)的門(mén)檻,對(duì)提高應(yīng)用的用戶轉(zhuǎn)化率很有幫助。 Socialite Laravel 為我們提供了簡(jiǎn)單、易用的方式,使用 Laravel Soc...
摘要:你能找到你所需要的數(shù)量和質(zhì)量的開(kāi)發(fā)者嗎很顯然我們都特別關(guān)注這一條調(diào)查結(jié)果,對(duì)于那些正在招聘的被調(diào)查者來(lái)說(shuō),他們中幾乎有一半的人找不到他們所需要的數(shù)量和質(zhì)量的開(kāi)發(fā)者。 本文來(lái)自Laravel News----原文鏈接; 歡迎來(lái)和pilishen一起學(xué)習(xí)php&Laravel;學(xué)習(xí)群:1092560502017年9月,Laravel News與LaraJobs一起合作發(fā)起對(duì)人們都在使用la...
摘要:微博墻就是這樣的一個(gè)工具,這不是一款普通的插件,這是一款搭建在基于的插件。這是一款基于的插件,底層語(yǔ)言開(kāi)發(fā),性能卓越。 在現(xiàn)在移動(dòng)互聯(lián)網(wǎng)時(shí)代,微博已經(jīng)成為了每個(gè)人生活中必不可少的一個(gè)社交工具。而WordPress是全世界最為流行的博客系統(tǒng),把你的博客接入新浪微博,借助微博的強(qiáng)大用戶群,不僅能給你的網(wǎng)站提供巨大的流量,而且還能帶來(lái)不可估量?jī)r(jià)值。 WordPress微博墻就是這樣的一個(gè)工具...
閱讀 4108·2023-04-26 01:48
閱讀 3275·2021-10-13 09:40
閱讀 1752·2021-09-26 09:55
閱讀 3645·2021-08-12 13:23
閱讀 1810·2021-07-25 21:37
閱讀 3440·2019-08-30 15:53
閱讀 1405·2019-08-29 14:16
閱讀 1406·2019-08-29 12:59