摘要:背景本文是大數據分析成都二手房平均價格的續集,前一篇文章中我們學習了如何使用爬蟲獲取數據,以及查看各個區域的平均價格做個大概的了解。
背景
本文是《大數據分析01——成都二手房(平均價格)》的續集,前一篇文章中我們學習了如何使用爬蟲獲取數據,以及查看各個區域的平均價格做個大概的了解。
但是存在2個問題:
(1)爬蟲爬取了大量重復的數據,影響了分析結果
(2)沒有幫助用戶定位到自己滿意的房源
本文將詳細講解如何解決這2個問題。
數據去重
解決的思路來子我自己提的問題爬蟲如何去重,感興趣的朋友可以過去看看。根據大家的建議我去重新學習scrapy的框架:
Scrapy運行流程大概如下:
首先,引擎(engine)從調度器(Scheduler)中取出一個鏈接(URL)用于接下來的抓取
引擎把URL封裝成一個請求傳給下載器(Donwloader),下載器把資源下載下來,并封裝成應答包(Response)
然后,爬蟲解析Response
若是解析出實體(Item),則交給實體管道(Pipeline)進行進一步的處理。
若是解析出的是鏈接(URL),則把URL交給Scheduler等待抓取。
這個Scheduler的中間件不就負責URL的去重嗎,然后我去掉request這個模塊,讓所有的請求都使用Scrapy.requset去發送,果然數據不會再重復了。最終我拿到了2萬多條不重復的數據,與鏈家官方提示的只相差幾百條數據,不清除是鏈家自己有重復的數據,還是我在輸入驗證碼的時候丟失了這部分數據。后期再跟蹤吧。但是現在的數據已經可以反應真實情況了。
定位房源
首先,我重新做了一張各個區平均房價的透視圖,大家可以和前一篇文章的比較一下,看看重復數據vs完整數據的差別:
然后,我們想知道現在大家都更關注那個區域的房源,于是我把樓盤“看房數”和"關注數"堆疊起來作為關注度,得到下圖:
看來天府新區和高新區限購后,大家都開始看周邊的房子,比如龍泉驛,溫江,雙流。
那么究竟有哪些比較火的樓盤了,繼續把“看房數”和"關注數"加起來,然后對“看房數”和"關注數"大于200的做個過濾(這里的price是總價):
剛好公司一位同事也準備買房子,他想在雙流買一套二的,價格在60-90w,我們利用他給的條件加上“熱度”,我過濾出下面數據:
最后,看看我們的數據都集中在哪些地區吧,這里度量我們用的平均價格,對應圖標,越紅表示價格越高,樓盤越多:
謝謝觀看,覺得不錯的朋友點個贊唄。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/40814.html
摘要:分布式任務調度平臺一簡介概述是一個輕量級分布式任務調度框架,其核心設計目標是開發迅速學習簡單輕量級易擴展。 《分布式任務調度平臺XXL-JOB》 showImg(https://segmentfault.com/img/remote/1460000010402214);showImg(https://segmentfault.com/img/remote/146000001040221...
摘要:原文地址爬取汽車之家二手車產品庫項目地址目標最近經常有人在耳邊提起汽車之家,也好奇二手車在國內的價格是怎么樣的,因此本次的目標站點是汽車之家的二手車產品庫分析目標源一頁共條含分頁,但這個老產品庫,在頁后會存在問題,因此我們爬取頁可以獲取全 原文地址:爬取汽車之家 二手車產品庫項目地址:https://github.com/go-crawler... 目標 最近經常有人在耳邊提起汽車之家...
閱讀 3120·2021-11-10 11:36
閱讀 3320·2021-10-13 09:40
閱讀 6127·2021-09-26 09:46
閱讀 669·2019-08-30 15:55
閱讀 1416·2019-08-30 15:53
閱讀 1586·2019-08-29 13:55
閱讀 3004·2019-08-29 12:46
閱讀 3218·2019-08-29 12:34