摘要:在爬蟲的編寫過程中使用最多的是,它表示查看請求和響應的數(shù)據(jù)內容。后續(xù)在打開剛才加載的軟件,例如本次案例打開的是皮皮蝦,開啟,成功捕獲到如下請求,這個地方就是最終的接口了。復制接口地址,在本地瀏覽器打開,得到皮皮蝦的視頻評論數(shù)據(jù)。
本篇博客開始,我們將涉足手機 APP 采集領域,這部分的知識我們主要以分析核心接口,編寫針對接口的突破代碼為主。
這里希望通過前面 57 篇爬蟲系列博客的學習,你已經(jīng)可以通過不同的“手段”,去采集數(shù)據(jù)。
手機 APP 的采集與網(wǎng)頁爬蟲的采集一個最大的差異,就是需要抓取 APP 接口地址,因為我們沒有谷歌瀏覽器開發(fā)者工具的支持,所以需要使用 Fiddler 工具,進行抓包。
對于任何一款軟件,能讓其正常運行起來,就完成了 90%的工作。
fiddler 是一款收費軟件,官網(wǎng):https://www.telerik.com/fiddler,有能力的建議購買,不想支付的可以選擇其它路徑,官方版本具備 30 天的試用期,我們就采用這個版本進行學習吧。
下載的時候,選擇 Classic
版本即可,下載地址。
安裝過程就比較簡單了,基本遵循下一步原則即可,安裝完畢會出現(xiàn)如下網(wǎng)頁,注意這里先不要關閉,后續(xù)我們會用到里面的幾個配置文檔。
運行界面,呈現(xiàn)如下效果,一般不建議漢化了,因為沒有多少復雜操作,多用用就習慣了。
這里有個細節(jié)需要注意,當你打開 Fiddler 的時候,它就已經(jīng)把 HTTP 的代理給修改了,所以會碰到當打開 Fiddler 時,可能無法正常的訪問網(wǎng)站,或者訪問的速度變慢。
Fiddler 默認是直接抓包的
如果不想要抓包,可以在 File->Capture Traffic
和左下角按鈕進行設置,快捷鍵是 F12。
默認能抓取的是 HTTP
請求的站點,稍后會說明 HTTPS
如何配置。
開啟抓包請求之后,去訪問網(wǎng)絡,會得到如下頁面,其中相關字段已經(jīng)標注在下圖中。
上述圖片中的內容,一定要留下印象,方便后續(xù)的學習。
接下來雙擊上圖任意一個請求,查看右側窗口內容,下圖為你標記一下右邊窗口的內容都是什么。
在爬蟲的編寫過程中使用最多的是 Inspectors
,它表示查看請求和響應的數(shù)據(jù)內容。
其余功能簡單描述如下:
Statistics
: 查看關于 HTTP 請求的性能以及數(shù)據(jù)分析;AutoResponder
:允許攔截指定規(guī)則的請求,可以基于字符串和正則表達式做攔截,大意是將指定請求劫持后,使用本地版本;Composer
: 自定義請求發(fā)送服務器,可以新建,也可以直接拖拽一個過去;Filters
:請求過濾規(guī)則;Timeline
: 請求響應時間。這些內容在后續(xù)都會逐步使用到。
下面完成最重要的一步,配置 fiddler,使其可以抓取 HTTPS 請求。
選擇開始菜單中的 Tool
->Options
-> HTTPS
,然后點擊下圖 Decrypt HTTPS Traffic
,就可以安裝一個證書。
如果本步驟設置完畢了,還是不能獲取 HTTPS
請求,可以參考下述 2 篇博客解決相應問題。
- https://www.cnblogs.com/wsy0202/p/12404715.html- https://blog.csdn.net/baidu_28647571/article/details/107554126
這個步驟需要電腦可以打開 Wifi,并實現(xiàn)共享網(wǎng)絡,如果你使用的是臺式機,它可能沒有無線網(wǎng)卡,是不能共享網(wǎng)絡的(安裝外置網(wǎng)卡即可),筆記本電腦無該問題。
然后手機鏈接共享出去的 Wifi,接下來在 fiddler
中配置如下內容。
確定之后,需要在 fiddler
中找到下圖所示的本地 IP,例如下圖所示的 IP 地址為 172.24.203.1
,這個地址很重要,結合上述的端口 8888
,一會需要訪問該地址去下載一個證書到手機端。
手機鏈接該 Wifi,并設置如下代理。
此時還不可以,還需要在手機端下載證書,通過手機端默認瀏覽器打開 http://172.24.203.1:8888
(確保 fiddler
是抓包狀態(tài)),如果手機端無法打開,重啟 fiddler
。
打開之后,如下圖所示,點擊下圖紅線位置進行證書下載。
瀏覽器下載的證書如果點擊無法安裝,去手機設置里面找到下圖內容,每個手機的路徑不太一致,基本參考路線是 設置->通用設置->安全和隱私->更多->加密和憑據(jù),然后點擊下面的從 SD 卡安裝,應該在根目錄下可以找到剛才下載的證書,點擊安裝即可。
安裝證書時,需要設置的內容,如下所示。
此時已經(jīng)完整大部分工作了,如果你的 安卓系統(tǒng)是 7.0 以下,那到此就可以結束了,但如果你的版本比 7.0 高,那還需要繼續(xù)設置一些配置。
如果不確定是否可以,可以隨機打開手機上的 APP,然后再 fiddler
中查看是否可以解開 HTTPS
請求。
環(huán)境構建過程中,可以不時重啟 fiddler 確保配置生效。
使用 VirtualXposed+JustTrustMe 來繞過 SSL 驗證,實現(xiàn)抓包需求
在 github 下載上述兩款工具。
VirtualXposed
:https://github.com/android-hacker/VirtualXposed/JustTrustMe
:https://github.com/Fuzion24/JustTrustMe/無法下載,可以直接在我提供的 地址下載,安裝的時候發(fā)現(xiàn) VirtualXposed
最新版本不支持 32 位 APP 了,如果需要抓取 32 位的 APP,需要安裝 VirtualXposed_0.18.2.apk
包 。
文件傳輸?shù)绞謾C上之后,全部進行安裝,然后打開 VirtualXposed
,點擊下面的按鈕之后選擇添加應用,模塊管理開啟 JustTrustMe
,之后選擇重啟即可。
后續(xù)在 VirtualXposed
打開剛才加載的軟件,例如本次案例打開的是 “皮皮蝦 APP”,開啟 fiddler
,成功捕獲到如下請求,這個地方就是最終的接口了。
復制接口地址,在本地瀏覽器打開,得到皮皮蝦的視頻評論數(shù)據(jù)。
https://is-hl.snssdk.com/bds/cell/cell_comment/?offset=10&cell_type=1&api_version=1&cell_id=7023269838151751943……其余部分隱藏
拿到接口之后,剩余的邏輯處理部分就比較簡單了,步驟依次如下:
精簡參數(shù)之后得到如下接口格式:
https://is-hl.snssdk.com/bds/cell/cell_comment/?offset=10&cell_id=7023269838151751943&aid=1319&app_name=super
APP 爬蟲最難的地方是獲取接口,獲取到接口并分析之后,如果沒有加密參數(shù),那直接采用之前博客中提及的任意一個庫或者框架,都可以完成爬蟲代碼的編寫。
從本篇博客開始,我們將正式進入手機APP爬蟲部分,這部分內容大概會編寫10篇左右的博客
今天是持續(xù)寫作的第 262 / 200 天。
可以關注我,點贊我、評論我、收藏我啦。
更多精彩
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/123516.html
摘要:文章目錄前言爬取分析視頻教學成果展示福利入門到就業(yè)學習路線規(guī)劃小白快速入門爬蟲路線前言皮皮蝦一個沙雕而又有趣的憨憨少年,和大多數(shù)小伙伴們一樣喜歡聽歌游戲,當然除此之外還有寫作的興趣,,日子還很長,讓我們一起加油努力叭話 ...
摘要:文章目錄毛遂自薦題目題外話正經(jīng)點,解題思路代碼實現(xiàn)最后皮皮蝦一個沙雕而又有趣的憨憨少年,和大多數(shù)小伙伴們一樣喜歡聽歌游戲,當然除此之外還有寫作的興趣,,日子還很長,讓我們一起加油努力叭話不多說,直達底部有粉絲專享福利毛 ...
摘要:點擊,即可進入證書的安裝頁面。上一篇文章網(wǎng)絡爬蟲實戰(zhàn)庫的安裝下一篇文章網(wǎng)絡爬蟲實戰(zhàn)爬取相關庫的安裝的安裝 上一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---6、Web庫的安裝:Flask、Tornado下一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---8、APP爬取相關庫的安裝:MitmProxy的安裝 除了 Web 網(wǎng)頁,爬蟲也可以對 APP 的數(shù)據(jù)進行抓取,APP 中的頁面要加載出來,首先需...
摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:今天就先給大家講大數(shù)據(jù)分析工程師。所以你要和我說你在外面培訓了個月的大數(shù)據(jù)分析后,就想做了,那請你再考慮考慮。而他們鼓吹的大數(shù)據(jù)分析師,其實就是。 showImg(https://segmentfault.com/img/remote/1460000018722710?w=1000&h=750); Overview: 序 基本概念 DS的職能要求 DE的職能要求 總結 一、序 今天...
閱讀 2756·2021-11-16 11:45
閱讀 1662·2021-09-26 10:19
閱讀 2058·2021-09-13 10:28
閱讀 2814·2021-09-08 10:46
閱讀 1544·2021-09-07 10:13
閱讀 1539·2019-08-30 13:50
閱讀 1381·2019-08-30 11:17
閱讀 1461·2019-08-29 13:18