摘要:不過,字體反爬也沒有用,畢竟我們會破哈哈。抖音的字體反爬是在一個分享個人主頁的鏈接中,別的鏈接暫時沒有測試,不過破了一個其他的也就破了。下載完之后我們可以用的一個工具包來查看字體映射。
現在的網站,處處都是反爬,我們這些爬蟲的經常需要和他們斗智斗勇,就看誰更厲害。這不,就連字體也弄成了反爬,而且還不止一個網站,常見的就有貓眼和汽車之家。不過,字體反爬也沒有用,畢竟我們會破!哈哈。
抖音的字體反爬是在一個分享個人主頁的鏈接中,別的鏈接暫時沒有測試,不過破了一個其他的也就破了。
分享主頁可以這樣獲得:
1). 點擊迪麗熱巴個人主頁
2).點擊左上角
3).再點擊左上角分享以鏈接方式復制
做完之后你就可以獲得這樣一條鏈接:http://v.douyin.com/NT5Nck/
在瀏覽器打開可以看到:
鏈接編程了這樣:https://www.iesdouyin.com/sha...
根據經驗很容易知道前面的參數就是用戶的 id 號,后面的就是時間戳,可以去掉的。
有了這個頁面之后怎么將個人主頁的名稱、粉絲、點贊量等爬下來呢?接下來就是教你這個,請繼續往下看!
1. 分析破解反爬字體打開開發者調試工具,很容易就可以看到數據所在的請求的鏈接
點擊我們需要獲取的粉絲數,你可以看到:
可以看到,字體都變成了正方形,很明顯這個做了反爬。那我們再看看請求返回來的 html 信息。
可以看到一堆編碼,而且都是數字變成了這樣,所有抖音將這些數字的數據都做了字體進行映射,用了他們自己的字體,那我們可以看看開發者工具的?network?查看他所用的字體,一般都是?wolf?或者?ttf?結尾的,可以看到:
https://s3.bytecdn.cn/ies/res..._falcon/static/font/iconfont_9eb9a50.woff
在瀏覽器輸入上面地址就可以下載該字體了。
下載完之后我們可以用 Python 的一個工具包 fontTools 來查看字體映射。
如果你沒有這個包的話,可在命令行輸入下面代碼進行下載工具包:
pip?install?fontTools
使用 fontTools 將字體文件轉為 XML 文件,下面為代碼:
轉換之后查看文件,你就可以看到之間的映射了,如下:
code?為我們在請求中顯示的編碼,name為映射,到我們需要找的是數字,num_ 代表的又是哪些數字呢?,如果你再找找,你會發現這個:
是不是感覺已經找到了,恭喜你,你被坑了,這個并不是,如果你第一次遇到的話,估計都會被它坑一次,這個并不是剛才的什么數字映射,只是一些 id 名字罷了。
這時就需要我們另借助一個字體軟件了:FontCreator, 軟件百度官網下載安裝即可。
用這個軟件打開字體,可以看到新大陸:
這個就是我們需要找的映射,配合上面在 XML 文件中找的映射,一起用,這個就破解了。
2.代碼實現用 Python 代碼只需要把它們之間的映射搞清楚就行了,所以我們可以使用字典來保存這些數據。
這個就是在軟件上看到的映射關系,再來弄弄在 XML 中的編碼對應關系
通過一行一行地讀取 XML 文件的內容,找出映射并存儲在相應的字典中,這就可以了,大功告成。
3.其他數據的獲取我打算爬的是抖音的用戶數據,先找了 1000 個抖音大號來爬取,接著會通過他們的粉絲列表再來爬取別的用戶,這樣就差不多能夠把抖音的大多數用戶獲取了,具體怎樣爬取粉絲列表,下篇文章告訴你!期待的就點個「好看」支持下?
下面是 1000 個抖音大號的部分爬取代碼:
上面的就是我需要存儲的內容。
由于篇幅問題,其他的就不放出來了,想要源碼的關注公眾號進行獲取
「以下內容,本人僅供學習交流,切勿用于商業用途」
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/43053.html
摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:且本小白也親身經歷了整個從小白到爬蟲初入門的過程,因此就斗膽在上開一個欄目,以我的圖片爬蟲全實現過程為例,以期用更簡單清晰詳盡的方式來幫助更多小白應對更大多數的爬蟲實際問題。 前言: 一個月前,博主在學過python(一年前)、會一點網絡(能按F12)的情況下,憑著熱血和興趣,開始了pyth...
對于內容型的公司,數據的安全性很重要。對于內容公司來說,數據的重要性不言而喻。比如你一個做在線教育的平臺,題目的數據很重要吧,但是被別人通過爬蟲技術全部爬走了?如果核心競爭力都被拿走了,那就是涼涼。再比說有個獨立開發者想抄襲你的產品,通過抓包和爬蟲手段將你核心的數據拿走,然后短期內做個網站和 App,短期內成為你的勁敵。 爬蟲手段 目前爬蟲技術都是從渲染好的 html 頁面直接找到感興趣的節點,...
摘要:對于內容型的公司,數據的安全性很重要。背景目前通過中的網頁分析后,我們的數據安全性做的較差,有以下幾個點存在問題網站的數據通過最早期的前后端分離來實現。比如當前的日期為,那么線性變換的為,為。 之前在上家公司的時候做過一些爬蟲的工作,也幫助爬蟲工程師解決過一些問題。然后我寫過一些文章發布到網上,之后有一些人就找我做一些爬蟲的外包,內容大概是爬取小紅書的用戶數據和商品數據,但是我沒做。我...
摘要:模擬登陸知乎這個知乎的登陸也是坑滿滿,我也給踩了幾個,這個就直接說坑吧,其他的就不多說了。 以下內容僅交流學習,請勿用于非法用途 如果你現在想模擬登陸知乎,會發現 fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 來...
閱讀 2628·2021-11-12 10:36
閱讀 2270·2021-08-23 09:47
閱讀 1689·2019-08-30 15:44
閱讀 1412·2019-08-30 14:10
閱讀 2251·2019-08-29 16:52
閱讀 2348·2019-08-29 16:40
閱讀 1595·2019-08-29 16:17
閱讀 2418·2019-08-26 13:21