摘要:而且我覺得比上次的知乎的還難點(diǎn),但是可能就只有搜索頁是加密的,其他的直接找全部圖書的都是直接放在源碼的。寫在最后這個(gè)豆瓣解密可以說不難,也可以說有點(diǎn)難,因?yàn)樾枰酆芏啵绻隳芸炊嚓P(guān)的解密方法就不需要扣,就會(huì)很容易了。
上次發(fā)了破解知乎模擬登陸的最新版之后,很多人看了都說好,唯獨(dú)沒人給我點(diǎn)贊,以后還是麻煩大家,如果看到對(duì)你有用的文章,可以點(diǎn)點(diǎn)贊,支持下作者哈。
還有,知乎模擬登陸的代碼已給出,github地址為:https://github.com/SergioJune...
希望各位大佬給點(diǎn)個(gè)star哈,以后會(huì)持續(xù)更新,將我的每個(gè)破解的網(wǎng)站源碼都放上去,如果你也有什么解不開的網(wǎng)站,歡迎去提issue,我會(huì)盡我能力去破解,后分享給大家。
這次給大家分享的是豆瓣的讀書搜索頁
https://book.douban.com/subje...
以前還以為豆瓣只是給新手爬蟲練手的,直到我發(fā)現(xiàn)了這個(gè)頁面,才發(fā)現(xiàn)是我錯(cuò)了,原來豆瓣也有加密的,有可能是為了防止新手亂爬吧,一看到這個(gè)就覺得爬蟲越來越不好做了,隨便一個(gè)頁面都有 js 加密。
而且我覺得比上次的知乎的還難點(diǎn),但是可能就只有搜索頁是加密的,其他的直接找全部圖書的都是直接放在html源碼的。
廢話不多說,生死看淡,不服就干!!!開始分析。
1. 尋找搜索內(nèi)容這個(gè)圖書數(shù)據(jù)是直接加密的,隱藏在了html頁面,如果你需要找的話,估計(jì)還得找很長(zhǎng)時(shí)間,我是從一位大佬告訴我的,就在下面這個(gè)頁面的 window.__DATA__ 里面
不過如果需要自己找的話,還是可以的,需要點(diǎn)時(shí)間,自己細(xì)心點(diǎn)找,對(duì)于這個(gè)有經(jīng)驗(yàn)了,以后遇到那些找不到數(shù)據(jù)的都可以嘗試在本頁面的html里面找。
2. 找解密位置直接搜 window.__DATA__ 即可
上面的就是html內(nèi)容,所以是下面一個(gè),或者你不信的話可以自己嘗試下。
打斷點(diǎn),一看,果不其然,數(shù)據(jù)都出來了
接著就是自己慢慢調(diào)試了,點(diǎn)擊下一步自己慢慢調(diào)試,看看用到的方法
走了幾步會(huì)很容易發(fā)現(xiàn)這個(gè),這個(gè)就可以說是上面那個(gè)方法的解密步驟了
接下來就是自己看這些 JS 的內(nèi)容了,不算難,如果你厲害的話,能看出他加密使用的方法的話,你可以直接使用 Python 語言的相關(guān)加密方法,如果看不懂,你就需要自己扣出相關(guān)的 JS 了,
如果你初學(xué) JS 的話,學(xué)過了 JS 原型的屬性,那么非常推薦你解一下,因?yàn)檫@里的 JS 分布在兩個(gè)文件內(nèi),不像上次知乎那樣直接一段函數(shù)就解決了那么簡(jiǎn)單,并且扣出來了還需要自己改下函數(shù)之間或者對(duì)象之間的原型,總之很復(fù)雜,這個(gè)只能意會(huì)不能言傳,篇幅有限,也不可能全部一個(gè)一個(gè)扣出來并和你說怎么改。
還是得自己實(shí)踐一次才能感受到,我最后花了幾天時(shí)間,扣出了1500+行代碼
3. 用Python運(yùn)行這里扣出了 JS 使用 python 的 execjs 執(zhí)行,會(huì)出現(xiàn)一個(gè)問題
UnicodeDecodeError: "gbk" codec can"t decode byte 0x80 in position 41: illegal multibyte sequence
這里是因?yàn)槔锩媸褂昧艘粋€(gè) TextIOWrapper 對(duì)象,里面沒有指定編碼類型,使用了默認(rèn)的 cp936 也就是 gbk 編碼,使讀取字符出錯(cuò),我們可以在這個(gè)類上面初始化改下編碼類型為 utf-8 即可運(yùn)行
再次運(yùn)行,即可成功。
4. 寫在最后這個(gè)豆瓣解密可以說不難,也可以說有點(diǎn)難,因?yàn)樾枰酆芏?JS ,如果你能看懂他相關(guān)的解密方法就不需要扣,就會(huì)很容易了。如果逆向深入研究逆行 JS 的話,還是建議你自己動(dòng)手?jǐn)]一遍,
最后,想要源碼地址為 https://github.com/SergioJune...,對(duì)你有用的話請(qǐng)給個(gè)star,謝謝。
如果文章對(duì)你有用的話就點(diǎn)個(gè)贊吧!
本文僅用于交流學(xué)習(xí),請(qǐng)勿用于非法用途,后果自負(fù)!
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/43359.html
摘要:而且我覺得比上次的知乎的還難點(diǎn),但是可能就只有搜索頁是加密的,其他的直接找全部圖書的都是直接放在源碼的。寫在最后這個(gè)豆瓣解密可以說不難,也可以說有點(diǎn)難,因?yàn)樾枰酆芏啵绻隳芸炊嚓P(guān)的解密方法就不需要扣,就會(huì)很容易了。 上次發(fā)了破解知乎模擬登陸的最新版之后,很多人看了都說好,唯獨(dú)沒人給我點(diǎn)贊,以后還是麻煩大家,如果看到對(duì)你有用的文章,可以點(diǎn)點(diǎn)贊,支持下作者哈。 還有,知乎模擬登陸的...
Scrapy爬取豆瓣讀書全站 分析網(wǎng)頁 首先打開豆瓣讀書中的分類瀏覽,可以看到其中有很多的分類 showImg(https://segmentfault.com/img/remote/1460000008991908); 豆瓣應(yīng)該是一個(gè)比較好爬的網(wǎng)站,所有的數(shù)據(jù)都不是ajax加載的,我們打開谷歌的F12或者是火狐的FireBug可以很輕松的找到每一個(gè)分類的鏈接 showImg(https://s...
摘要:前后翻幾頁我們不難發(fā)現(xiàn),豆瓣是利用后面的參數(shù)來實(shí)現(xiàn)分頁的。最后我們打開看一看效果吧,標(biāo)紅的是回復(fù)數(shù)量,點(diǎn)擊標(biāo)題可以直接跳轉(zhuǎn)到豆瓣對(duì)應(yīng)的頁面。 ??在帝都打拼的小伙伴都知道,要租個(gè)合適的房子真心不易。中介要收一個(gè)月的房租作為中介費(fèi)。而且很多黑中介打著租房的旗號(hào)各種坑蒙拐騙。要想在茫茫帖子中找到真正的房東,宛如大海撈針,同時(shí)需要和各路黑中介斗智斗勇。接下來就講講我浴血奮戰(zhàn)的故事。 ??那么...
摘要:前后翻幾頁我們不難發(fā)現(xiàn),豆瓣是利用后面的參數(shù)來實(shí)現(xiàn)分頁的。最后我們打開看一看效果吧,標(biāo)紅的是回復(fù)數(shù)量,點(diǎn)擊標(biāo)題可以直接跳轉(zhuǎn)到豆瓣對(duì)應(yīng)的頁面。 ??在帝都打拼的小伙伴都知道,要租個(gè)合適的房子真心不易。中介要收一個(gè)月的房租作為中介費(fèi)。而且很多黑中介打著租房的旗號(hào)各種坑蒙拐騙。要想在茫茫帖子中找到真正的房東,宛如大海撈針,同時(shí)需要和各路黑中介斗智斗勇。接下來就講講我浴血奮戰(zhàn)的故事。 ??那么...
摘要:一步一步構(gòu)建一個(gè)應(yīng)用開篇地址自己寫表單錄入電影信息比較費(fèi)勁,所以選擇爬取豆瓣電影的信息主要爬取電影的封面主演年份產(chǎn)地簡(jiǎn)介等信息。 [一步一步構(gòu)建一個(gè)react應(yīng)用-開篇](https://segmentfault.com/a/11... git地址 自己寫表單錄入電影信息比較費(fèi)勁,所以選擇爬取豆瓣電影的信息主要爬取電影的封面、主演、年份、產(chǎn)地、簡(jiǎn)介等信息。前端有個(gè)輸入框,輸入電影名然后...
閱讀 1703·2021-09-26 09:55
閱讀 3736·2021-09-22 15:31
閱讀 7448·2021-09-22 15:12
閱讀 2221·2021-09-22 10:02
閱讀 4693·2021-09-04 16:40
閱讀 1075·2019-08-30 15:55
閱讀 3032·2019-08-30 12:56
閱讀 1823·2019-08-30 12:44