摘要:它也會(huì)在同一個(gè)實(shí)例發(fā)出的所有請(qǐng)求之間保持,期間使用的功能。而主要是方便解析源碼,從中獲取請(qǐng)求需要的一些參數(shù)完整代碼請(qǐng)輸入賬號(hào)請(qǐng)輸入密碼項(xiàng)目地址模擬京東登錄吐槽群
Python 爬蟲(chóng)之模擬登陸CSND 工具
基本的腳本語(yǔ)言是Python,雖然不敢說(shuō)是最好的語(yǔ)言,至少是最好的之一(0.0),用模擬登陸,我們需要用到多個(gè)模塊,如下:
requests
BeautifulSoup
requests 安裝下載源碼安裝
git clone git://github.com/kennethreitz/requests.git cd requests pip install .
pip
pip install requestsBeautifulSoup 介紹
Beautiful Soup 是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫(kù).它能夠通過(guò)你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會(huì)幫你節(jié)省數(shù)小時(shí)甚至數(shù)天的工作時(shí)間.
安裝easy_install beautifulsoup4
pip install beautifulsoup4使用
from bs4 import BeautifulSoup soup = BeautifulSoup(open("index.html")) soup = BeautifulSoup("data", "lxml")說(shuō)明
requests主要是為了利用requests的高級(jí)會(huì)話(huà)機(jī)制,requests的會(huì)話(huà)對(duì)象可以讓我們跨請(qǐng)求保持某些參數(shù),比如cookies, headers等,
會(huì)話(huà)對(duì)象讓你能夠跨請(qǐng)求保持某些參數(shù)。它也會(huì)在同一個(gè) Session 實(shí)例發(fā)出的所有請(qǐng)求之間保持 cookie, 期間使用 urllib3 的 connection pooling 功能。所以如果你向同一主機(jī)發(fā)送多個(gè)請(qǐng)求,底層的 TCP 連接將會(huì)被重用,從而帶來(lái)顯著的性能提升。
而B(niǎo)eautifulSoup主要是方便解析HTML源碼,從中獲取請(qǐng)求需要的一些參數(shù)
完整代碼# -*- coding: UTF-8 -*- from bs4 import BeautifulSoup import requests s = requests.Session() class CSDN: def __init__(self, username, password): self.username = username self.password = password self.login_url = "https://passport.csdn.net/account/login" self.headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebK" "it/537.36 (KHTML, like Gecko) Chrome/61.0.3163.1" "00 Safari/537.36 OPR/48.0.2685.52", "Referer": "http://my.csdn.net/my/mycsdn" } def login(self): params = { "from": "http://my.csdn.net/my/mycsdn" } html = s.get(self.login_url, params=params, headers=self.headers) soup = BeautifulSoup(html.content, "lxml") lt = soup.select("input[name="lt"]")[0].get("value") execution = soup.select("input[name="execution"]")[0].get("value") event_id = soup.select("input[name="_eventId"]")[0].get("value") data = { "username": self.username, "password": self.password, "rememberMe": "true", "lt": lt, "execution": execution, "_eventId": event_id } r = s.post(self.login_url, data=data) self.headers["Referer"] = "http://passport.csdn.net/account/login?from=http%3A%2F%2Fmy.csdn.net%2Fmy%2Fmycsdn" resp = s.get("http://my.csdn.net/my/mycsdn", headers=self.headers) print(resp.text) username = input("請(qǐng)輸入賬號(hào):") password = input("請(qǐng)輸入密碼:") cs = CSDN(username, password) cs.login()
項(xiàng)目地址: 模擬京東登錄
吐槽QQ群: 173318043
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/44471.html
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:學(xué)習(xí)網(wǎng)絡(luò)爬蟲(chóng)主要分個(gè)大的版塊抓取,分析,存儲(chǔ)另外,比較常用的爬蟲(chóng)框架,這里最后也詳細(xì)介紹一下。網(wǎng)絡(luò)爬蟲(chóng)要做的,簡(jiǎn)單來(lái)說(shuō),就是實(shí)現(xiàn)瀏覽器的功能。 Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲(chóng)主要分3個(gè)大的版塊:抓取,分析,存儲(chǔ) 另外,比較常用的爬蟲(chóng)框架Scrapy,這里最后也詳細(xì)介紹一下。 首先列舉一下本人總結(jié)的相關(guān)文章,這些覆蓋了入門(mén)網(wǎng)絡(luò)爬蟲(chóng)需要的基本概念和技巧:寧哥的小站-網(wǎng)絡(luò)爬蟲(chóng),當(dāng)我們?cè)跒g覽器中輸入...
摘要:微信知乎新浪等主流網(wǎng)站的模擬登陸爬取方法摘要微信知乎新浪等主流網(wǎng)站的模擬登陸爬取方法。先說(shuō)說(shuō)很難爬的知乎,假如我們想爬取知乎主頁(yè)的內(nèi)容,就必須要先登陸才能爬,不然看不到這個(gè)界面。圖片描述知乎需要手機(jī)號(hào)才能注冊(cè)登陸。 微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法摘要:微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法。 網(wǎng)絡(luò)上有形形色色的網(wǎng)站,不同類(lèi)型的網(wǎng)站爬蟲(chóng)策略不同,難易程度也不一樣。從是...
摘要:方法不僅適用于百度云,別的一些比較難以模擬登陸的網(wǎng)站都可以按照這種方式分析。本文要求讀者具有模擬登陸主要是抓包和閱讀代碼和密碼學(xué)的基本知識(shí)。和模擬登陸微博的分析流程一樣,我們首先要做的是以正常人的流程完整的登錄一遍百度網(wǎng)盤(pán)。 這是第二篇從簡(jiǎn)書(shū)搬運(yùn)過(guò)來(lái)的文章(大家別誤會(huì),是我原創(chuàng)的)。因?yàn)榍耙黄恼拢铱捶错戇€挺好的,所以把這篇也搬運(yùn)過(guò)來(lái)了,其實(shí)目的還是為宣傳自己的分布式微博爬蟲(chóng)(該項(xiàng)目...
摘要:可能有的老手覺(jué)得我寫(xiě)得很啰嗦,但其實(shí)很多新手可能都不知道這些細(xì)節(jié),所以我把我在分析新浪微博模擬登陸的過(guò)程全寫(xiě)了出來(lái)。 這篇文章于去年4月發(fā)布在我的簡(jiǎn)書(shū),現(xiàn)在把它放到這里,主要是為了宣傳自己的分布式微博爬蟲(chóng)。下面是主要內(nèi)容,希望能幫到有這個(gè)需求的朋友 最近由于需要一直在研究微博的爬蟲(chóng),第一步便是模擬登陸,從開(kāi)始摸索到走通模擬登陸這條路其實(shí)還是挺艱難的,需要一定的經(jīng)驗(yàn),為了讓朋友們以后少...
閱讀 2119·2023-04-26 00:41
閱讀 1154·2021-09-24 10:34
閱讀 3580·2021-09-23 11:21
閱讀 4090·2021-09-22 15:06
閱讀 1563·2019-08-30 15:55
閱讀 906·2019-08-30 15:54
閱讀 1835·2019-08-30 15:48
閱讀 558·2019-08-29 13:58