python scrapy 代理中間件，爬蟲必掌握的內(nèi)容之一

binta 發(fā)布于2021-11-15 11:39 / 1559人閱讀

摘要：使用中間件本次的測試站點依舊使用，通過訪問可以獲取當(dāng)前請求的地址。中間件默認(rèn)是開啟的，可以查看其源碼重點為方法。修改代理的方式非常簡單，只需要在請求創(chuàng)建的時候，增加參數(shù)即可。接下來將可用的代理保存到文件中。同步修改文件中的代碼。

本篇博客為大家說明一下 scrapy 中代理相關(guān)知識點。

代理的使用場景

編寫爬蟲代碼的程序員，永遠(yuǎn)繞不開就是使用代理，在編碼過程中，你會碰到如下情形：

網(wǎng)絡(luò)不好，需要代理；
目標(biāo)站點國內(nèi)訪問不了，需要代理；
網(wǎng)站封殺了你的 IP，需要代理。

使用 HttpProxyMiddleware 中間件

本次的測試站點依舊使用 http://httpbin.org/，通過訪問 http://httpbin.org/ip 可以獲取當(dāng)前請求的 IP 地址。
HttpProxyMiddleware 中間件默認(rèn)是開啟的，可以查看其源碼重點為 process_request() 方法。

修改代理的方式非常簡單，只需要在 Requests 請求創(chuàng)建的時候，增加 meta 參數(shù)即可。

import scrapyclass PtSpider(scrapy.Spider):    name = "pt"    allowed_domains = ["httpbin.org"]    start_urls = ["http://httpbin.org/ip"]    def start_requests(self):        yield scrapy.Request(url=self.start_urls[0], meta={"proxy": "http://202.5.116.49:8080"})    def parse(self, response):        print(response.text)

接下來通過獲取一下 https://www.kuaidaili.com/free/ 網(wǎng)站的代理 IP，并測試其代理是否可用。

import scrapyclass PtSpider(scrapy.Spider):    name = "pt"    allowed_domains = ["httpbin.org", "kuaidaili.com"]    start_urls = ["https://www.kuaidaili.com/free/"]    def parse(self, response):        IP = response.xpath("http://td[@data-title="IP"]/text()").getall()        PORT = response.xpath("http://td[@data-title="PORT"]/text()").getall()        url = "http://httpbin.org/ip"        for ip, port in zip(IP, PORT):            proxy = f"http://{ip}:{port}"            meta = {                "proxy": proxy,                "dont_retry": True,                "download_timeout": 10,            }            yield scrapy.Request(url=url, callback=self.check_proxy, meta=meta, dont_filter=True)    def check_proxy(self, response):        print(response.text)

接下來將可用的代理 IP 保存到 JSON 文件中。

import scrapyclass PtSpider(scrapy.Spider):    name = "pt"    allowed_domains = ["httpbin.org", "kuaidaili.com"]    start_urls = ["https://www.kuaidaili.com/free/"]    def parse(self, response):        IP = response.xpath("http://td[@data-title="IP"]/text()").getall()        PORT = response.xpath("http://td[@data-title="PORT"]/text()").getall()        url = "http://httpbin.org/ip"        for ip, port in zip(IP, PORT):            proxy = f"http://{ip}:{port}"            meta = {                "proxy": proxy,                "dont_retry": True,                "download_timeout": 10,                "_proxy": proxy            }            yield scrapy.Request(url=url, callback=self.check_proxy, meta=meta, dont_filter=True)    def check_proxy(self, response):        proxy_ip = response.json()["origin"]        if proxy_ip is not None:            yield {                "proxy": response.meta["_proxy"]            }

同時修改 start_requests 方法，獲取 10 頁代理。

class PtSpider(scrapy.Spider):    name = "pt"    allowed_domains = ["httpbin.org", "kuaidaili.com"]    url_format = "https://www.kuaidaili.com/free/inha/{}/"    def start_requests(self):        for page in range(1, 11):            yield scrapy.Request(url=self.url_format.format(page))

實現(xiàn)一個自定義的代理中間件也比較容易，有兩種辦法，第一種繼承 HttpProxyMiddleware，編寫如下代碼：

from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddlewarefrom collections import defaultdictimport randomclass RandomProxyMiddleware(HttpProxyMiddleware):    def __init__(self, auth_encoding="latin-1"):        self.auth_encoding = auth_encoding        self.proxies = defaultdict(list)        with open("./proxy.csv") as f:            proxy_list = f.readlines()            for proxy in proxy_list:                scheme = "http"                url = proxy.strip()                self.proxies[scheme].append(self._get_proxy(url, scheme))    def _set_proxy(self, request, scheme):        creds, proxy = random.choice(self.proxies[scheme])        request.meta["proxy"] = proxy        if creds:            request.headers["Proxy-Authorization"] = b"Basic " + creds

代碼核心重寫了 __init__ 構(gòu)造方法，并重寫了 _set_proxy 方法，在其中實現(xiàn)了隨機代理獲取。
同步修改 settings.py 文件中的代碼。

DOWNLOADER_MIDDLEWARES = {   "proxy_text.middlewares.RandomProxyMiddleware": 543,}

創(chuàng)建一個新的代理中間件類

class NRandomProxyMiddleware(object):    def __init__(self, settings):        # 從settings中讀取代理配置 PROXIES        self.proxies = settings.getlist("PROXIES")    def process_request(self, request, spider):        request.meta["proxy"] = random.choice(self.proxies)    @classmethod    def from_crawler(cls, crawler):        if not crawler.settings.getbool("HTTPPROXY_ENABLED"):            raise NotConfigured        return cls(crawler.settings)

可以看到該類從 settings.py 文件中的 PROXIES 讀取配置，所以修改對應(yīng)配置如下所示：

DOWNLOADER_MIDDLEWARES = {    "scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware": None,    "proxy_text.middlewares.NRandomProxyMiddleware": 543,}# 代碼是前文代碼采集的結(jié)果PROXIES = ["http://140.249.48.241:6969",           "http://47.96.16.149:80",           "http://140.249.48.241:6969",           "http://47.100.14.22:9006",           "http://47.100.14.22:9006"]

如果你想測試爬蟲，可編寫一個隨機返回請求代理的函數(shù)，將其用到任意爬蟲代碼之上，完成本博客任務(wù)。

收藏時間

本期博客收藏過 400，立刻更新下一篇

今天是持續(xù)寫作的第 261 / 200 天。
可以關(guān)注我，點贊我、評論我、收藏我啦。

更多精彩

Python 爬蟲 100 例教程導(dǎo)航帖（抓緊訂閱啦）

???掃碼加入【78技術(shù)人】~ Python 事業(yè)部???，源碼也在這

云服務(wù)器 GPU云服務(wù)器 python爬蟲scrapy python爬蟲框架scrapy python爬蟲代理池 python爬蟲代理ip

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/123376.html

發(fā)表評論

登陸后可評論

0條評論

binta

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow如何使用

閱讀 2272·2023-04-25 23:15
效率倍增，PyCaret：一個開源、低代碼的 Python 機器學(xué)習(xí)工具

閱讀 1933·2021-11-22 09:34
python scrapy 代理中間件，爬蟲必掌握的內(nèi)容之一

閱讀 1560·2021-11-15 11:39
傳感與檢測技術(shù)，Pt100熱電阻測溫實驗報告，江南大學(xué)物聯(lián)網(wǎng)

閱讀 962·2021-11-15 11:37
C語言進(jìn)階：程序預(yù)處理

閱讀 2160·2021-10-14 09:43
CYUN：國慶鉅惠！美國CERA高防云服務(wù)器、香港CN2 GIA云服務(wù)器最低5折起

閱讀 3499·2021-09-27 13:59
重溫 Flex 布局

閱讀 1510·2019-08-30 15:43
一步步教你用 CSS 為 SVG 添加濾鏡

閱讀 3471·2019-08-30 15:43

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python scrapy 代理中間件，爬蟲必掌握的內(nèi)容之一

代理的使用場景

使用 HttpProxyMiddleware 中間件

收藏時間

相關(guān)文章

網(wǎng)絡(luò)爬蟲介紹

**精通Python網(wǎng)絡(luò)爬蟲(0):網(wǎng)絡(luò)爬蟲學(xué)習(xí)路線**

Python爬蟲之Scrapy學(xué)習(xí)（基礎(chǔ)篇）

**從零開始的Python爬蟲速成指南**

發(fā)表評論

0條評論

binta

男|高級講師

TA的文章

tensorflow如何使用

效率倍增，PyCaret：一個開源、低代碼的 Python 機器學(xué)習(xí)工具

python scrapy 代理中間件，爬蟲必掌握的內(nèi)容之一

傳感與檢測技術(shù)，Pt100熱電阻測溫實驗報告，江南大學(xué)物聯(lián)網(wǎng)

C語言進(jìn)階：程序預(yù)處理

CYUN：國慶鉅惠！美國CERA高防云服務(wù)器、香港CN2 GIA云服務(wù)器最低5折起

重溫 Flex 布局

一步步教你用 CSS 為 SVG 添加濾鏡

最新活動