25、Python快速開發分布式搜索引擎Scrapy精講—Requests請求和Response響應

Shihira 發布于2019-07-31 11:31 / 3633人閱讀

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料請求請求就是我們在爬蟲文件寫的方法，也就是提交一個請求地址，請求是我們自定義的方法提交一個請求參數字符串類型地址回調函數名稱字符串類型請求方式，如果字典類型的，瀏覽器用戶代理設置字典類型鍵值對，向回調

【百度云搜索，搜各種資料:http://www.lqkweb.com】 【搜網盤，搜各種資料:http://www.swpan.cn】

Requests請求

Requests請求就是我們在爬蟲文件寫的Requests()方法，也就是提交一個請求地址，Requests請求是我們自定義的**

Requests()方法提交一個請求

　　參數：

　　url= ?字符串類型url地址

　　callback= 回調函數名稱

　　method= 字符串類型請求方式，如果GET,POST

　　headers= 字典類型的，瀏覽器用戶代理

　　cookies= 設置cookies

　　meta= 字典類型鍵值對，向回調函數直接傳一個指定值

　　encoding= 設置網頁編碼

　　priority= 默認為0，如果設置的越高，越優先調度

　　dont_filter= 默認為False，如果設置為真，會過濾掉當前url

#?-*-?coding:?utf-8?-*-
import?scrapy
from?scrapy.http?import?Request,FormRequest
import?re

class?PachSpider(scrapy.Spider):????????????????????????????#定義爬蟲類，必須繼承scrapy.Spider
????name?=?"pach"???????????????????????????????????????????#設置爬蟲名稱
????allowed_domains?=?["www.luyin.org/"]????????????????????#爬取域名
????#?start_urls?=?[""]?????????????????????????????????????#爬取網址,只適于不需要登錄的請求，因為沒法設置cookie等信息

????header?=?{"User-Agent":"Mozilla/5.0?(Windows?NT?10.0;?WOW64;?rv:54.0)?Gecko/20100101?Firefox/54.0"}??#設置瀏覽器用戶代理

????def?start_requests(self):????#起始url函數，會替換start_urls
????????"""第一次請求一下登錄頁面，設置開啟cookie使其得到cookie，設置回調函數"""
????????return?[Request(
????????????url="http://www.luyin.org/",
????????????headers=self.header,
????????????meta={"cookiejar":1},???????#開啟Cookies記錄，將Cookies傳給回調函數
????????????callback=self.parse
????????)]

????def?parse(self,?response):
????????title?=?response.xpath("/html/head/title/text()").extract()
????????print(title)

Response響應

Response響應是由downloader返回的響應

Response響應參數
　　headers 返回響應頭
　　status 返回狀態嗎
　　body 返回頁面內容，字節類型
　　url 返回抓取url

#?-*-?coding:?utf-8?-*-
import?scrapy
from?scrapy.http?import?Request,FormRequest
import?re

class?PachSpider(scrapy.Spider):????????????????????????????#定義爬蟲類，必須繼承scrapy.Spider
????name?=?"pach"???????????????????????????????????????????#設置爬蟲名稱
????allowed_domains?=?["www.luyin.org/"]????????????????????#爬取域名
????#?start_urls?=?[""]?????????????????????????????????????#爬取網址,只適于不需要登錄的請求，因為沒法設置cookie等信息

????header?=?{"User-Agent":"Mozilla/5.0?(Windows?NT?10.0;?WOW64;?rv:54.0)?Gecko/20100101?Firefox/54.0"}??#設置瀏覽器用戶代理

????def?start_requests(self):????#起始url函數，會替換start_urls
????????"""第一次請求一下登錄頁面，設置開啟cookie使其得到cookie，設置回調函數"""
????????return?[Request(
????????????url="http://www.luyin.org/",
????????????headers=self.header,
????????????meta={"cookiejar":1},???????#開啟Cookies記錄，將Cookies傳給回調函數
????????????callback=self.parse
????????)]

????def?parse(self,?response):
????????title?=?response.xpath("/html/head/title/text()").extract()
????????print(title)
????????print(response.headers)
????????print(response.status)
????????#?print(response.body)
????????print(response.url)

云服務器 GPU云服務器 requests請求 python的requests安裝 scrapy分布式爬蟲 javaweb請求響應

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/45270.html

22、Python快速開發分布式搜索引擎Scrapy精講—scrapy模擬登陸和知乎倒立文字驗證碼識

【百度云搜索，搜各種資料:http://www.bdyss.cn】【搜網盤，搜各種資料:http://www.swpan.cn】第一步。首先下載，大神者也的倒立文字驗證碼識別程序下載地址：https://github.com/muchrooms/... 注意：此程序依賴以下模塊包　　Keras==2.0.1　　Pillow==3.4.2　　jupyter==1.0.0　　matplotli...

array_huang 2019-07-31 11:27 評論0 收藏0
18、 Python快速開發分布式搜索引擎Scrapy精講—Scrapy啟動文件的配置—xpath表

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料我們自定義一個來作為啟動文件導入執行命令方法給解釋器，添加模塊新路徑將文件所在目錄添加到解釋器執行命令爬蟲文件表達式基本使用設置爬蟲起始域名設置爬蟲起始地址默認爬蟲回調函數，返【百度云搜索，搜各種資料:http://www.bdyss.cn】【搜網盤，搜各種資料:http://www.swpan.cn】我們自定義一個main.py來作為啟動...

rubyshen 2019-07-31 11:25 評論0 收藏0
23、 Python快速開發分布式搜索引擎Scrapy精講—craw scrapy item lo

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料用命令創建自動爬蟲文件創建爬蟲文件是根據的母版來創建爬蟲文件的查看創建爬蟲文件可用的母版母版說明創建基礎爬蟲文件創建自動爬蟲文件創建爬取數據爬蟲文件創建爬取數據爬蟲文件創建一個基礎母版爬蟲，其他同理【百度云搜索，搜各種資料:http://www.bdyss.cn】【搜網盤，搜各種資料:http://www.swpan.cn】用命令創建自動爬...

QiuyueZhong 2019-07-31 11:27 評論0 收藏0
19、 Python快速開發分布式搜索引擎Scrapy精講—css選擇器

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料選擇器獲取元素屬性，選擇器獲取標簽文本舉例獲取過濾后的數據，返回字符串，有一個默認參數，也就是如果沒有數據默認是什么，一般我們設置為空字符串獲取過濾后的數據，返回字符串列表這里也可以用獲【百度云搜索，搜各種資料:http://www.lqkweb.com】【搜網盤，搜各種資料:http://www.swpan.cn】 css選擇器 1、 sh...

happen 2019-07-31 11:26 評論0 收藏0
20、 Python快速開發分布式搜索引擎Scrapy精講—編寫spiders爬蟲文件循環抓取內容

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料編寫爬蟲文件循環抓取內容方法，將指定的地址添加到下載器下載頁面，兩個必須參數，參數頁面處理函數使用時需要方法，是庫下的方法，是自動拼接，如果第二個參數的地址是相對路徑會自動與第一個參數拼接導【百度云搜索，搜各種資料:http://bdy.lqkweb.com】【搜網盤，搜各種資料:http://www.swpan.cn】編寫spiders爬...

CntChen 2019-07-31 11:26 評論0 收藏0