摘要:今天用爬取壁紙的時候絮叨了一些問題,記錄下來,供后世探討,以史為鑒。因為網站是動態渲染的,所以選擇對接抓取網頁的方式和庫相似,都是直接模擬請求,而也不能抓取動態渲染的網頁。
今天用scrapy爬取壁紙的時候(url:http://pic.netbian.com/4kmein...)絮叨了一些問題,記錄下來,供后世探討,以史為鑒。**
因為網站是動態渲染的,所以選擇scrapy對接selenium(scrapy抓取網頁的方式和requests庫相似,都是直接模擬HTTP請求,而Scrapy也不能抓取JavaScript動態渲染的網頁。)
所以在Downloader Middlewares中需要得到Request并且返回一個Response,問題出在Response,通過查看官方文檔發現class scrapy.http.Response(url[, status=200, headers=None, body=b"", flags=None, request=None]),隨即通過from scrapy.http import Response導入Response
輸入scrapy crawl girl
得到如下錯誤:
*results=response.xpath("http://[@id="main"]/div[3]/ul/lia/img")
raise NotSupported("Response content isn"t text")
scrapy.exceptions.NotSupported: Response content isn"t text**
檢查相關代碼:
# middlewares.py from scrapy import signals from scrapy.http import Response from scrapy.exceptions import IgnoreRequest import selenium from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC class Pic4KgirlDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not defined, # scrapy acts as if the downloader middleware does not modify the # passed objects. def process_request(self, request, spider): # Called for each request that goes through the downloader # middleware. # Must either: # - return None: continue processing this request # - or return a Response object # - or return a Request object # - or raise IgnoreRequest: process_exception() methods of # installed downloader middleware will be called try: self.browser=selenium.webdriver.Chrome() self.wait=WebDriverWait(self.browser,10) self.browser.get(request.url) self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#main > div.page > a:nth-child(10)"))) return Response(url=request.url,status=200,request=request,body=self.browser.page_source.encode("utf-8")) #except: #raise IgnoreRequest() finally: self.browser.close()
推斷問題出在:
return Response(url=request.url,status=200,request=request,body=self.browser.page_source.encode("utf-8"))
查看Response類的定義發現:
@property def text(self): """For subclasses of TextResponse, this will return the body as text (unicode object in Python 2 and str in Python 3) """ raise AttributeError("Response content isn"t text") def css(self, *a, **kw): """Shortcut method implemented only by responses whose content is text (subclasses of TextResponse). """ raise NotSupported("Response content isn"t text") def xpath(self, *a, **kw): """Shortcut method implemented only by responses whose content is text (subclasses of TextResponse). """ raise NotSupported("Response content isn"t text")
說明Response類不可以被直接使用,需要被繼承重寫方法后才能使用
響應子類:
**TextResponse對象** class scrapy.http.TextResponse(url[, encoding[, ...]]) **HtmlResponse對象** class scrapy.http.HtmlResponse(url[, ...]) **XmlResponse對象** class scrapy.http.XmlResponse(url [,... ] )
舉例觀察TextResponse的定義
from scrapy.http import TextResponse
導入TextResponse
發現
class TextResponse(Response): _DEFAULT_ENCODING = "ascii" def __init__(self, *args, **kwargs): self._encoding = kwargs.pop("encoding", None) self._cached_benc = None self._cached_ubody = None self._cached_selector = None super(TextResponse, self).__init__(*args, **kwargs)
其中xpath方法已經被重寫
@property def selector(self): from scrapy.selector import Selector if self._cached_selector is None: self._cached_selector = Selector(self) return self._cached_selector def xpath(self, query, **kwargs): return self.selector.xpath(query, **kwargs) def css(self, query): return self.selector.css(query)
所以用戶想要調用Response類,必須選擇調用其子類,并且重寫部分方法
Scrapy爬蟲入門教程十一 Request和Response(請求和響應)
scrapy文檔:https://doc.scrapy.org/en/lat...
中文翻譯文檔:https://blog.csdn.net/Inke88/...
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/43318.html
摘要:,引言最近一直在看爬蟲框架,并嘗試使用框架寫一個可以實現網頁信息采集的簡單的小程序。本文主要介紹如何使用結合采集天貓商品內容,文中自定義了一個,用來采集需要加載的動態網頁內容。 showImg(https://segmentfault.com/img/bVyMnP); 1,引言 最近一直在看Scrapy 爬蟲框架,并嘗試使用Scrapy框架寫一個可以實現網頁信息采集的簡單的小程序。嘗試...
摘要:通常的解決辦法是通過抓包,然后查看信息,接著捕獲返回的消息。為了減少因為安裝環境所帶來的煩惱。代理因為我們已經用替換了。我們需要直接用來處理代理問題。根據上面這段代碼,我們也不難猜出解決代理的方法了。 上周說到scrapy的基本入門。這周來寫寫其中遇到的代理和js渲染的坑。 js渲染 js是爬蟲中畢竟麻煩處理的一塊。通常的解決辦法是通過抓包,然后查看request信息,接著捕獲ajax...
摘要:下載器負責獲取頁面,然后將它們交給引擎來處理。內置了一些下載器中間件,這些中間件將在后面介紹。下載器中間件下載器中間件可以在引擎和爬蟲之間操縱請求和響應對象。爬蟲中間件與下載器中間件類似,啟用爬蟲中間件需要一個字典來配置。 前段時間我寫了一篇《scrapy快速入門》,簡單介紹了一點scrapy的知識。最近我的搬瓦工讓墻了,而且我又學了一點mongodb的知識,所以這次就來介紹一些scr...
摘要:目錄前言創建項目創建創建解析付費榜運行爬取初始列表調用腳本獲取詳情前言熟悉之后,本篇文章帶大家爬取七麥數據的付費應用排行榜前名應用。根據傳入的正則表達式對數據進行提取,返回字符串列表。 目錄 前言 創建項目 創建Item 創建Spider 解析付費榜 運行爬取初始app列表 Selenium調用JS腳本 獲取app詳情 前言 熟悉Scrapy之后,本篇文章帶大家爬取七麥數據(h...
閱讀 3176·2021-11-23 09:51
閱讀 688·2021-10-14 09:43
閱讀 3212·2021-09-06 15:00
閱讀 2411·2019-08-30 15:54
閱讀 2565·2019-08-30 13:58
閱讀 1853·2019-08-29 13:18
閱讀 1384·2019-08-27 10:58
閱讀 518·2019-08-27 10:53