Scrapy Shell

HmyBmny 發(fā)布于2019-07-30 15:39 / 2969人閱讀

摘要：如果安裝了，終端將使用替代標(biāo)準(zhǔn)終端。終端與其他相比更為強(qiáng)大，提供智能的自動補(bǔ)全，高亮輸出，及其他特性。也提供了一些快捷方式例如或同樣可以生效如之前的案例。當(dāng)然作用不僅僅如此，但是不屬于我們課程重點，不做詳細(xì)介紹。

Scrapy Shell

Scrapy終端是一個交互終端，我們可以在未啟動spider的情況下嘗試及調(diào)試代碼，也可以用來測試XPath或CSS表達(dá)式，查看他們的工作方式，方便我們爬取的網(wǎng)頁中提取的數(shù)據(jù)。

如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標(biāo)準(zhǔn)Python終端)。 IPython 終端與其他相比更為強(qiáng)大，提供智能的自動補(bǔ)全，高亮輸出，及其他特性。（推薦安裝IPython）

啟動Scrapy Shell

進(jìn)入項目的根目錄，執(zhí)行下列命令來啟動shell:

scrapy shell "http://www.itcast.cn/channel/teacher.shtml"

圖片描述

Scrapy Shell根據(jù)下載的頁面會自動創(chuàng)建一些方便使用的對象，例如 Response 對象，以及 Selector 對象 (對HTML及XML內(nèi)容)。

當(dāng)shell載入后，將得到一個包含response數(shù)據(jù)的本地 response 變量，輸入
response.body將輸出response的包體，輸出 response.headers 可以看到response的包頭。

輸入 response.selector 時，將獲取到一個response 初始化的類 Selector 的對象，此時可以通過使用
response.selector.xpath()或response.selector.css() 來對 response 進(jìn)行查詢。

Scrapy也提供了一些快捷方式, 例如 response.xpath()或response.css()同樣可以生效（如之前的案例）。

Selectors選擇器

Scrapy Selectors 內(nèi)置 XPath 和 CSS Selector 表達(dá)式機(jī)制

Selector有四個基本的方法，最常用的還是xpath:

xpath(): 傳入xpath表達(dá)式，返回該表達(dá)式所對應(yīng)的所有節(jié)點的selector list列表

extract(): 序列化該節(jié)點為Unicode字符串并返回list

css(): 傳入CSS表達(dá)式，返回該表達(dá)式所對應(yīng)的所有節(jié)點的selector list列表，語法同 BeautifulSoup4

re(): 根據(jù)傳入的正則表達(dá)式對數(shù)據(jù)進(jìn)行提取，返回Unicode字符串list列表

XPath表達(dá)式的例子及對應(yīng)的含義:

/html/head/title: 選擇文檔中  標(biāo)簽內(nèi)的  元素
/html/head/title/text(): 選擇上面提到的 <title> 元素的文字
//td: 選擇所有的 <td> 元素
//div[@class="mine"]: 選擇所有具有 class="mine" 屬性的 div 元素
</pre>
<b>嘗試Selector</b>
<p>我們用騰訊社招的網(wǎng)站http://hr.tencent.com/positio...舉例：</p>
<pre># 啟動
scrapy shell "http://hr.tencent.com/position.php?&start=0#a"

# 返回 xpath選擇器對象列表
response.xpath("http://title")
[<Selector xpath="http://title" data=u"<title>u804cu4f4du641cu7d22 | u793eu4f1au62dbu8058 | Tencent u817eu8bafu62dbu8058</title">]

# 使用 extract()方法返回 Unicode字符串列表
response.xpath("http://title").extract()
[u"<title>u804cu4f4du641cu7d22 | u793eu4f1au62dbu8058 | Tencent u817eu8bafu62dbu8058"]

# 打印列表第一個元素，終端編碼格式顯示
print response.xpath("http://title").extract()[0]
職位搜索 | 社會招聘 | Tencent 騰訊招聘

# 返回 xpath選擇器對象列表
response.xpath("http://title/text()")


# 返回列表第一個元素的Unicode字符串
response.xpath("http://title/text()")[0].extract()
u"u804cu4f4du641cu7d22 | u793eu4f1au62dbu8058 | Tencent u817eu8bafu62dbu8058"

# 按終端編碼格式顯示
print response.xpath("http://title/text()")[0].extract()
職位搜索 | 社會招聘 | Tencent 騰訊招聘

response.xpath("http://*[@class="even"]")
職位名稱:

print site[0].xpath("./td[1]/a/text()").extract()[0]
TEG15-運(yùn)營開發(fā)工程師（深圳）
職位名稱詳情頁:

print site[0].xpath("./td[1]/a/@href").extract()[0]
position_detail.php?id=20744&keywords=&tid=0&lid=0
職位類別:

print site[0].xpath("./td[2]/text()").extract()[0]
技術(shù)類

以后做數(shù)據(jù)提取的時候，可以把現(xiàn)在Scrapy Shell中測試，測試通過后再應(yīng)用到代碼中。

當(dāng)然Scrapy Shell作用不僅僅如此，但是不屬于我們課程重點，不做詳細(xì)介紹。

官方文檔：[http://scrapy-chs.readthedocs...
Spider][3]