国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

xiaolinBot(Twitter笑話集錦爬蟲Bot) Step1-最簡(jiǎn)爬蟲

zr_hebo / 2814人閱讀

摘要:最簡(jiǎn)爬蟲環(huán)境準(zhǔn)備最好使用另外需要兩個(gè)必要的庫一個(gè)封裝了服務(wù)的庫類似,使用非常方便開始實(shí)現(xiàn)第一個(gè)應(yīng)用我們第一個(gè)應(yīng)用實(shí)現(xiàn)的功能主要如下訪問一個(gè)頁面這里我們以糗事百科為例獲得頁面的內(nèi)容進(jìn)行簡(jiǎn)單的處理,獲得我們需要的內(nèi)容結(jié)果簡(jiǎn)單分析利用獲得頁面

Step1 - 最簡(jiǎn)爬蟲 環(huán)境準(zhǔn)備

Python3.5 最好使用venv

另外需要兩個(gè)必要的庫:

requests : 一個(gè)封裝了HTTP服務(wù)的python庫

pyquery : 類似Jquery,使用非常方便

$ pip install requests
$ pip install pyquery
開始 實(shí)現(xiàn)第一個(gè)應(yīng)用

我們第一個(gè)應(yīng)用實(shí)現(xiàn)的功能主要如下:

訪問一個(gè)頁面,這里我們以 糗事百科(http://www.qiushibaike.com/) 為例

獲得頁面的內(nèi)容

進(jìn)行簡(jiǎn)單的處理,獲得我們需要的內(nèi)容

import requests
from pyquery import PyQuery as pq

__author__ = "BONFY CHEN "


SITE = "http://www.qiushibaike.com/"
r = requests.get(SITE)
assert r.status_code == 200
d = pq(r.text)
contents = d("div .article")
for item in contents:
    i = pq(item)
    content = i("div .content").text()
    print(content)
結(jié)果

簡(jiǎn)單分析

利用 requests.get 獲得頁面

assert 斷言,如果網(wǎng)絡(luò)問題 訪問不到就退出

contents 利用 pyquery 獲得所有文章 后續(xù) 讀取 div class = "content" 的為文本內(nèi)容 (這里沒有處理圖片后續(xù)的講解中會(huì)完善)

print 輸出

完整代碼

補(bǔ)充模仿瀏覽器的Headers,詳情見 https://github.com/bonfy/xiaolinBot

歡迎關(guān)注及一起交流

請(qǐng)期待下一篇: 代碼優(yōu)化

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/37937.html

相關(guān)文章

  • xiaolinBotTwitter笑話集錦爬蟲Bot) Step2-代碼優(yōu)化

    摘要:代碼優(yōu)化簡(jiǎn)介這篇我們簡(jiǎn)要的討論一下代碼優(yōu)化,這里主要討論兩點(diǎn)過程到函數(shù)加入對(duì)的處理我們?cè)谥械木幋a是面向過程的,這個(gè)不利于復(fù)用,所以我們簡(jiǎn)單的將我們前面的代碼函數(shù)化,方便以后擴(kuò)展及別人的調(diào)用另外,代碼最好符合規(guī)范,方便自己和別人閱讀編碼創(chuàng)建 Step2 - 代碼優(yōu)化 簡(jiǎn)介 這篇我們簡(jiǎn)要的討論一下代碼優(yōu)化,這里主要討論兩點(diǎn) 過程到函數(shù) 加入對(duì)media的處理 PEP8 我們?cè)赟tep1...

    HelKyle 評(píng)論0 收藏0
  • 基于asyncio編寫一個(gè)telegram爬蟲機(jī)器人

    摘要:而的異步非阻塞特性能夠完美的解決這一問題。爬蟲機(jī)器人功能實(shí)現(xiàn)我使用編寫的機(jī)器人是用來抓取來自游民星空的圖片。也是使用裝飾器進(jìn)行回調(diào)函數(shù)注冊(cè),使用進(jìn)行消息更新。當(dāng)沒有指令時(shí),會(huì)顯示一些能夠查看的圖片類型。 原文鏈接 前言 aiotg 可以通過異步調(diào)用telegram api的方式來構(gòu)建bot,因?yàn)闆Q定開發(fā)一個(gè)爬蟲功能的bot,所以網(wǎng)絡(luò)請(qǐng)求阻塞是比較嚴(yán)重的性能障礙。而asyncio的異步非...

    馬忠志 評(píng)論0 收藏0
  • Nginx 限制百度等爬蟲連接

    摘要:目的每?jī)擅朐试S個(gè)來自頭包含等的爬蟲類請(qǐng)求測(cè)試官方文檔中文相關(guān)解釋 目的: 每?jī)擅朐试S1個(gè)來自header頭包含Baiduspider等的爬蟲類請(qǐng)求 http { map $http_user_agent $is_limited_bot { ~Baiduspider 1; ~OtherSpider 2; default ; } limit_req_zone $i...

    yearsj 評(píng)論0 收藏0
  • ?? 爬蟲分析CSDN大佬之間關(guān)系,堪比娛樂圈 ??

    ? 作者主頁:不吃西紅柿 ? 簡(jiǎn)介:CSDN博客專家?、信息技術(shù)智庫公號(hào)作者?簡(jiǎn)歷模板、PPT模板、技術(shù)資料盡管【關(guān)注】私聊我。歷史文章目錄:https://t.1yb.co/zHJo ? 歡迎點(diǎn)贊 ? 收藏 ?留言 ? 如有錯(cuò)誤敬請(qǐng)指正! 本文重點(diǎn): 1、爬蟲獲取csdn大佬之間的關(guān)系 2、可視化分析曖昧關(guān)系,復(fù)雜堪比娛樂圈 大佬簡(jiǎn)介 ? Java李楊勇:一個(gè)性感的計(jì)算機(jī)專業(yè)畢業(yè)的...

    Michael_Ding 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<