爬蟲小demo

pf_miles 發布于2019-07-31 10:25 / 811人閱讀

摘要：爬取的數據存入表格分析要爬取的內容的網頁結構是庫寫入表所用讀取表所用通過解析文檔為用戶提供需要抓取的數據改變標準輸出的默認編碼我們開始利用來獲取網頁并利用解析網頁返回的是狀態碼，加上以字節形式二進制返回數據。

爬取的數據存入Excel表格

分析要爬取的內容的網頁結構：

demo.py:

import requests    #requests是HTTP庫
import re
from openpyxl import workbook  # 寫入Excel表所用
from openpyxl import load_workbook  # 讀取Excel表所用
from bs4 import BeautifulSoup as bs   #bs:通過解析文檔為用戶提供需要抓取的數據
import os
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding="utf8") #改變標準輸出的默認編碼


#我們開始利用requests.get（）來獲取網頁并利用bs4解析網頁：
def getData(src):

    html = requests.get(src).content    # requests.get(src)返回的是狀態碼，加上.content以字節形式（二進制返回數據。   和前端一樣，分為get post等  http://www.cnblogs.com/ranxf/p/7808537.html
    soup = bs(html,"lxml")   # lxml解析器解析字節形式的數據，得到完整的類似頁面的html代碼結構的數據
    print(soup)

    global ws
    Name = []
    Introductions = []
    introductions = soup.find_all("a",class_="book-item-name")
    nameList = soup.find_all("a",class_="author")
    print (nameList)
    for name in nameList:
        print (name.text)
        Name.append(name.text)
    for introduction in introductions:
        Introductions.append(introduction.text)
    for i in range(len(Name)):
        ws.append([Name[i],Introductions[i]])

if __name__ == "__main__":
    #   讀取存在的Excel表測試
    #     wb = load_workbook("t est.xlsx") #加載存在的Excel表
    #     a_sheet = wb.get_sheet_by_name("Sheet1") #根據表名獲取表對象
    #     for row in a_sheet.rows: #遍歷輸出行數據
    #         for cell in row: #每行的 每一個單元格
    #             print cell.value,

    #  創建Excel表并寫入數據
    wb = workbook.Workbook()  # 創建Excel對象
    ws = wb.active  # 獲取當前正在操作的表對象
    # 往表中寫入標題行,以列表形式寫入！
    ws.append(["角色名字", "票數"])
    src = "http://www.lrts.me/book/category/3058"
    getData(src)
    wb.save("qinshi.xlsx")  # 存入所有信息后，保存為filename.xlsx

執行：python demo.py

效果生成一個qinshi.xlsx文件

GPU云服務器云服務器微信小程序Demo ios 騰訊云小直播demo 爬蟲小工具 demos

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/43809.html

node：爬蟲爬取網頁圖片

摘要：目錄安裝，并下載依賴搭建服務請求我們要爬取的頁面，返回安裝我們開始安裝，可以去官網下載下載地址，下載完成后運行使用，安裝成功后會出現你所安裝的版本號。前言周末自己在家閑著沒事，刷著微信，玩著手機，發現自己的微信頭像該換了，就去網上找了一下頭像，看著圖片，自己就想著作為一個碼農，可以把這些圖片都爬取下來做成一個微信小程序，說干就干，了解一下基本都知道怎么做了，整理分享一波給大家。目...

ygyooo 2019-08-26 12:12 評論0 收藏0
SegmentFault 技術周刊 Vol.30 - 學習 Python 來做一些神奇好玩的事情吧

摘要：學習筆記七數學形態學關注的是圖像中的形狀，它提供了一些方法用于檢測形狀和改變形狀。學習筆記十一尺度不變特征變換，簡稱是圖像局部特征提取的現代方法基于區域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機制，并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言開始之前，我們先來看這樣一個提問： pyth...

lifesimple 2019-07-30 14:22 評論0 收藏0
后端知識拓展 - 收藏集 - 掘金

摘要：阻塞，非阻塞首先，阻塞這個詞來自操作系統的線程進程的狀態模型網絡爬蟲基本原理一后端掘金網絡爬蟲是捜索引擎抓取系統的重要組成部分。每門主要編程語言現未來已到后端掘金使用和在相同環境各加載多張小圖片，性能相差一倍。 2016 年度小結（服務器端方向）| 掘金技術征文 - 后端 - 掘金今年年初我花了三個月的業余時間用 Laravel 開發了一個項目，在此之前，除了去年換工作準備面試時，我并...

CoderBear 2019-08-15 11:00 評論0 收藏0
后端知識拓展 - 收藏集 - 掘金

摘要：阻塞，非阻塞首先，阻塞這個詞來自操作系統的線程進程的狀態模型網絡爬蟲基本原理一后端掘金網絡爬蟲是捜索引擎抓取系統的重要組成部分。每門主要編程語言現未來已到后端掘金使用和在相同環境各加載多張小圖片，性能相差一倍。 2016 年度小結（服務器端方向）| 掘金技術征文 - 后端 - 掘金今年年初我花了三個月的業余時間用 Laravel 開發了一個項目，在此之前，除了去年換工作準備面試時，我并...

Carl 2019-07-25 13:59 評論0 收藏0