70行python代碼實(shí)現(xiàn)壁紙批量下載

draveness 發(fā)布于2019-07-30 15:30 / 3559人閱讀

摘要：整理一下，完整的函數(shù)長(zhǎng)這樣批量運(yùn)行上述的步驟僅僅能夠下載第一個(gè)壁紙列表頁(yè)的第一張壁紙。

項(xiàng)目地址：https://github.com/jrainlau/w...

前言

好久沒(méi)有寫(xiě)文章了，因?yàn)樽罱荚谶m應(yīng)新的崗位，以及利用閑暇時(shí)間學(xué)習(xí)python。這篇文章是最近的一個(gè)python學(xué)習(xí)階段性總結(jié)，開(kāi)發(fā)了一個(gè)爬蟲(chóng)批量下載某壁紙網(wǎng)站的高清壁紙。

注意：本文所屬項(xiàng)目?jī)H用于python學(xué)習(xí)，嚴(yán)禁作為其他用途使用！

初始化項(xiàng)目

項(xiàng)目使用了virtualenv來(lái)創(chuàng)建一個(gè)虛擬環(huán)境，避免污染全局。使用pip3直接下載即可：

pip3 install virtualenv

然后在合適的地方新建一個(gè)wallpaper-downloader目錄，使用virtualenv創(chuàng)建名為venv的虛擬環(huán)境：

virtualenv venv

. venv/bin/activate

接下來(lái)創(chuàng)建依賴(lài)目錄：

echo bs4 lxml requests > requirements.txt

最后yun下載安裝依賴(lài)即可：

pip3 install -r requirements.txt

分析爬蟲(chóng)工作步驟

為了簡(jiǎn)單起見(jiàn)，我們直接進(jìn)入分類(lèi)為“aero”的壁紙列表頁(yè)：http://wallpaperswide.com/aer...。

可以看到，這一頁(yè)里面一共有10張可供下載的壁紙。但是由于這里顯示的都是縮略圖，作為壁紙來(lái)說(shuō)清晰度是遠(yuǎn)遠(yuǎn)不夠的，所以我們需要進(jìn)入壁紙?jiān)斍轫?yè)，去找到高清的下載鏈接。從第一張壁紙點(diǎn)進(jìn)去，可以看到一個(gè)新的頁(yè)面：

因?yàn)槲覚C(jī)器是Retina屏幕，所以我打算直接下載體積最大的那個(gè)以保證高清（紅圈所示體積）。

了解了具體的步驟以后，就是通過(guò)開(kāi)發(fā)者工具找到對(duì)應(yīng)的dom節(jié)點(diǎn)，提取相應(yīng)的url即可，這個(gè)過(guò)程就不再展開(kāi)了，讀者自行嘗試即可，下面進(jìn)入編碼部分。

訪問(wèn)頁(yè)面

新建一個(gè)download.py文件，然后引入兩個(gè)庫(kù)：

from bs4 import BeautifulSoup
import requests

接下來(lái)，編寫(xiě)一個(gè)專(zhuān)門(mén)用于訪問(wèn)url，然后返回頁(yè)面html的函數(shù)：

def visit_page(url):
    headers = {
      "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"
    }
    r = requests.get(url, headers = headers)
    r.encoding = "utf-8"
    return BeautifulSoup(r.text, "lxml")

為了防止被網(wǎng)站反爬機(jī)制擊中，所以我們需要通過(guò)在header添加UA把爬蟲(chóng)偽裝成正常的瀏覽器，然后指定utf-8編碼，最后返回字符串格式的html。

提取鏈接

在獲取了頁(yè)面的html以后，就需要提取這個(gè)頁(yè)面壁紙列表所對(duì)應(yīng)的url了：

def get_paper_link(page):
    links = page.select("#content > div > ul > li > div > div a")
    return [link.get("href") for link in links]

這個(gè)函數(shù)會(huì)把列表頁(yè)所有壁紙?jiān)斍榈膗rl給提取出來(lái)。

下載壁紙

有了詳情頁(yè)的地址以后，我們就可以進(jìn)去挑選合適的size了。在對(duì)頁(yè)面的dom結(jié)構(gòu)分析后可以知道，每一個(gè)size都對(duì)應(yīng)著一個(gè)鏈接：

所以第一步，就是把這些size對(duì)應(yīng)的鏈接提取出來(lái)：

wallpaper_source = visit_page(link)
wallpaper_size_links = wallpaper_source.select("#wallpaper-resolutions > a")
size_list = [{
    "size": eval(link.get_text().replace("x", "*")),
    "name": link.get("href").replace("/download/", ""),
    "url": link.get("href")
} for link in wallpaper_size_links]

size_list就是這些鏈接的一個(gè)集合。為了方便接下來(lái)選出最高清（體積最大）的壁紙，在size中我使用了eval方法，直接把這里的5120x3200給計(jì)算出來(lái)，作為size的值。

獲取了所有的集合之后，就可以使用max()方法選出最高清的一項(xiàng)出來(lái)了：

biggest_one = max(size_list, key = lambda item: item["size"])

這個(gè)biggest_one當(dāng)中的url就是對(duì)應(yīng)size的下載鏈接，接下來(lái)只需要通過(guò)requests庫(kù)把鏈接的資源下載下來(lái)即可：

result = requests.get(PAGE_DOMAIN + biggest_one["url"])

if result.status_code == 200:
    open("wallpapers/" + biggest_one["name"], "wb").write(result.content)

注意，首先你需要在根目錄下創(chuàng)建一個(gè)wallpapers目錄，否則運(yùn)行時(shí)會(huì)報(bào)錯(cuò)。

整理一下，完整的download_wallpaper函數(shù)長(zhǎng)這樣：

def download_wallpaper(link):
    wallpaper_source = visit_page(PAGE_DOMAIN + link)
    wallpaper_size_links = wallpaper_source.select("#wallpaper-resolutions > a")
    size_list = [{
        "size": eval(link.get_text().replace("x", "*")),
        "name": link.get("href").replace("/download/", ""),
        "url": link.get("href")
    } for link in wallpaper_size_links]

    biggest_one = max(size_list, key = lambda item: item["size"])
    print("Downloading the " + str(index + 1) + "/" + str(total) + " wallpaper: " + biggest_one["name"])
    result = requests.get(PAGE_DOMAIN + biggest_one["url"])

    if result.status_code == 200:
        open("wallpapers/" + biggest_one["name"], "wb").write(result.content)

批量運(yùn)行

上述的步驟僅僅能夠下載第一個(gè)壁紙列表頁(yè)的第一張壁紙。如果我們想下載多個(gè)列表頁(yè)的全部壁紙，我們就需要循環(huán)調(diào)用這些方法。首先我們定義幾個(gè)常量：

import sys

if len(sys.argv) != 4:
    print("3 arguments were required but only find " + str(len(sys.argv) - 1) + "!")
    exit()

category = sys.argv[1]

try:
    page_start = [int(sys.argv[2])]
    page_end = int(sys.argv[3])
except:
    print("The second and third arguments must be a number but not a string!")
    exit()

這里通過(guò)獲取命令行參數(shù)，指定了三個(gè)常量category, page_start和page_end，分別對(duì)應(yīng)著壁紙分類(lèi)，起始頁(yè)頁(yè)碼，終止頁(yè)頁(yè)碼。

為了方便起見(jiàn)，再定義兩個(gè)url相關(guān)的常量：

PAGE_DOMAIN = "http://wallpaperswide.com"
PAGE_URL = "http://wallpaperswide.com/" + category + "-desktop-wallpapers/page/"

接下來(lái)就可以愉快地進(jìn)行批量操作了，在此之前我們來(lái)定義一個(gè)start()啟動(dòng)函數(shù)：

def start():
    if page_start[0] <= page_end:
        print("Preparing to download the " + str(page_start[0])  + " page of all the "" + category + "" wallpapers...")
        PAGE_SOURCE = visit_page(PAGE_URL + str(page_start[0]))
        WALLPAPER_LINKS = get_paper_link(PAGE_SOURCE)
        page_start[0] = page_start[0] + 1

        for index, link in enumerate(WALLPAPER_LINKS):
            download_wallpaper(link, index, len(WALLPAPER_LINKS), start)

然后把之前的download_wallpaper函數(shù)再改寫(xiě)一下：

def download_wallpaper(link, index, total, callback):
    wallpaper_source = visit_page(PAGE_DOMAIN + link)
    wallpaper_size_links = wallpaper_source.select("#wallpaper-resolutions > a")
    size_list = [{
        "size": eval(link.get_text().replace("x", "*")),
        "name": link.get("href").replace("/download/", ""),
        "url": link.get("href")
    } for link in wallpaper_size_links]

    biggest_one = max(size_list, key = lambda item: item["size"])
    print("Downloading the " + str(index + 1) + "/" + str(total) + " wallpaper: " + biggest_one["name"])
    result = requests.get(PAGE_DOMAIN + biggest_one["url"])

    if result.status_code == 200:
        open("wallpapers/" + biggest_one["name"], "wb").write(result.content)

    if index + 1 == total:
        print("Download completed!

")
        callback()

最后指定一下啟動(dòng)規(guī)則：

if __name__ == "__main__":
     start()

運(yùn)行項(xiàng)目

在命令行輸入如下代碼開(kāi)始測(cè)試：

python3 download.py aero 1 2

然后可以看到下列輸出：

拿charles抓一下包，可以看到腳本正在平穩(wěn)地運(yùn)行中：

此時(shí)，下載腳本已經(jīng)開(kāi)發(fā)完畢，終于不用擔(dān)心壁紙荒啦！

GPU云服務(wù)器云服務(wù)器 Python代碼行數(shù)統(tǒng)計(jì) python手機(jī)壁紙 php實(shí)現(xiàn)批量刪除云存儲(chǔ)批量下載

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/41291.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

draveness

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 818·2023-04-25 20:18
如何讓直播延遲低體驗(yàn)更好？使用摩杜云視頻直播就可以了！

閱讀 2099·2021-11-22 13:54
win10如何安裝visual studio并運(yùn)行C++

閱讀 2543·2021-09-26 09:55
什么是主機(jī)的域名-主機(jī)域名是哪個(gè)？

閱讀 3910·2021-09-22 15:28
Linux 30周年：Linux 5.14閃亮登場(chǎng)！添加新硬件和秘密內(nèi)存區(qū)域支持

閱讀 2980·2021-09-03 10:34
傲游主機(jī)：美國(guó)CN2/香港CN2/德國(guó)CN2/荷蘭CN2/香港高防VPS全場(chǎng)8折

閱讀 1716·2021-07-28 00:15
js獲取元素的距離父元素、窗口的距離offsetTop,offsetHeight,clientHei

閱讀 1640·2019-08-30 14:25
深入理解瀏覽器的緩存機(jī)制

閱讀 1286·2019-08-29 17:16

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

70行python代碼實(shí)現(xiàn)壁紙批量下載

相關(guān)文章

爬取5K分辨率超清唯美壁紙

**我用Python爬取了五千張美女圖壁紙，每天一張忘記初戀！**

Jsoup爬蟲(chóng)獲取自己網(wǎng)站在百度搜索中的實(shí)時(shí)排名

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

發(fā)表評(píng)論

0條評(píng)論

draveness

男|高級(jí)講師

TA的文章

tensorflow

如何讓直播延遲低體驗(yàn)更好？使用摩杜云視頻直播就可以了！

win10如何安裝visual studio并運(yùn)行C++

什么是主機(jī)的域名-主機(jī)域名是哪個(gè)？

Linux 30周年：Linux 5.14閃亮登場(chǎng)！添加新硬件和秘密內(nèi)存區(qū)域支持

傲游主機(jī)：美國(guó)CN2/香港CN2/德國(guó)CN2/荷蘭CN2/香港高防VPS全場(chǎng)8折

js獲取元素的距離父元素、窗口的距離offsetTop,offsetHeight,clientHei

深入理解瀏覽器的緩存機(jī)制

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

70行python代碼實(shí)現(xiàn)壁紙批量下載

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！