段友福利：Python爬取段友之家貼吧圖片和小視頻

singerye 發(fā)布于2019-07-30 16:45 / 2947人閱讀

摘要：由于最新的視頻整頓風(fēng)波，內(nèi)涵段子被迫關(guān)閉，廣大段友無(wú)家可歸，但是最近發(fā)現(xiàn)了一個(gè)段友的，版本更新也挺快，正在號(hào)召?gòu)V大段友回家，如下圖，有興趣的可以下載看看我不是打廣告的，沒(méi)收廣告費(fèi)的同時(shí)，之前同事也發(fā)了一個(gè)貼吧的段子聚居地，客官稍等，馬上奉上

由于最新的視頻整頓風(fēng)波，內(nèi)涵段子APP被迫關(guān)閉，廣大段友無(wú)家可歸，但是最近發(fā)現(xiàn)了一個(gè)“段友”的app，版本更新也挺快，正在號(hào)召?gòu)V大段友回家，如下圖，有興趣的可以下載看看（ps：我不是打廣告的，沒(méi)收廣告費(fèi)的）

同時(shí)，之前同事也發(fā)了一個(gè)貼吧的段子聚居地，客官稍等，馬上奉上連接：
段友之家 https://tieba.baidu.com/f?ie=...

然后呢，看到上面，確實(shí)好多段友在上面，于是乎，我就想爬取他們的圖片和小視頻，就有了這篇文章的主題：

其實(shí)吧，用Python爬取網(wǎng)站數(shù)據(jù)是最基礎(chǔ)的東西，也不難，但是我還想分享給大家，一起學(xué)習(xí)和交流。

爬取這些網(wǎng)站里的數(shù)據(jù)主要用的模塊是bs4、requests以及os，都是常用模塊

大概思路就是通過(guò)requests模塊請(qǐng)求網(wǎng)頁(yè)html數(shù)據(jù)，然后通過(guò)bs4模塊下的BeautifulSoup分析請(qǐng)求的網(wǎng)頁(yè)，然后通過(guò)css查找器查找內(nèi)涵段子的圖片以及小視頻的地址，主要實(shí)現(xiàn)代碼如下：

def download_file(web_url):
    """獲取資源的url"""
    # 下載網(wǎng)頁(yè)
    print("正在下載網(wǎng)頁(yè)： %s..." % web_url)
    result = requests.get(web_url)
    soup = bs4.BeautifulSoup(result.text, "html.parser")
    # 查找圖片資源
    img_list = soup.select(".vpic_wrap img")
    if img_list == []:
        print("未發(fā)現(xiàn)圖片資源！")
    else:
        # 找到資源，開始寫入
        for img_info in img_list:
            file_url = img_info.get("bpic")
            write_file(file_url, 1)
    # 查找視頻資源
    video_list = soup.select(".threadlist_video a")
    if video_list == []:
        print("未發(fā)現(xiàn)視頻資源！")
    else:
        # 找到資源，開始寫入
        for video_info in video_list:
            file_url = video_info.get("data-video")
            write_file(file_url, 2)
    print("下載資源結(jié)束：", web_url)
    next_link = soup.select("#frs_list_pager .next")
    if next_link == []:
        print("下載資料結(jié)束！")
    else:
        url = next_link[0].get("href")
        download_file("https:" + url)

得到圖片以及視頻的地址之后，肯定還不夠，還得把這些資源寫入到本地，方式是通過(guò)二進(jìn)制的方式來(lái)讀取遠(yuǎn)程文件資源，然后分類寫入到本地，實(shí)現(xiàn)的主要代碼如下：

def write_file(file_url, file_type):
    """寫入文件"""
    res = requests.get(file_url)
    res.raise_for_status()
    # 文件類型分文件夾寫入
    if file_type == 1:
        file_folder = "nhdzjpg"
    elif file_type == 2:
        file_folder = "nhdzmp4"
    else:
        file_folder = "nhdzother"
    folder = os.path.exists(file_folder)
    # 文件夾不存在，則創(chuàng)建文件夾
    if not folder:
        os.makedirs(file_folder)
    # 打開文件資源，并寫入
    file_name = os.path.basename(file_url)
    str_index = file_name.find("?")
    if str_index > 0:
        file_name = file_name[:str_index]
    file_path = os.path.join(file_folder, file_name)
    print("正在寫入資源文件：", file_path)
    image_file = open(file_path, "wb")
    for chunk in res.iter_content(100000):
        image_file.write(chunk)
    image_file.close()
    print("寫入完成！")

最后，再奉上完整的代碼吧。要不然，會(huì)被人說(shuō)的，說(shuō)話說(shuō)一半，說(shuō)福利，也不給全，這就太不夠意思了。客官別急，馬上奉上……

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
爬取百度貼吧，段友之家的圖片和視頻
author: cuizy
time：2018-05-19
"""

import requests
import bs4
import os


def write_file(file_url, file_type):
    """寫入文件"""
    res = requests.get(file_url)
    res.raise_for_status()
    # 文件類型分文件夾寫入
    if file_type == 1:
        file_folder = "nhdzjpg"
    elif file_type == 2:
        file_folder = "nhdzmp4"
    else:
        file_folder = "nhdzother"
    folder = os.path.exists(file_folder)
    # 文件夾不存在，則創(chuàng)建文件夾
    if not folder:
        os.makedirs(file_folder)
    # 打開文件資源，并寫入
    file_name = os.path.basename(file_url)
    str_index = file_name.find("?")
    if str_index > 0:
        file_name = file_name[:str_index]
    file_path = os.path.join(file_folder, file_name)
    print("正在寫入資源文件：", file_path)
    image_file = open(file_path, "wb")
    for chunk in res.iter_content(100000):
        image_file.write(chunk)
    image_file.close()
    print("寫入完成！")


def download_file(web_url):
    """獲取資源的url"""
    # 下載網(wǎng)頁(yè)
    print("正在下載網(wǎng)頁(yè)： %s..." % web_url)
    result = requests.get(web_url)
    soup = bs4.BeautifulSoup(result.text, "html.parser")
    # 查找圖片資源
    img_list = soup.select(".vpic_wrap img")
    if img_list == []:
        print("未發(fā)現(xiàn)圖片資源！")
    else:
        # 找到資源，開始寫入
        for img_info in img_list:
            file_url = img_info.get("bpic")
            write_file(file_url, 1)
    # 查找視頻資源
    video_list = soup.select(".threadlist_video a")
    if video_list == []:
        print("未發(fā)現(xiàn)視頻資源！")
    else:
        # 找到資源，開始寫入
        for video_info in video_list:
            file_url = video_info.get("data-video")
            write_file(file_url, 2)
    print("下載資源結(jié)束：", web_url)
    next_link = soup.select("#frs_list_pager .next")
    if next_link == []:
        print("下載資料結(jié)束！")
    else:
        url = next_link[0].get("href")
        download_file("https:" + url)


# 主程序入口
if __name__ == "__main__":
    web_url = "https://tieba.baidu.com/f?ie=utf-8&kw=段友之家"
    download_file(web_url)