用python爬取知識星球

tinylcy 發(fā)布于2019-07-31 11:18 / 3402人閱讀

摘要：所以就試著用爬取了知識星球的內(nèi)容。這個過程又學習了一些新的知識，已經(jīng)在代碼中以批注的形式寫出。只不過在網(wǎng)頁中用到了的轉(zhuǎn)化，這部分是新學習的知識。

去年我們做過一個叫「學長問答」的社群活動，里面沉淀了大量有價值的互動信息，后來因為各種原因終止了。今天和涂騰聊起來，覺得這些信息就這么沉寂了太浪費。所以就試著用python爬取了知識星球的內(nèi)容。

這個過程又學習了一些新的知識，已經(jīng)在代碼中以批注的形式寫出。但還有一個沒有解決的問題，就是一個提問底下可以跟好幾個評論，我暫時還不能在輸出結(jié)果里將「一個提問+n個評論」以整體的形式給出，而只能把評論的信息以一個字典的形式展現(xiàn)，這算是沒有爬取的太徹底。將來再看看有沒有新的解決方法。

import requests
import json
import urllib
import csv


#頭信息。網(wǎng)站只提供掃碼登陸的方式，沒有賬號密碼。我以為應該比較麻煩，但在header信息里找到了Authorization信息之后，直接可以保持登陸狀態(tài)了。
# 令一個標志是直接在瀏覽器里訪問內(nèi)頁網(wǎng)址的話，瀏覽器的報錯是“{"succeeded":false,"code":401,"info":"","resp_data":{}}”，這個很像原來node.js的數(shù)據(jù)中心沒有登陸的報錯，而數(shù)據(jù)中心的模擬登陸也是通過在header中添加Authorization來實現(xiàn)的。
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
    "Referer": "https://wx.zsxq.com/dweb/",
    "Authorization": "51EC09CA-6BCC-8847-4419-FA04A2FC9E00"
}

#打開并寫入csv文件

f = open("/Users/damo/Desktop/wendatuan.csv", "w+")
writer = csv.writer(f)
writer.writerow(["created_time","ask_name","ask_content","comment"])

#定義爬取信息的函數(shù)主體

def get_info(url):

    res = requests.get(url,headers = headers)
    json_data = json.loads(res.text)
    datas = json_data["resp_data"]["topics"]

    for data in datas:
        if "talk" in data.keys(): # 判斷json中是否包含 talk 這個鍵
            ask_name = data["talk"]["owner"]["name"]
            ask_content = data["talk"]["text"]
        else:
            ask_name = ""
            ask_content = ""

        if "show_comments" in data.keys():
            comment = data["show_comments"]

        else:
            comment = ""
        created_time = data["create_time"]
        writer.writerow([created_time,ask_name,ask_content,comment])

    # 截止到前面的代碼，已經(jīng)可以實現(xiàn)一個頁面的爬取。下面的代碼內(nèi)容主要任務是實現(xiàn)“如何自動實現(xiàn)多頁面爬取”
    # 多頁面的爬取是通過Network中Query String Parameters來實現(xiàn)的：這里提供兩個參數(shù)，觀察之后發(fā)現(xiàn)count是固定值，而end_time和網(wǎng)址最后的時間是一樣的。
    # 只不過在網(wǎng)頁中用到了 urlencode的轉(zhuǎn)化，這部分是新學習的知識。
    # 在這個爬蟲案例中，網(wǎng)頁構(gòu)造的核心邏輯是“上一組最后一個數(shù)據(jù)的創(chuàng)建時間剛好是下一組數(shù)據(jù)訪問網(wǎng)址中的一個參數(shù)”，以此來構(gòu)造循環(huán)抓取的網(wǎng)址

    end_time = datas[19]["create_time"]
    url_encode = urllib.parse.quote(end_time) # urlencode，將網(wǎng)址中的文本轉(zhuǎn)化
    next_url = "https://api.zsxq.com/v1.10/groups/518282858584/topics?count=20&end_time="+url_encode # 通過觀察構(gòu)造下一組數(shù)據(jù)的網(wǎng)址
    get_info(next_url) # 這里比較巧，直接在函數(shù)內(nèi)部再次調(diào)用函數(shù)，從而實現(xiàn)不斷的自循環(huán)

if __name__ == "__main__":
    url = "https://api.zsxq.com/v1.10/groups/518282858584/topics?count=20"
    get_info(url)