一步步爬取Coursera課程資源

Simon_Zhou 發布于2019-07-24 17:41 / 3722人閱讀

摘要：至此登錄功能初步實現。為了方便我們快速定位到每節課的所有資源，可以把一節課的所有資源文件均命名為課名文件類型。可以看一下一個測試例子中的文件，部分內容如下到這里為止，我們已經成功完成爬取課程資源的目標，具體的代碼放在上。

原文地址

有時候我們需要把一些經典的東西收藏起來，時時回味，而Coursera上的一些課程無疑就是經典之作。Coursera中的大部分完結課程都提供了完整的配套教學資源，包括ppt，視頻以及字幕等，離線下來后會非常便于學習。很明顯，我們不會去一個文件一個文件的下載，只有傻子才那么干，程序員都是聰明人！

那我們聰明人準備怎么辦呢？當然是寫一個腳本來批量下載了。首先我們需要分析一下手工下載的流程：登錄自己的Coursera賬戶(有的課程需要我們登錄并選課后才能看到相應的資源)，在課程資源頁面里，找到相應的文件鏈接，然后用喜歡的工具下載。

很簡單是吧？我們可以用程序來模仿以上的步驟，這樣就可以解放雙手了。整個程序分為三個部分就可以了：

登錄Coursera；

在課程資源頁面里面找到資源鏈接；

根據資源鏈接選擇合適的工具下載資源。

下面就來具體的實現以下吧！

登錄

剛開始時自己并沒有添加登錄模塊，以為訪客就可以下載相應的課程資源，后來在測試comnetworks-002這門課程時發現訪客訪問資源頁面時會自動跳轉到登錄界面，下圖是chrome在隱身模式訪問該課程資源頁面時的情況。

要想模擬登錄，我們先找到登錄的頁面，然后利用google的Developer Tools分析賬號密碼是如何上傳到服務器的。

我們在登錄頁面的表單中填入賬號密碼，然后點擊登錄。與此同時，我們需要雙眼緊盯Developer Tools——Network，找到提交賬號信息的url。一般情況下，如果要向服務器提交信息，一般都用post方法，這里我們只需要先找到Method為post的url。悲劇的是，每次登錄賬號時，Network里面都找不到提交賬戶信息的地址。猜測登錄成功后，直接跳轉到登錄成功后的頁面，想要找的內容一閃而過了。

于是就隨便輸入了一組賬號密碼，故意登錄失敗，果真找到了post的頁面地址，如下圖:

地址為：https://accounts.coursera.org/api/v1/login。為了知道向服務器提交了哪些內容，進一步觀察post頁面中表單中內容，如下圖：

我們看到一共有三個字段：

email：賬號的注冊郵箱

password：賬號密碼

webrequest：附加的字段，值為true。

接下來就動手寫吧，我選擇用python的Requests庫來模擬登錄，關于Requests官網是這樣介紹的。

Requests is an elegant and simple HTTP library for Python, built for human beings.

事實上requests用起來確實簡單方便，不虧是專門為人類設計的http庫。requests提供了Session對象，可以用來在不同的請求中傳遞一些相同的數據，比如在每次請求中都攜帶cookie。

初步的代碼如下：

signin_url = "https://accounts.coursera.org/api/v1/login"
logininfo = {"email": "...",
             "password": "...",
             "webrequest": "true"
             }

user_agent = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) "
              "AppleWebKit/537.36 (KHTML, like Gecko) "
              "Chrome/36.0.1985.143 Safari/537.36")

post_headers = {"User-Agent": user_agent,
                "Referer": "https://accounts.coursera.org/signin"
                }
coursera_session = requests.Session()

login_res = coursera_session.post(signin_url,
                                  data=logininfo,
                                  headers=post_headers,
                                  )
if login_res.status_code == 200:
    print "Login Successfully!"
else:
    print login_res.text

將表單中提交的內容存放在字典中，然后作為data參數傳遞給Session.post函數。一般情況下，最好是加上請求User-Agent，Referer等請求頭部，User-Agent用來模擬瀏覽器請求，Referer用來告訴服務器我是從referer頁面跳轉到請求頁面的，有時候服務器會檢查請求的Referer字段來保證是從固定地址跳到當前請求頁的。

上面片段的運行結果很奇怪，顯示如下信息：Invalid CSRF Token。后來在github上面搜索到一個Coursera的批量下載腳本，發現人家發送頁面請求時headers多了XCSRF2Cookie, XCSRF2Token, XCSRFToken, cookie4個字段。于是又重新看了一下post頁面的請求頭部，發現確實有這幾個字段，估計是服務器端用來做一些限制的。

用瀏覽器登錄了幾次，發現XCSRF2Token, XCSRFToken是長度為24的隨機字符串，XCSRF2Cookie為"csrf2_token_"加上長度為8的隨機字符串。不過一直沒搞明白Cookie是怎么求出來的，不過看github上面代碼，Cookie似乎只是"csrftoken"和其他三個的組合，試了一下竟然可以。

在原來的代碼上添加以下部分就足夠了。

def randomString(length):
    return "".join(random.choice(string.letters + string.digits) for i in xrange(length))

XCSRF2Cookie = "csrf2_token_%s" % "".join(randomString(8))
XCSRF2Token = "".join(randomString(24))
XCSRFToken = "".join(randomString(24))
cookie = "csrftoken=%s; %s=%s" % (XCSRFToken, XCSRF2Cookie, XCSRF2Token)

post_headers = {"User-Agent": user_agent,
                "Referer": "https://accounts.coursera.org/signin",
                "X-Requested-With": "XMLHttpRequest",
                "X-CSRF2-Cookie": XCSRF2Cookie,
                "X-CSRF2-Token": XCSRF2Token,
                "X-CSRFToken": XCSRFToken,
                "Cookie": cookie
                }

至此登錄功能初步實現。

分析資源鏈接

登錄成功后，我們只需要get到資源頁面的內容，然后過濾出自己需要的資源鏈接就行了。資源頁面的地址很簡單，為https://class.coursera.org/name/lecture，其中name為課程名稱。比如對于課程comnetworks-002，資源頁面地址為https://class.coursera.org/comnetworks-002/lecture。

抓取到頁面資源后，我們需要分析html文件，這里選擇使用BeautifulSoup。BeautifulSoup是一個可以從HTML或XML文件中提取數據的Python庫，相當強大。具體使用官網上有很詳細的文檔，這里不再贅述。在使用BeautifulSoup前，我們還得找出資源鏈接的規律，方便我們過濾。

其中課程每周的總題目為class=course-item-list-header的div標簽下，每周的課程均在class=course-item-list-section-list的ul標簽下，每節課程在一個li標簽中，課程資源則在li標簽中的div標簽中。

查看了幾門課程之后，發現過濾資源鏈接的方法很簡單，如下：

ppt和ppt資源：用正則表達式匹配鏈接；

字幕資源：找到title="Subtitles (srt)"的標簽，取其href屬性；

視頻資源：找到title="Video (MP4)"的標簽，取其href屬性即可。

字幕和視頻也可以用正則表達式過濾，不過用BeautifulSoup根據title屬性來匹配，有更好的易讀性。而ppt和pdf資源，沒有固定的title屬性，只好利用正則表達式來匹配。

具體代碼如下：

soup = BeautifulSoup(content)
chapter_list = soup.find_all("div", class_="course-item-list-header")
lecture_resource_list = soup.find_all("ul", class_="course-item-list-section-list")

ppt_pattern = re.compile(r"https://[^"]*.ppt[x]?")
pdf_pattern = re.compile(r"https://[^"]*.pdf")
for lecture_item, chapter_item in zip(lecture_resource_list, chapter_list):
    # weekly title
    chapter = chapter_item.h3.text.lstrip()

    for lecture in lecture_item:
        lecture_name = lecture.a.string.lstrip()

        # get resource link
        ppt_tag = lecture.find(href=ppt_pattern)
        pdf_tag = lecture.find(href=pdf_pattern)
        srt_tag = lecture.find(title="Subtitles (srt)")
        mp4_tag = lecture.find(title="Video (MP4)")
        print ppt_tag["href"], pdf_tag["href"]
        print srt_tag["href"], mp4_tag["href"]

下載資源

既然已經得到了資源鏈接，下載部分就很容易了，這里我選擇使用curl來下載。具體思路很簡單，就是輸出curl resource_link -o file_name到一個種子文件中去，比如到feed.sh中。這樣只需要給種子文件執行權限，然后運行種子文件即可。

為了便于歸類課程資源，可以為課程每周的標題建立一個文件夾，之后該周的所有課程均下載在該目錄下。為了方便我們快速定位到每節課的所有資源，可以把一節課的所有資源文件均命名為課名.文件類型。具體的實現比較簡單，這里不再給出具體程序了。可以看一下一個測試例子中的feed.sh文件，部分內容如下：

mkdir "Week 1: Introduction, Protocols, and Layering"
cd "Week 1: Introduction, Protocols, and Layering"
curl https://d396qusza40orc.cloudfront.net/comnetworks/lect/1-readings.pdf -o "1-1 Goals and Motivation (15:46).pdf"
curl https://class.coursera.org/comnetworks-002/lecture/subtitles?q=25_en&format=srt -o "1-1 Goals and Motivation (15:46).srt"
curl https://class.coursera.org/comnetworks-002/lecture/download.mp4?lecture_id=25 -o "1-1 Goals and Motivation (15:46).mp4"
curl https://d396qusza40orc.cloudfront.net/comnetworks/lect/1-readings.pdf -o "1-2 Uses of Networks (17:12).pdf"
curl https://class.coursera.org/comnetworks-002/lecture/subtitles?q=11_en&format=srt -o "1-2 Uses of Networks (17:12).srt"
curl https://class.coursera.org/comnetworks-002/lecture/download.mp4?lecture_id=11 -o "1-2 Uses of Networks (17:12).mp4"

到這里為止，我們已經成功完成爬取Coursera課程資源的目標，具體的代碼放在gist上。使用時，我們只需要運行程序，并把課程名稱作為參數傳遞給程序就可以了(這里的課程名稱并不是整個課程的完整名字，而是在課程介紹頁面地址中的縮略名字，比如Computer Networks這門課，課程名稱是comnetworks-002)。

其實，這個程序可以看做一個簡單的小爬蟲程序了，下面粗略介紹下爬蟲的概念。

一點都不簡單的爬蟲

關于什么是爬蟲，wiki上是這樣說的

A Web crawler is an Internet bot that systematically browses the World Wide Web, typically for the purpose of Web indexing.

爬蟲的總體架構圖如下(圖片來自wiki)：

簡單來說，爬蟲從Scheduler中獲取初始的urls，下載相應的頁面，存儲有用的數據，同時分析該頁面中的鏈接，如果已經訪問就pass，沒訪問的話加入到Scheduler中等待抓取頁面。

當然有一些協議來約束爬蟲的行為規范，比如許多網站都有一個robots.txt文件來規定網站哪些內容可以被爬取，哪些不可以。

每個搜索引擎背后都有一個強大的爬蟲程序，把觸角伸到網絡中的所有角落，不斷去收集有用信息，并建立索引。這種搜索引擎級別的爬蟲實現起來非常復雜，因為網絡上的頁面數量太過龐大，只是遍歷他們就已經很困難了，更不要說去分析頁面信息，并建立索引了。

實際應用中，我們只需要爬取特定站點，抓取少量的資源，這樣實現起來簡單很多。不過仍然有許多讓人頭疼的問題，比如許多頁面元素是javascript生成的，這時候我們需要一個javascript引擎，渲染出整個頁面，再加以過濾。

更糟糕的是，許多站點都會用一些措施來阻止爬蟲爬取資源，比如限定同一IP一段時間的訪問次數，或者是限制兩次操作的時間間隔，加入驗證碼等等。絕大多數情況下，我們不知道服務器端是如何防止爬蟲的，所以要想讓爬蟲工作起來確實挺難的。

參考：
github:coursera-dl/coursera
github:coursera-downloader
python爬取頁面元素失敗
Wiki: Web crawler
Python 爬蟲如何入門學習？

云服務器 GPU云服務器一步步搭建框架一步步搭建物聯網系統 Coursera 步步撤銷

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/37388.html

想入門人工智能? 這些優質的 AI 資源絕對不要錯過

摘要：該課程旨在面向有抱負的工程師，從人工智能的基本概念入門到掌握為人工智能解決方案構建深度學習模型所需技能。 showImg(https://segmentfault.com/img/bVbkP5z?w=800&h=664); 作者 | Jo Stichbury翻譯 | Mika本文為 CDA 數據分析師原創作品，轉載需授權前言如今人工智能備受追捧，由于傳統軟件團隊缺乏AI技能，常常會...

Barrior 2019-06-26 18:41 評論0 收藏0
重磅 | 完備的 AI 學習路線，最詳細的資源整理！

摘要：是你學習從入門到專家必備的學習路線和優質學習資源。的數學基礎最主要是高等數學線性代數概率論與數理統計三門課程，這三門課程是本科必修的。其作為機器學習的入門和進階資料非常適合。書籍介紹深度學習通常又被稱為花書，深度學習領域最經典的暢銷書。 showImg(https://segmentfault.com/img/remote/1460000019011569); 【導讀】本文由知名開源平...

荊兆峰 2019-06-26 18:54 評論0 收藏0
普通程序員，如何轉行人工智能？

摘要：普通程序員，如何轉向人工智能方向，是知乎上的一個問題。領域簡介，也就是人工智能，并不僅僅包括機器學習。但是，人工智能并不等同于機器學習，這點在進入這個領域時一定要認識清楚。人工智能已經成為越來越火的一個方向。普通程序員，如何轉向人工智能方向，是知乎上的一個問題。本文是對此問題的一個回答的歸檔版。相比原回答有所內容增加。目的本文的目的是給出一個簡單的，平滑的，易于實現的學習方法，幫...

mingde 2019-06-26 18:14 評論0 收藏0