摘要:注一篇去年的舊文,發現沒在知乎發過,過來補個檔。于是就有了我們這個小項目電影票比價網在我們這個網頁上,會展示出當前熱映的電影。涉及到模塊主要是用來匹配不同渠道的影院信息代碼結構項目主要有三塊使用豆瓣每日更新上映的影片列表。
注:一篇去年的舊文,發現沒在知乎發過,過來補個檔。有個小問題是項目中淘票票的網頁反爬提升且變動較多,目前暫不可用了。
時常有同學會問我類似的問題:我已經學完了 Python 基礎,也照著例子寫過一點爬蟲代碼 / 了解過 django 的入門項目 / 看過數據分析的教程……然后就不知道要做什么了。接下來應該 如何繼續提升編程能力呢 ?
我的答案很簡單:
做項目不要把“項目”想象得太復雜,覺得一定是那種收錢開發的才能稱作項目(如果有這種項目當然會更好)。對于剛剛跨入編程世界的你來說,任何一個小項目都是好的開始。你所需要的,就是 一雙發現問題的眼睛 。生活中工作中的一些小事情小麻煩,多想一步,是不是可以寫一小段代碼來解決。
一開始,或許你的解決方案很笨拙,很復雜,本來5分鐘就能搞定的事情,你寫代碼卻花了一個小時。但對你來說,此時的目的并不只是解決問題,而是這個過程本身。 在折騰的過程中,你的經驗才會增長 。這是你單純看教程所無法達到的,再好的教程也替代不了動手。(有時候會有人評論說,這功能直接用xxx就可以了,干嘛還要自己寫代碼。對此我不做評價,因為我知道他不是來學編程的。)
我們編程教室也陸續提供了一些項目案例。你可以參考我們的示例代碼,或者更好的是,自己去思考一個解決方案并實現。我們的案例不少都放在了網站 http:// lab.crossincode.com 上演示,歡迎大家去瀏覽。內容會持續更新,可留意我們微信公眾號和知乎專欄里的文章。
今天介紹的這個項目就源自生活中的一個場景: 買電影票 。
當你打算周末出門看場電影的時候,就必然面臨三個終極問題:
看什么?
什么時候看?
去哪兒看?
通常你只需要打開常用的購票App,選一部最近口碑不錯的片子,去熟悉的影院看看有哪些場次就可以了。但有時你也會發現,同樣一部電影,不遠的兩家影院,價格就差很多,不同的購票App也會因為促銷活動之類有不同的優惠力度,一張票可能會相差幾十元。但如果每次都去幾個App把最近的排片和價格都瀏覽一遍,那也太麻煩了。于是就有了我們這個小項目:
電影票比價網
在我們這個網頁上,會展示出當前熱映的電影。進入每部電影,選擇 城市 、 區域 、 影院 和 日期 ,就可以看到最近的 排片時間 和不同渠道的 價格 。目前,我們是從 糯米 、 淘票票 和 時光網 三個渠道獲取價格來做演示。(注:項目中淘票票現已失效)
實現技術本項目是對爬蟲和Web網站的綜合運用,適合已經有掌握python基礎,并且對此有一些了解的同學作為練手項目。涉及到模塊主要是:
Django(1.10)
requests
bs4
python-Levenshtein(用來匹配不同渠道的影院信息)
代碼結構項目主要有三塊:
douban_movie
使用豆瓣 api 每日更新上映的影片列表。
movie_tickets
項目的核心部分,用來處理影院信息和排名信息的抓取。
django
項目本身是一個網站,整體是在 django 的框架之中。
開發思路使用爬蟲爬取各電影票網站所有的電影院鏈接,作為基本的數據保存下來
使用豆瓣 API 獲取當日上映的電影信息,并每天更新
django 顯示電影信息,提供給用戶選擇電影院的接口
將影片和影院信息發送到 django 后臺進行查詢,爬取對應的排片信息顯示給用戶
代碼片段# 獲取淘票票某地區某電影院某影片價格# 1. 根據查詢條件獲取影院 id# 2. 根據影院 id 獲取該影院正在上映電影# 3. 獲取 查詢電影的排片時間表鏈接# 4. 拿到價格 def get_movie_tickets(self, *args): assert len(args) == 4, "not enough parameters type in -h for help" movie_name = args[3] mt = TaoppDt() cinema_url = mt.search(*args[:3]) assert cinema_url, "未查詢到該電影院" pattern = re.compile(r"cinemaId=(d+)") cinemaid = re.findall(pattern, cinema_url)[0] film_url = "https://dianying.taobao.com/cinemaDetailSchedule.htm?cinemaId=" + str(cinemaid) content = self.rq.req_url(film_url) assert content, "請求失敗,請檢查 /utils/req.py 中 req_url 函數是否工作正常" soup = bs4.BeautifulSoup(content, "lxml") soup_film = soup.find("a", text=re.compile(movie_name)) assert soup_film, "未查詢到該電影" film_param = soup_film["data-param"] return self._get_ticket_info(film_param)其他說明
項目為了有一個較好的交互效果,在頁面上用到了不少 Ajax 請求。這需要有一定的前端 js 基礎。對網頁前端不熟悉的同學可暫且略過,重點關注后端實現。
不同渠道對于同一家影院的名稱很可能有出入,因此這里使用了 python-Levenshtein 來對文本進行匹配。
代碼里在抓取時有用到我們的另一個項目: IP代理池 (參見 Crossin:聽說你好不容易寫了個爬蟲,結果沒抓幾個就被封了?)。但因為服務器資源有限,有時拿不到可用的代理。各位自己電腦上運行代碼時,可嘗試把 requests 的 proxies 參數去除。
作為一個演示項目,必然存在一些bug(當然商業項目也不可能沒有bug),加上爬蟲的程序極有可能因為對方網站更新而失效。所以如果遇到問題,歡迎大家給我們報錯。
代碼下載完整的代碼 和 詳細代碼說明 已上傳 Github,獲取下載地址請在 公眾號(Crossin的編程教室) 里回復 電影票 。
════
其他文章及回答:
學編程:如何自學Python | 新手引導 | 一圖學Python
開發案例:智能防擋彈幕 | 紅包提醒 | 流浪地球
歡迎搜索及關注: Crossin的編程教室
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/43305.html
摘要:文檔寫得很清楚,也有中文版,你只要看了最初的一小部分,就可以在代碼中派上用場了。 關于爬蟲的案例和方法,我們已講過許多。不過在以往的文章中,大多是關注在 如何把網頁上的內容抓取下來 。今天我們來分享下,當你已經把內容爬下來之后, 如何提取出其中你需要的具體信息 。 網頁被抓取下來,通常就是 str 字符串類型的對象 ,要從里面尋找信息,最直接的想法就是直接通過字符串的 find 方法 ...
我們在編程教室中寫過不少使用 API 開放接口 的案例,比如: 查詢書影音的 豆瓣 (爬蟲+網站開發實例:電影票比價網) 查詢股票的 tushare (想用 Python 做數據分析?先玩玩這個再說) 翻譯單詞的 詞霸 (【每周一坑解答】自動翻譯) 用來做人工智能的 騰訊AI (調教屬于你的賈維斯) 但以上這些都不是我今天要說的。今天要說的這個接口,之所以稱為強大,因為 它返回的內容里蘊含了未...
摘要:本文代碼地址爬取豆瓣電影爬取拉勾網職位信息模擬登陸知乎為什么沒人給我點贊。職位名職位信息運行結果模擬登錄知乎通過開發者工具,獲取的數據。 我開通了公眾號【智能制造專欄】,以后技術類文章會發在專欄。用Python寫爬蟲是很方便的,最近看了xlzd.me的文章,他的文章寫的很到位,提供了很好的思路。因為他的文章部分代碼省略了。下面是基于他的文章的三個代碼片段:基于Python3,Pytho...
閱讀 2235·2021-09-24 10:31
閱讀 3885·2021-09-22 15:16
閱讀 3406·2021-09-22 10:02
閱讀 1020·2021-09-22 10:02
閱讀 1834·2021-09-08 09:36
閱讀 1981·2019-08-30 14:18
閱讀 615·2019-08-30 10:51
閱讀 1871·2019-08-29 11:08