摘要:好難受,上次發(fā)了做游戲的居然沒人看,每天為了給你們寫啥,老夫心都操碎了真的是,今天來給大家爬一波短視頻網(wǎng)站吧,都是些很養(yǎng)眼的網(wǎng)站地址在代碼里面,大家用心一下就能看到了。
好難受,上次發(fā)了做游戲的居然沒人看,每天為了給你們寫啥,老夫心都操碎了~
真的是,今天來給大家爬一波短視頻網(wǎng)站吧,都是些很養(yǎng)眼的~
網(wǎng)站地址在代碼里面,大家用心一下就能看到了。
使用的軟件
python 3.8pycharm 2021.2
模塊
requestsparselreconcurrent.futurestimewarnings
不會(huì)安裝模塊看這篇:如何安裝python模塊, python模塊安裝失敗的原因以及解決辦法
知道你們不想看那些步驟,我直接上代碼吧
import requestsimport parselimport reimport concurrent.futuresimport timeimport warnings# 取消警告warnings.filterwarnings("ignore")def get_html(url): """發(fā)送請(qǐng)求獲取網(wǎng)頁源代碼""" html_data = requests.get(url=url, verify=False).text return html_datadef parse_data_1(html_data): """第一次解析, 拿到所有的詳情頁鏈接""" selector = parsel.Selector(html_data) url_list = selector.xpath("http://a[@class="meta-title"]/@href").getall() return url_listdef parse_data_2(html_data): """第二次解析, 獲取視頻鏈接""" video_url = re.findall("url: "(.*?)",", html_data)[0] return video_urldef save(video_url): """保存視頻""" title = video_url.split("/")[-1] # 取鏈接當(dāng)中的字段作為標(biāo)題 video_data = requests.get(video_url, verify=False).content # 發(fā)送網(wǎng)絡(luò)請(qǐng)求 with open(f"video/{title}", mode="wb") as f: f.write(video_data) print(title, "爬取成功!!!")start_time = time.time()url = "https://www.520mmtv.com/hd/rewu.html"# 1. 向目標(biāo)網(wǎng)站發(fā)送請(qǐng)求html_data = get_html(url=url)# 2. 第一次解析數(shù)據(jù) 提取詳情頁鏈接url_list = parse_data_1(html_data=html_data)for info_url in url_list[:10]: # 3. 向詳情頁發(fā)送請(qǐng)求 html_data_2 = get_html(url=info_url) # 4. 第二次解析數(shù)據(jù) 提取視頻播放地址 video_url = parse_data_2(html_data=html_data_2) # 5. 保存視頻 save(video_url=video_url)print("花費(fèi)時(shí)間:", time.time() - start_time)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/124102.html
摘要:最近看前端都展開了幾場而我大知乎最熱語言還沒有相關(guān)。有關(guān)書籍的介紹,大部分截取自是官方介紹。但從開始,標(biāo)準(zhǔn)庫為我們提供了模塊,它提供了和兩個(gè)類,實(shí)現(xiàn)了對(duì)和的進(jìn)一步抽象,對(duì)編寫線程池進(jìn)程池提供了直接的支持。 《流暢的python》閱讀筆記 《流暢的python》是一本適合python進(jìn)階的書, 里面介紹的基本都是高級(jí)的python用法. 對(duì)于初學(xué)python的人來說, 基礎(chǔ)大概也就夠用了...
摘要:然而,每個(gè)人對(duì)編輯器的喜好各不相同,甚至引發(fā)出諸如神的編輯器與編輯器之神這種信仰之爭。我們用來寫的工具有兩類一種是被稱為的集成開發(fā)環(huán)境,它們?yōu)殚_發(fā)而生。但僅我上述提及的幾個(gè)其實(shí)也足夠用了。正如標(biāo)題所說工欲善其事,必先利其器。 通常來說,每個(gè)程序員都有自己趁手的兵器: 代碼編輯器 。你要是讓他換個(gè)開發(fā)環(huán)境,恐怕開發(fā)效率至少下降三成。然而,每個(gè)人對(duì)編輯器的喜好各不相同,甚至引發(fā)出諸如神的編...
摘要:爬蟲分析首先,我們已經(jīng)爬取到了多的用戶個(gè)人主頁,我通過鏈接拼接獲取到了在這個(gè)頁面中,咱們要找?guī)讉€(gè)核心的關(guān)鍵點(diǎn),發(fā)現(xiàn)平面拍攝點(diǎn)擊進(jìn)入的是圖片列表頁面。 簡介 上一篇寫的時(shí)間有點(diǎn)長了,接下來繼續(xù)把美空網(wǎng)的爬蟲寫完,這套教程中編寫的爬蟲在實(shí)際的工作中可能并不能給你增加多少有價(jià)值的技術(shù)點(diǎn),因?yàn)樗皇且惶兹腴T的教程,老鳥你自動(dòng)繞過就可以了,或者帶帶我也行。 爬蟲分析 首先,我們已經(jīng)爬取到了N多的...
摘要:爬蟲分析首先,我們已經(jīng)爬取到了多的用戶個(gè)人主頁,我通過鏈接拼接獲取到了在這個(gè)頁面中,咱們要找?guī)讉€(gè)核心的關(guān)鍵點(diǎn),發(fā)現(xiàn)平面拍攝點(diǎn)擊進(jìn)入的是圖片列表頁面。 簡介 上一篇寫的時(shí)間有點(diǎn)長了,接下來繼續(xù)把美空網(wǎng)的爬蟲寫完,這套教程中編寫的爬蟲在實(shí)際的工作中可能并不能給你增加多少有價(jià)值的技術(shù)點(diǎn),因?yàn)樗皇且惶兹腴T的教程,老鳥你自動(dòng)繞過就可以了,或者帶帶我也行。 爬蟲分析 首先,我們已經(jīng)爬取到了N多的...
閱讀 2254·2021-11-22 09:34
閱讀 2025·2021-09-22 15:22
閱讀 2024·2019-08-29 15:05
閱讀 2115·2019-08-26 10:43
閱讀 3413·2019-08-26 10:26
閱讀 892·2019-08-23 18:29
閱讀 3524·2019-08-23 16:42
閱讀 2002·2019-08-23 14:46