摘要:且本小白也親身經歷了整個從小白到爬蟲初入門的過程,因此就斗膽在上開一個欄目,以我的圖片爬蟲全實現過程為例,以期用更簡單清晰詳盡的方式來幫助更多小白應對更大多數的爬蟲實際問題。
前言:
一個月前,博主在學過python(一年前)、會一點網絡(能按F12)的情況下,憑著熱血和興趣,開始了python爬蟲的學習。一路過來走了相當多彎路,但是前不久終于成功了!!!(淚目)
經過一個月的學習,博主我感覺CSDN上圖片爬取教程確實詳細且方法繁多,但大都偏公式化或者不夠貼近小白。且本小白也親身經歷了整個從小白到爬蟲初入門的過程,因此就斗膽在CSDN上開一個欄目,以我的python圖片爬蟲全實現過程為例,以期用更簡單、清晰、詳盡的方式來幫助更多小白應對更大多數的爬蟲實際問題。
第一次寫blog真的十分激動!!!希望大家多多鼓勵點贊,過路大神多多指教,寫得不對的地方請直接指出!!!
本欄目大致會分為4章(有空馬上更)分別是:
- 環境配置+基礎知識
- 獲取圖片地址+根據地址下載圖片
- 翻頁+反爬+完整代碼
- 爬蟲實戰案例:爬取網站商品信息
正文:
博主本人用的是window10系統、python3.8(需要add to path)和pycharm
所謂之所以要基于selenium庫爬蟲,是因為現在網頁大部分由JavaScript語言所寫,特點是動態加載網絡元素,網絡元素經過瀏覽器渲染才向用戶顯示(表現為在網頁右鍵查看源碼和按F12調出開發者工具看到的網絡元素不盡相同),用requests庫不能實現爬蟲,而selenium庫能模擬用戶使用瀏覽器,能很好地處理絕大多數的網絡爬蟲。本文開始幾個篇章以圖片爬蟲為例,后面附一個爬取京東iPhone價格、商品名稱、評論、店鋪信息的實例。
開始前,我想說看視頻是最最快的學習方法,個人是在B站學到了requests庫實戰和selenium庫實戰(兩個視頻都是我看過那么多最詳細最好的,鏈接【1】【2】我放在下面)。期間在網絡基礎和瀏覽器知識這一塊也參考了紫書《python網絡爬蟲權威指南》,還有關于網絡想要深入了解的同學可以看鏈接【3】。
新手警告:剛開始爬蟲建議用IDLE!!!
新手警告:剛開始爬蟲建議用IDLE!!!
新手警告:剛開始爬蟲建議用IDLE!!!
(selenium庫查找不到元素就會報錯容易把心態搞崩,建議一步步在IDLE上執行,最后適當加上time.sleep()復制到pycharm)
from selenium import webdriverdriver = webdriver.Chrome()#用谷歌瀏覽器#driver = webdriver.Edge()#用Microsoft Edge#driver = webdriver.PhantomJS()#用無頭瀏覽器
注意:
?????2. 下載后的瀏覽器.exe直接拖動到python所在地址。python所在地址可直接window鍵+R,再輸入cmd調出命令行窗口輸入“where python”就找到python路徑了。
?然后就可正常使用webdriver了。
????????也是在命令行窗口,先輸入python看下python是否正常加到path
?然后先輸入“quit()”退出python,再依次輸入“pip install selenium”,“pip install requests”,如出現“...install successfully”不報錯就是安裝成功(warning不用管)、
注意:如果報錯可以改成“pip3 install selenium”,“pip3 install requests”
這里比較重要的是字符串操作和網頁知識(主要是一些快捷鍵)
主要用到的功能是截取、相加(也就是拼接),以及format函數(可用于字符串拼接)和split函數(用于選取字符串內容),需要用的時候去CSDN查看即可。在爬取圖片時一般用于修正圖片地址和創建圖片名稱
主要用到選取元素和遍歷
其實是一組模塊,和創建文件模塊一起使用(后面的bloc會說的)
重點說說網頁基礎知識,爬蟲中很需要實時根據網頁內容改變爬取方法。
?????2.然后具體說說網頁元素
注意:
? ? ? ?
下一篇獲取圖片地址+根據地址下載圖片是重頭戲,喜歡的朋友請追更。
碼字不易求點贊!
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/121679.html
摘要:之前在學校曾經用過的方法做過一些爬蟲腳本來玩,從正式轉前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進行網絡請求,比如要爬取豆瓣排行榜的電影,就會連續發送個網絡請求。 之前在學校曾經用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐...
摘要:之前在學校曾經用過的方法做過一些爬蟲腳本來玩,從正式轉前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進行網絡請求,比如要爬取豆瓣排行榜的電影,就會連續發送個網絡請求。 之前在學校曾經用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐...
摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:實際上,前程無憂招聘網站上與數據有關的只有幾百頁,而我們爬取了頁的所有數據,因此在后面進行數據處理時需要把無關的數據剔除掉。 目錄 一、項目背景 二、數據爬取 1、相關庫的導入與說明 2、獲取二級頁面鏈接 1)分析一級頁面url特征 2)構建一級url庫 3)爬取所有二級url鏈接 3、獲取...
摘要:項目簡介本實驗通過使用實現一個淘寶女郎圖片收集爬蟲,學習并實踐及正則表達式等知識。本教程由阿發布在實驗樓,完整教程及在線練習地址實現淘女郎照片爬蟲,可以直接在教程中下載代碼使用。 showImg(https://segmentfault.com/img/bVBgrF); 項目簡介:本實驗通過使用 Python 實現一個淘寶女郎圖片收集爬蟲,學習并實踐 BeautifulSoup、Sel...
閱讀 1544·2021-11-04 16:10
閱讀 2802·2021-09-30 09:48
閱讀 2846·2019-08-29 11:31
閱讀 1585·2019-08-28 18:22
閱讀 3235·2019-08-26 13:44
閱讀 1326·2019-08-26 13:42
閱讀 2851·2019-08-26 10:20
閱讀 762·2019-08-23 17:00