摘要:爬取豆瓣閱讀提供方代碼中會有詳細的注釋關于也是在看教程和書以及視頻學習,純種小白哈士奇的那種用到的庫爬蟲庫正則模塊寫模塊時間模塊庫偽裝瀏覽器的固定寫法也可以再加加個代理,也可以不加直接使用自己的地址代理西刺代理通過正則獲取內容菜鳥
爬取豆瓣閱讀提供方 代碼中會有詳細的注釋
關于python也是在看教程和書以及視頻學習,純種小白(哈士奇的那種)
用到的庫urllib ????-> ?? 爬蟲庫
re ????-> ?? 正則模塊
xlwt ????-> ?? excel寫模塊
time ????-> ?? 時間模塊
urllib庫偽裝瀏覽器的固定寫法(也可以再加)加個代理ip,也可以不加直接使用自己的ip地址
代理ip ????-> ?? "123.116.129.176"
西刺代理
通過正則獲取內容菜鳥教程的re模塊
更加詳細的用法百度可以找到很多,我就不一一的列出來了寫入excel的操作
這里有個坑,第一個匹配出來的url地址不對,原因是網頁中有個非列表標簽內的居然和正則開始的匹配(列表標簽)是一致的
部分代碼
# 創建workbook和sheet對象 workbook = xlwt.Workbook() # excel 底部 sheet1 # 覆蓋單元格 sheet1 = workbook.add_sheet("統計", cell_overwrite_ok=True) ... for i in content: # 在第 row + 1 行第 1 列寫入序號 sheet1.write(row + 1, 0, row + 1, style) # 在第 row + 1 行第 2 列寫入出版社_url sheet1.write(row + 1, 1, "https://read.douban.com{}".format(str(i[0])), style) # 在第 row + 1 行第 3 列寫入LOGO_url sheet1.write(row + 1, 2, i[1], style) # 在第 row + 1 行第 4 列寫入出版社名稱 sheet1.write(row + 1, 3, i[2], style) # 在第 row + 1 行第 5 列寫入在售數量 sheet1.write(row + 1, 4, int(i[3]), style) # 對在售數量求和 sum += int(i[3]) row += 1
時間模塊的用法將對一列數據(在售數量)求和以及數據保存
獲取當前時間并格式化:time.strftime("%Y%m%d%H%M%S", time.localtime())
需要注意,這里寫個判斷語句要等到基礎數據都寫入完畢之后在進行求和運算并寫入
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/41244.html
摘要:今天為大家整理了個爬蟲項目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關注。代碼獲取新浪微博進行登錄,可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:學習筆記七數學形態學關注的是圖像中的形狀,它提供了一些方法用于檢測形狀和改變形狀。學習筆記十一尺度不變特征變換,簡稱是圖像局部特征提取的現代方法基于區域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開始之前,我們先來看這樣一個提問: pyth...
摘要:前言新接觸爬蟲,經過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。 0.前言 新接觸爬蟲,經過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。所以找了很多實例和文...
摘要:對之前我的那個豆瓣的短評的爬蟲,進行了一下架構性的改動。同時也添加了多線程的實現。我的代碼中多線程的核心代碼不多,見下。注意使用多線程時,期間的延時時間應該設置的大些,不然會被網站拒絕訪問,這時你還得去豆瓣認證下我真的不是機器人尷尬。 對之前我的那個豆瓣的短評的爬蟲,進行了一下架構性的改動。盡可能實現了模塊的分離。但是總是感覺不完美。暫時也沒心情折騰了。 同時也添加了多線程的實現。具體...
閱讀 2038·2021-09-30 09:47
閱讀 712·2021-09-22 15:43
閱讀 1992·2019-08-30 15:52
閱讀 2443·2019-08-30 15:52
閱讀 2552·2019-08-30 15:44
閱讀 916·2019-08-30 11:10
閱讀 3377·2019-08-29 16:21
閱讀 3303·2019-08-29 12:19