摘要:三個(gè)重點(diǎn),我隱藏了的地址,本爬蟲只適用于的抓取。每個(gè)帖子以帖子名為文件名新建一個(gè)文件并把帖子內(nèi)圖片保存下來(lái)。
三個(gè)重點(diǎn),我隱藏了1024的地址,本爬蟲只適用于1024的抓取。每個(gè)帖子以帖子名為文件名新建一個(gè)文件并把帖子內(nèi)圖片保存下來(lái)。
url_start設(shè)置起始頁(yè) url_end設(shè)置結(jié)束頁(yè)
有問(wèn)題的留言,我看到就會(huì)回復(fù)
import requests import re import time from bs4 import BeautifulSoup import os url_start = "url1" url_end = "url2" # 獲取圖片鏈接并保存到文件夾的函數(shù) def getIMG(article_url): # time.sleep(1) urls = [] try: html = requests.get(article_url) html.encoding = "gbk" soup = BeautifulSoup(html.text, "html.parser") part_picURL = re.findall("src="http://img(.+?.jpg)"",html.text,re.S) for each in part_picURL: picURL = "http://img" + each urls.append(picURL) i=0 for each in urls: try: pic = requests.get(each, timeout = 10) folder_name = soup.select("h4")[0].text if os.path.isdir(folder_name): pass else: os.mkdir(folder_name) print("文件夾"+ "$ " + folder_name + "$" + "創(chuàng)建完成") file_name = folder_name+"/" + folder_name + str(i) + ".jpg" fp = open(file_name,"wb") fp.write(pic.content) fp.close() i += 1 except: pass print("圖片下載完成") except: pass return urls url_list = [] #獲取當(dāng)前頁(yè)面文章列表鏈接并翻頁(yè) def getlist(url_Start): headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36"} req = requests.get(url_Start) req.encoding = "gbk" url_index = re.findall(""打開新窗口" href="htm_(.+?.html)" target="_blank">",req.text,re.S) for p in url_index: full_url = "http://cl.gtta.pw/htm_" + p url_list.append(full_url) #判斷是否要翻頁(yè) urls_next = re.findall("false;}">下一頁(yè)",req.text,re.S)[0] url_next = "http://cl.gtta.pw/" + urls_next if url_next != url_end: getlist(url_next) else: print("已到達(dá)末頁(yè)") return url_list lists = getlist(url_start) print(len(lists)) for list in lists: img = getIMG(list) print(img)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/38440.html
摘要:在這之前,還是有必要對(duì)一些概念超輕量級(jí)反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標(biāo)配系統(tǒng)。 爬蟲修煉之道——從網(wǎng)頁(yè)中提取結(jié)構(gòu)化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關(guān)注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個(gè)爬取多頁(yè)面的網(wǎng)絡(luò)爬蟲主要講解了如何使用python編寫一個(gè)可以下載多頁(yè)面的爬蟲,如何將相對(duì)URL轉(zhuǎn)為絕對(duì)URL,如何限速,...
摘要:下載指定網(wǎng)站上的妹子圖片,這里只抓了前頁(yè)的圖片,可根據(jù)需要自己設(shè)置頁(yè)數(shù)值為圖片類型,大家可以自行更改值體驗(yàn)一下,有問(wèn)題留言給我,看到就會(huì)解答大胸妹美腿控有顏值大雜燴小翹臀鏈接已處理完畢圖片下載完成 下載指定網(wǎng)站上的妹子圖片,這里只抓了前100頁(yè)的圖片,可根據(jù)需要自己設(shè)置頁(yè)數(shù)cat值為圖片類型,大家可以自行更改cat值體驗(yàn)一下,有問(wèn)題留言給我,看到就會(huì)解答2 = 大胸妹3 = 美腿控4 ...
摘要:列入全國(guó)計(jì)算機(jī)二級(jí)取代,部分城市試點(diǎn),引入高中。建議通過(guò)視頻學(xué)習(xí),這樣不但節(jié)省時(shí)間,而且效果很好。能否回憶起那個(gè)陡峭的學(xué)習(xí)曲線問(wèn)題越多,學(xué)的越快。出報(bào)告每完成一個(gè)項(xiàng)目,總結(jié)報(bào)告,必不可少。結(jié)構(gòu)化學(xué)習(xí),才是你我需要真正培養(yǎng)的能力。 編程就如同你學(xué)習(xí)開車,即使,你可以一口氣,說(shuō)出一輛車的全部零部件,以及內(nèi)燃機(jī)進(jìn)氣、壓縮、做功和排氣過(guò)程,但你就是不去練如何開車,怎么上路。你確定,你敢開嗎?你...
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來(lái)源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來(lái)源于某博主:htt...
閱讀 973·2021-11-25 09:43
閱讀 2298·2019-08-30 15:55
閱讀 3160·2019-08-30 15:44
閱讀 2059·2019-08-29 16:20
閱讀 1459·2019-08-29 12:12
閱讀 1614·2019-08-26 12:19
閱讀 2289·2019-08-26 11:49
閱讀 1718·2019-08-26 11:42