摘要:應女朋友要求,為了能及時掌握技術動向,特意寫了這個爬蟲,每天定時爬取博客園首頁并發送至微信。
應女朋友要求,為了能及時掌握技術動向,特意寫了這個爬蟲,每天定時爬取博客園首頁并發送至微信。
環境:Python3.4
第三方庫Requests:向服務器發送請求
BeautifulSoup4:解析Html
wxpy:微信接口
Schedule:定時器
代碼# -*-coding:utf-8 -*- import requests from requests import exceptions from bs4 import BeautifulSoup as bs import re from wxpy import * import schedule import time bot=Bot(cache_path=True) #獲取網頁內容 def getHtml(pageIndex): #定義請求頭 偽裝成瀏覽器 headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"} #pageIndex代表頁數 payload={"CategoryType": "SiteHome", "ParentCategoryId": "0", "CategoryId": "808", "PageIndex": pageIndex, "TotalPostCount": "4000"} try: r=requests.post("https://www.cnblogs.com/mvc/AggSite/PostList.aspx",data=payload,headers=headers) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except requests.RequestException as e: return e.strerror #向微信文件傳輸助手發送消息 def sendblogmsg(content): #搜索自己的好友 #my_friend = bot.friends().search("")[0] my_friend=bot.file_helper my_friend.send(content) def job(): contents="" #i表示當前頁數 for i in range(1,3): html=getHtml(i) soup=bs(html,"html.parser") blogs=soup.findAll("div",{"class":"post_item_body"}) for blog in blogs: title=blog.find("h3").get_text() summary=blog.find("p",{"class":"post_item_summary"}).get_text() link=blog.find("a",{"class":"titlelnk"})["href"] content="標題:"+title+" 鏈接:"+link+" ----------- " contents+=content sendblogmsg(contents) #定時 schedule.every().day.at("06:00").do(job) while True: schedule.run_pending() time.sleep(1) bot.join()注意事項:
不要進行惡意攻擊行為
盡量在空閑時間訪問網站,控制訪問頻率,不要惡意消耗網站資源
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/41586.html
摘要:目標選取了博客園,爬取了首頁的前頁文章,但是數據放在那一直沒去分析。為了避免對博客園造成壓力,爬蟲代碼不公開。注數據來源是年月日至月的博客園首頁文章。誰是博客園最愛的用戶最愛的用戶,在這里是按文章上首頁的數量來判斷的。 前言 之前折騰了一小段時間scrapy,覺得使用起來異常簡單,然后打算練練手。目標選取了博客園,爬取了首頁的前200頁文章,但是數據放在那一直沒去分析。趁著現在有閑心,...
摘要:今天呢我想給大家,也給我自己,對我的個人網站做一個全面的整理和分析。首頁上用戶直接看得到的部分有導航欄和輪播大圖當時寫這個網站的設想是在年月份的時候。目前網上流行的個人博客頁面。感謝框架對本網站的大力支持。大家好~又見面了。 今天呢我想給大家,也給我自己, 對我的個人網站yanyy.cn/yanyy 做一個全面的整理和分析。 也給有這方面想法的朋友一個參考。 做網站的有愛好也有帶有目的性的。...
摘要:本人以前也是搞過幾年,由于公司的崗位職責,后面漸漸地被掰彎,現在主要是做前端開發。所以想利用爬取文章,再將爬取的轉化成目前還未實現,歡迎各位同學指導。 java爬取博客園個人博客 前言 近期本人在某云上購買了個人域名,本想著以后購買與服務器搭建自己的個人網站,由于需要籌備的太多,暫時先擱置了,想著先借用GitHub Pages搭建一個靜態的站,搭建的過程其實也曲折,主要是域名地址配置把...
摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:要錢的簡單理解百度的廣告就是不用錢的自己配置提高搜索引擎的權重是一種技術,主要是用于提高網站瀏覽量而做的優化手段為什么需要我們搜一下微信公眾號發現排名是有先后的,博客園都是靠前的。 CDN 什么是CDN 初學Web開發的時候,多多少少都會聽過這個名詞->CDN。 CDN在我沒接觸之前,它給我的印象是用來優化網絡請求的,我第一次用到CDN的時候是在找JS文件時。當時找不到相對應的JS文件...
閱讀 3888·2021-09-10 11:22
閱讀 2360·2021-09-03 10:30
閱讀 3675·2019-08-30 15:55
閱讀 1912·2019-08-30 15:44
閱讀 853·2019-08-30 15:44
閱讀 598·2019-08-30 14:04
閱讀 3052·2019-08-29 17:18
閱讀 1276·2019-08-29 15:04