爬取博客園首頁并定時發送到微信

aaron 發布于2019-07-30 16:17 / 843人閱讀

摘要：應女朋友要求，為了能及時掌握技術動向，特意寫了這個爬蟲，每天定時爬取博客園首頁并發送至微信。

應女朋友要求，為了能及時掌握技術動向，特意寫了這個爬蟲，每天定時爬取博客園首頁并發送至微信。

環境：

Python3.4

第三方庫

Requests:向服務器發送請求

BeautifulSoup4：解析Html

wxpy：微信接口

Schedule：定時器

代碼

# -*-coding:utf-8 -*-

import requests
from requests import exceptions
from bs4 import BeautifulSoup as bs
import re
from wxpy import *
import  schedule
import  time


bot=Bot(cache_path=True)

#獲取網頁內容
def getHtml(pageIndex):
    #定義請求頭 偽裝成瀏覽器
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"}
    #pageIndex代表頁數
    payload={"CategoryType": "SiteHome", "ParentCategoryId": "0", "CategoryId": "808", "PageIndex": pageIndex, "TotalPostCount": "4000"}
    try:
        r=requests.post("https://www.cnblogs.com/mvc/AggSite/PostList.aspx",data=payload,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except requests.RequestException as e:
        return e.strerror
#向微信文件傳輸助手發送消息
def sendblogmsg(content):
    #搜索自己的好友
    #my_friend = bot.friends().search("")[0]
    my_friend=bot.file_helper
    my_friend.send(content)

def job():
    contents=""
    #i表示當前頁數
    for i in range(1,3):
        html=getHtml(i)
        soup=bs(html,"html.parser")
        blogs=soup.findAll("div",{"class":"post_item_body"})
        for blog in blogs:
            title=blog.find("h3").get_text()
            summary=blog.find("p",{"class":"post_item_summary"}).get_text()
            link=blog.find("a",{"class":"titlelnk"})["href"]
            content="標題："+title+"
鏈接："+link+"
-----------
"
            contents+=content
        sendblogmsg(contents)
#定時
schedule.every().day.at("06:00").do(job)
while True:
    schedule.run_pending()
    time.sleep(1)
bot.join()

注意事項：

不要進行惡意攻擊行為

盡量在空閑時間訪問網站，控制訪問頻率，不要惡意消耗網站資源

GPU云服務器云服務器 asp網頁發送到微信博客園博客園webrtc wcf博客園

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/41586.html

爬取博客園首頁數據進行數據分析

摘要：目標選取了博客園，爬取了首頁的前頁文章，但是數據放在那一直沒去分析。為了避免對博客園造成壓力，爬蟲代碼不公開。注數據來源是年月日至月的博客園首頁文章。誰是博客園最愛的用戶最愛的用戶，在這里是按文章上首頁的數量來判斷的。前言之前折騰了一小段時間scrapy，覺得使用起來異常簡單，然后打算練練手。目標選取了博客園，爬取了首頁的前200頁文章，但是數據放在那一直沒去分析。趁著現在有閑心，...

zilu 2019-07-30 14:40 評論0 收藏0
個人博客建站最全解析

摘要：今天呢我想給大家，也給我自己，對我的個人網站做一個全面的整理和分析。首頁上用戶直接看得到的部分有導航欄和輪播大圖當時寫這個網站的設想是在年月份的時候。目前網上流行的個人博客頁面。感謝框架對本網站的大力支持。大家好~又見面了。今天呢我想給大家，也給我自己，對我的個人網站yanyy.cn/yanyy 做一個全面的整理和分析。也給有這方面想法的朋友一個參考。做網站的有愛好也有帶有目的性的。...

zlyBear 2019-04-23 11:43 評論0 收藏0
java爬取博客園個人博客

摘要：本人以前也是搞過幾年，由于公司的崗位職責，后面漸漸地被掰彎，現在主要是做前端開發。所以想利用爬取文章，再將爬取的轉化成目前還未實現，歡迎各位同學指導。 java爬取博客園個人博客前言近期本人在某云上購買了個人域名，本想著以后購買與服務器搭建自己的個人網站，由于需要籌備的太多，暫時先擱置了，想著先借用GitHub Pages搭建一個靜態的站，搭建的過程其實也曲折，主要是域名地址配置把...

leonardofed 2019-08-19 11:04 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
淺談CDN、SEO、XSS、CSRF

摘要：要錢的簡單理解百度的廣告就是不用錢的自己配置提高搜索引擎的權重是一種技術，主要是用于提高網站瀏覽量而做的優化手段為什么需要我們搜一下微信公眾號發現排名是有先后的，博客園都是靠前的。 CDN 什么是CDN 初學Web開發的時候，多多少少都會聽過這個名詞->CDN。 CDN在我沒接觸之前，它給我的印象是用來優化網絡請求的，我第一次用到CDN的時候是在找JS文件時。當時找不到相對應的JS文件...

番茄西紅柿 2019-07-16 14:29 評論0 收藏0