摘要:抓取代碼片段目標抓取中的代碼片段分析代碼分享你的世界代碼塊發(fā)布代碼片段片段列表一個線程如果是個人英雄主義,那么多線程就是集體主義,你不再是一個獨行俠,而是一個指揮家。
CodeSnippet 抓取代碼片段 目標
抓取CodeSnippet中的代碼片段
分析 代碼我們想要抓取的內(nèi)容在為 li class="con-code bbor" 所以 BeautifulSoup find()方法獲取到該標簽然后獲取其文本內(nèi)容
準備準備我們爬蟲比用的兩個模塊
from urllib2 import urlopen from bs4 import BeautifulSoup編寫抓取代碼
# 抓取http://www.codesnippet.cn/index.html 中的代碼片段 def GrapIndex(): html = "http://www.codesnippet.cn/index.html" bsObj = BeautifulSoup(urlopen(html), "html.parser") return bsObj.find("li", {"class":"con-code bbor"}).get_text()
當我們抓取到我們想要的數(shù)據(jù)之后接下來要做的就是把數(shù)據(jù)寫到數(shù)據(jù)庫里,由于我們現(xiàn)在抓取數(shù)據(jù)簡單,所以只寫文件即可!
def SaveResult(): codeFile=open("code.txt", "a") # 追加 for list in GrapIndex(): codeFile.write(list) codeFile.close()當我們在寫文件的時候出現(xiàn)了以下錯誤,而下面這個錯誤的造成原因則是由于python2.7是基于ascii去處理字符流,當字符流不屬于ascii范圍內(nèi),就會拋出異常(ordinal not in range(128))
分析UnicodeEncodeError: "ascii" codec can"t encode character u"u751f" in position 0: ordinal not in range(128)
解決辦法python2.7是基于ascii去處理字符流,當字符流不屬于ascii范圍內(nèi),就會拋出異常(ordinal not in range(128))
import sys reload(sys) sys.setdefaultencoding("utf-8")完整代碼展示
from urllib2 import urlopen from bs4 import BeautifulSoup import os import sys reload(sys) sys.setdefaultencoding("utf-8") def GrapIndex(): html = "http://www.codesnippet.cn/index.html" bsObj = BeautifulSoup(urlopen(html), "html.parser") return bsObj.find("li", {"class":"con-code bbor"}).get_text() def SaveResult(): codeFile=open("code.txt", "a") for list in GrapIndex(): codeFile.write(list) codeFile.close() if __name__ == "__main__": for i in range(0,9): SaveResult()
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/38298.html
摘要:包括爬蟲編寫爬蟲避禁動態(tài)網(wǎng)頁數(shù)據(jù)抓取部署分布式爬蟲系統(tǒng)監(jiān)測共六個內(nèi)容,結(jié)合實際定向抓取騰訊新聞數(shù)據(jù),通過測試檢驗系統(tǒng)性能。 1 項目介紹 本項目的主要內(nèi)容是分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)設(shè)計與實現(xiàn)。主要有以下幾個部分來介紹: (1)深入分析網(wǎng)絡(luò)新聞爬蟲的特點,設(shè)計了分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)爬取策略、抓取字段、動態(tài)網(wǎng)頁抓取方法、分布式結(jié)構(gòu)、系統(tǒng)監(jiān)測和數(shù)據(jù)存儲六個關(guān)鍵功能。 (2)結(jié)合程序代碼分解說...
摘要:話題精華即為知乎的高票回答。下面的項目中還包含了另外一個爬取的知乎的動態(tài)。 作者:William本文為原創(chuàng)文章,轉(zhuǎn)載請注明作者及出處 Electron 可以讓你使用純 JavaScript 調(diào)用 Chrome 豐富的原生的接口來創(chuàng)造桌面應(yīng)用。你可以把它看作一個專注于桌面應(yīng)用的 Node.js 的變體,而不是 Web 服務(wù)器。其基于瀏覽器的應(yīng)用方式可以極方便的做各種響應(yīng)式的交互,接下來介...
摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴充到整個。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),...
摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴充到整個。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),...
閱讀 3261·2021-11-18 10:02
閱讀 1463·2021-10-12 10:08
閱讀 1264·2021-10-11 10:58
閱讀 1279·2021-10-11 10:57
閱讀 1178·2021-10-08 10:04
閱讀 2133·2021-09-29 09:35
閱讀 783·2021-09-22 15:44
閱讀 1283·2021-09-03 10:30