摘要:的官方網(wǎng)址為,其使用手冊(cè)網(wǎng)址為本次分享將實(shí)現(xiàn)的功能為利用爬取某個(gè)搜索詞語(yǔ)暫僅限英文的百度百科的介紹部分,具體的功能介紹可以參考博客爬蟲自制簡(jiǎn)單的搜索引擎。
??Jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來(lái)取出和操作數(shù)據(jù)。Jsoup的官方網(wǎng)址為: https://jsoup.org/, 其API使用手冊(cè)網(wǎng)址為:https://jsoup.org/apidocs/ove... .
??本次分享將實(shí)現(xiàn)的功能為:利用Jsoup爬取某個(gè)搜索詞語(yǔ)(暫僅限英文)的百度百科的介紹部分,具體的功能介紹可以參考博客:Python爬蟲——自制簡(jiǎn)單的搜索引擎。在上篇爬蟲中我們用Python進(jìn)行爬取,這次,我們將用Java來(lái)做爬蟲,你沒看錯(cuò),就是Java.
??在Eclipse中加入Jsoup包,下載網(wǎng)址為:https://jsoup.org/download .
??爬蟲的具體代碼如下:
package baiduScrape; /* * 本爬蟲主要利用Java的Jsoup包進(jìn)行網(wǎng)絡(luò)爬取 * 本爬蟲的功能: 爬取百度百科的開頭介紹部分 * 使用方法: 輸入關(guān)鍵字(目前只支持英文)即可 */ import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.net.*; import java.io.*; import java.util.Scanner; public class BaiduScrape { public static void main(String[] args) { Scanner input = new Scanner(System.in); String baseUrl = "https://baike.baidu.com/item/"; String url = ""; // 如果輸入文字不是"exit",則爬取其百度百科的介紹部分,否則退出該程序 while(true) { System.out.println("Enter the word(Enter "exit" to exit):"); url = input.nextLine(); if(url.equals("exit")) { System.out.println("The program is over."); break; } String introduction = getContent(baseUrl+url); System.out.println(introduction+" "); } } // getContent()函數(shù)主要實(shí)現(xiàn)爬取輸入文字的百度百科的介紹部分 public static String getContent(String url){ // 利用URL解析網(wǎng)址 URL urlObj = null; try{ urlObj = new URL(url); } catch(MalformedURLException e){ System.out.println("The url was malformed!"); return ""; } // URL連接 URLConnection urlCon = null; try{ urlCon = urlObj.openConnection(); // 打開URL連接 // 將HTML內(nèi)容解析成UTF-8格式 Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url); // 刷選需要的網(wǎng)頁(yè)內(nèi)容 String contentText = doc.select("div.lemma-summary").first().text(); // 利用正則表達(dá)式去掉字符串中的"[數(shù)字]" contentText = contentText.replaceAll("[d+]", ""); return contentText; }catch(IOException e){ System.out.println("There was an error connecting to the URL"); return ""; } } }
在上述代碼中,url為輸入詞條(暫時(shí)僅限于英文),進(jìn)入while循環(huán)可一直搜索,當(dāng)輸入為’exit’時(shí)退出。contentText為該詞條的百度百科簡(jiǎn)介的網(wǎng)頁(yè)形式,通過正則表達(dá)式將其中的文字提取出來(lái)。代碼雖然簡(jiǎn)潔,但是功能還是蠻強(qiáng)大的,充分說明Java也是可以做爬蟲的。
??接下來(lái)是愉快的測(cè)試時(shí)間:
??本次分享到此結(jié)束,接下來(lái)也會(huì)持續(xù)更新Jsoup方面的相關(guān)知識(shí),歡迎大家交流~~
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/68907.html
摘要:一是一個(gè)開源解析器,可直接解析某個(gè)地址文本內(nèi)容。通過或選擇器來(lái)查找取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。無(wú)頭瀏覽器一個(gè)完整的瀏覽器內(nèi)核包括解析引擎渲染引擎請(qǐng)求處理等但是不包括顯示和用戶交互頁(yè)面的瀏覽器。 (一)Jsoup Jsoup是一個(gè)Java開源HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。通過Dom或Css選擇器來(lái)查找、取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。 maven坐標(biāo) or...
摘要:一是一個(gè)開源解析器,可直接解析某個(gè)地址文本內(nèi)容。通過或選擇器來(lái)查找取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。無(wú)頭瀏覽器一個(gè)完整的瀏覽器內(nèi)核包括解析引擎渲染引擎請(qǐng)求處理等但是不包括顯示和用戶交互頁(yè)面的瀏覽器。 (一)Jsoup Jsoup是一個(gè)Java開源HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。通過Dom或Css選擇器來(lái)查找、取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。 maven坐標(biāo) or...
摘要:介紹本篇博客將繼續(xù)上一篇博客爬蟲之使用的模塊爬取各國(guó)國(guó)旗的內(nèi)容,將用來(lái)實(shí)現(xiàn)這個(gè)爬蟲,下載全世界國(guó)家的國(guó)旗圖片。 介紹 ??本篇博客將繼續(xù)上一篇博客:Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國(guó)國(guó)旗 的內(nèi)容,將用Java來(lái)實(shí)現(xiàn)這個(gè)爬蟲,下載全世界國(guó)家的國(guó)旗圖片。項(xiàng)目不再過多介紹,具體可以參考上一篇博客。??我們將全世界國(guó)家的名稱放在一個(gè)...
摘要:沒有結(jié)果返回百度搜索的可以指定頁(yè)碼,最多一頁(yè)個(gè),使用后有效減少了連接次數(shù)。但親測(cè)下來(lái)設(shè)置過以后的結(jié)果與實(shí)際用戶在百度搜索的結(jié)果排序和個(gè)數(shù)都有出入。 showImg(https://segmentfault.com/img/bVbnA0I?w=1280&h=787); 一直有一個(gè)需求,希望看到自己網(wǎng)站在百度的實(shí)時(shí)的排名用過一些工具,要么反應(yīng)遲鈍,要么結(jié)果不準(zhǔn)確或不實(shí)時(shí)于是打算用jsoup...
摘要:爬蟲工具的使用需要的包解決方案通過獲得對(duì)象,調(diào)用等方法獲得對(duì)象,調(diào)用等方法,獲得自己想要的內(nèi)容。也可以使用增強(qiáng)型循環(huán)將它遍歷。其中方法是獲得該元素的某某屬性值,比如標(biāo)簽的值。如果一次方法沒用選到具體的,可以多次使用該方法。 jsoup爬蟲工具的使用: *需要的jar包 --> Jsoup* 解決方案:1.通過url 獲得doucment對(duì)象,2.調(diào)用select()等方法獲得Ele...
閱讀 1802·2023-04-26 00:47
閱讀 1553·2021-11-11 16:55
閱讀 2623·2021-09-27 14:04
閱讀 3560·2021-09-22 15:58
閱讀 3561·2021-07-26 23:38
閱讀 2137·2019-08-30 13:47
閱讀 1988·2019-08-30 13:15
閱讀 1152·2019-08-29 17:09