摘要:但發(fā)現(xiàn)導(dǎo)出來(lái)的沒(méi)有高亮語(yǔ)法沒(méi)有語(yǔ)法高亮咋看啊,所以到這里我就放棄了,將就用一下博客園生成的吧爬蟲學(xué)習(xí)上面提供的接口是一個(gè)生成一個(gè)文件,我是不可能一個(gè)一個(gè)將鏈接和標(biāo)題放上去生成的因?yàn)椴┛蛨@上發(fā)的也將近篇了。
前言
只有光頭才能變強(qiáng)
之前有讀者問(wèn)過(guò)我:“3y你的博客有沒(méi)有電子版的呀?我想要份電子版的”。我說(shuō):“沒(méi)有啊,我沒(méi)有弄過(guò)電子版的,我這邊有個(gè)文章導(dǎo)航頁(yè)面,你可以去文章導(dǎo)航去找來(lái)看呀”..然后就沒(méi)有然后了。
最近也有個(gè)讀者提過(guò)這個(gè)問(wèn)題,然后這兩天也沒(méi)什么事做,所以打算折騰折騰,看看怎么把博客轉(zhuǎn)成PDF。
一、準(zhǔn)備工作要將博客轉(zhuǎn)成PDF,我首先想到的是能不能將markdown文件轉(zhuǎn)成PDF(因?yàn)槠綍r(shí)我就是用markdown來(lái)寫博客的)。
想了一下,原生markdown顯示的話,代碼是沒(méi)有高亮的,格式也不會(huì)太好看。
所以就放棄了這個(gè)想法。
于是就去想一下,可不可以將HTML轉(zhuǎn)成PDF呢。就去GitHub搜了有沒(méi)有相關(guān)的輪子,也搜到了一些關(guān)于Python的爬蟲啥的,感覺(jué)還是蠻復(fù)雜的。
后來(lái),終于搜到了個(gè)不錯(cuò)的:
https://github.com/petterobam/my-html2file
介紹:收集一系列html轉(zhuǎn)文檔的開源插件,做成html頁(yè)面轉(zhuǎn)文件的微服務(wù)集成Web應(yīng)用,目前包含 html轉(zhuǎn)PDF、html轉(zhuǎn)圖片、html轉(zhuǎn)markdown等等。
功能:
網(wǎng)頁(yè)轉(zhuǎn)PDF(參用wkhtml2pdf插件)
網(wǎng)頁(yè)轉(zhuǎn)圖片(參用wkhtml2pdf插件)
網(wǎng)頁(yè)轉(zhuǎn)Markdown(參用jHTML2Md)
網(wǎng)頁(yè)轉(zhuǎn)WORD(參用Apache POI)
這里我主要用到的網(wǎng)頁(yè)轉(zhuǎn)PDF這么一個(gè)功能,對(duì)應(yīng)的插件是wkhtml2pdf。
1.1踩坑發(fā)現(xiàn)了一個(gè)不錯(cuò)的輪子了,感覺(jué)可行,于是就去下載來(lái)跑一下看看怎么樣。啟動(dòng)的時(shí)候倒沒(méi)有出錯(cuò),但在調(diào)接口的時(shí)候,老是拋出異常。
于是就開始查一下路徑,url有沒(méi)有問(wèn)題啦,查來(lái)查去發(fā)現(xiàn)都沒(méi)問(wèn)題啊。
后來(lái)才發(fā)現(xiàn)我的wkhtml2pdf.exe文件打不開,說(shuō)我缺少幾個(gè)dll文件。于是,我首先想到的是去wkhtml2pdf官網(wǎng)看看有沒(méi)有相關(guān)的問(wèn)題,想重新下載一個(gè),但官網(wǎng)都進(jìn)不去...(不是墻的問(wèn)題)
https://wkhtmltopdf.org/
(ps:一個(gè)周末過(guò)去了,發(fā)現(xiàn)又能打開了。)
好吧,于是就去找‘dll文件缺失怎么辦’。后面發(fā)現(xiàn),安裝一下Visual C++ Redistributable for Visual Studio 2015就好了(沒(méi)有網(wǎng)上說(shuō)得那么復(fù)雜)
https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=48145
完了之后,發(fā)現(xiàn)可以將一個(gè)HTML轉(zhuǎn)成PDF了,效果還不錯(cuò):
有目錄
可復(fù)制粘貼
可跳轉(zhuǎn)到鏈接
清晰度好評(píng)
缺點(diǎn):
頁(yè)面加載速度慢的HTML,圖片還沒(méi)加載出來(lái)就已經(jīng)生成PDF了
所以我選用了博客園(速度快)
在PDF的末尾有好幾頁(yè)不相關(guān)的(評(píng)論,廣告啥的)
本來(lái)想著能不能只截取HTML博文的部分啊(評(píng)論,廣告和其他不相關(guān)的不截取)。于是就去搜了一下,感覺(jué)是挺麻煩的,自己做了幾次試驗(yàn)都沒(méi)弄出來(lái),最后放棄了。
后來(lái)又想了一下,我不是有一個(gè)沒(méi)有廣告的博客平臺(tái)嗎,剛好可以拿來(lái)用了。但是,我自己寫完的markdown是沒(méi)有全部保存在硬盤上的,后來(lái)發(fā)現(xiàn)簡(jiǎn)書可以下載已發(fā)布文章的所有markdown。
下載下來(lái)的文章,我想全部導(dǎo)入到之前那個(gè)無(wú)廣告的博客平臺(tái)上。但發(fā)現(xiàn)導(dǎo)出來(lái)的markdown沒(méi)有高亮語(yǔ)法..
// 沒(méi)有語(yǔ)法高亮咋看啊,所以到這里我就放棄了,將就用一下博客園生成的PDF吧
1.2爬蟲學(xué)習(xí)上面GitHub提供的接口是一個(gè)URL生成一個(gè)PDF文件,我是不可能一個(gè)一個(gè)將鏈接和標(biāo)題放上去生成的(因?yàn)椴┛蛨@上發(fā)的也將近200篇了)。
而我是一點(diǎn)也不會(huì)爬蟲的,于是也去搜了一下Java的爬蟲輪子,發(fā)現(xiàn)一個(gè)很出名(WebMagic)
https://github.com/code4craft/webmagic
于是就跟著文檔學(xué)習(xí),也遇到了坑...文檔給出的版本是0.7.3,我使用的JDK版本是8,用它的例子跑的時(shí)候拋出了SSLException異常(然而網(wǎng)上的0.6.x版本是沒(méi)有問(wèn)題的)
折騰完折騰去,也找到了0.7.3版本在JDK8上如何解決SSLException異常的辦法了:
http://www.cnblogs.com/vcmq/p/9484418.html
修改HttpClientDownloader和HttpClientGenerator這兩個(gè)類的部分代碼就好了。
但是,我還是死活寫不出能用的代碼出來(lái)(真的菜!)..后來(lái)去問(wèn)了一下同事(公眾號(hào):Rude3Knife)咋搞,他用Python幾分鐘就寫好了。
def get_blog_yuan(blog_name, header): for i in range(1, 6): url = "https://www.cnblogs.com/" + blog_name + "/default.html?page=" + str(i) r = requests.get(url, headers=header, timeout=6) selector = etree.HTML(r.text) names = selector.xpath("http://*[@class="postTitle"]/a/text()") links = selector.xpath("http://*[@class="postTitle"]/a/@href") for num in range(len(names)): print(names[num], links[num]) time.sleep(5)
我也不糾結(jié)了..直接用他爬下來(lái)的數(shù)據(jù)吧(:
WebMagic中文文檔:
http://webmagic.io/docs/zh/
最后最后我就生成了好多PDF文件了:
// 這篇文章簡(jiǎn)單記錄下我這個(gè)過(guò)程吧,還有很多要改善的[//假裝TODO]。如果你遇到過(guò)這種需求,有更好的辦法的話不妨在評(píng)論區(qū)下告訴我~~
WebMagic我的Demo還沒(méi)寫好!??!如果有興趣或者用過(guò)WebMagic的同學(xué),有空的話不妨也去爬爬我的博客園的文章,給我一份代碼(hhhhh)
分析可能的原因:博客園反爬蟲or爬取規(guī)則沒(méi)寫好
部門的前輩建議我去了解一下機(jī)器學(xué)習(xí),我也想擴(kuò)展一下眼界,所以這陣子會(huì)去學(xué)一下簡(jiǎn)單的機(jī)器學(xué)習(xí)知識(shí)。(當(dāng)然啦,我后面也會(huì)補(bǔ)筆記的)
樂(lè)于分享和輸出干貨的Java技術(shù)公眾號(hào):Java3y。關(guān)注即可領(lǐng)取海量的視頻資源!
文章的目錄導(dǎo)航:
https://github.com/ZhongFuCheng3y/3y
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/72652.html
摘要:比上面的稍微好點(diǎn),支持了一些方面的東西,具體看這個(gè)中文配置參數(shù)評(píng)價(jià)這種方法前端實(shí)現(xiàn),靈活簡(jiǎn)單,而且在頁(yè)面還原上是很好的,生成的過(guò)程不需要自己操心,頁(yè)面樣式還可控,可以說(shuō)是非常不錯(cuò)的。 最近要搞前端html轉(zhuǎn)pdf的功能。折騰了兩天,略有所收,踩了一些坑,所以做些記錄,為后來(lái)的兄弟做些提示,也算是回饋社區(qū)。經(jīng)過(guò)一番調(diào)(sou)研(suo)發(fā)現(xiàn)html導(dǎo)出pdf一般有這幾種方式,各有各有優(yōu)...
摘要:比上面的稍微好點(diǎn),支持了一些方面的東西,具體看這個(gè)中文配置參數(shù)評(píng)價(jià)這種方法前端實(shí)現(xiàn),靈活簡(jiǎn)單,而且在頁(yè)面還原上是很好的,生成的過(guò)程不需要自己操心,頁(yè)面樣式還可控,可以說(shuō)是非常不錯(cuò)的。 最近要搞前端html轉(zhuǎn)pdf的功能。折騰了兩天,略有所收,踩了一些坑,所以做些記錄,為后來(lái)的兄弟做些提示,也算是回饋社區(qū)。經(jīng)過(guò)一番調(diào)(sou)研(suo)發(fā)現(xiàn)html導(dǎo)出pdf一般有這幾種方式,各有各有優(yōu)...
摘要:比上面的稍微好點(diǎn),支持了一些方面的東西,具體看這個(gè)中文配置參數(shù)評(píng)價(jià)這種方法前端實(shí)現(xiàn),靈活簡(jiǎn)單,而且在頁(yè)面還原上是很好的,生成的過(guò)程不需要自己操心,頁(yè)面樣式還可控,可以說(shuō)是非常不錯(cuò)的。 最近要搞前端html轉(zhuǎn)pdf的功能。折騰了兩天,略有所收,踩了一些坑,所以做些記錄,為后來(lái)的兄弟做些提示,也算是回饋社區(qū)。經(jīng)過(guò)一番調(diào)(sou)研(suo)發(fā)現(xiàn)html導(dǎo)出pdf一般有這幾種方式,各有各有優(yōu)...
摘要:由于公司項(xiàng)目需要,圖片與文件需要存到數(shù)據(jù)庫(kù)而存本地,前端用的,后端是接口的方式,只能選擇這種方式,而且也方便可以存各種格式。下安裝官網(wǎng)大家可以點(diǎn)進(jìn)去,然后里面有介紹安裝方法如何使用。 由于公司項(xiàng)目需要,圖片與文件需要存到數(shù)據(jù)庫(kù)而存本地,前端用的react,后端 是接口的方式,只能選擇base64這種方式,而且也方便可以存各種格式。 1.React下react-pdf-js安裝官網(wǎng) 大家...
摘要:最近碰到個(gè)需求,需要把當(dāng)前頁(yè)面生成,并下載。但這并不是真的截圖,而是通過(guò)遍歷頁(yè)面結(jié)構(gòu),收集所有元素信息及相應(yīng)樣式,渲染出。由于只能將它能處理的生成,因此渲染出來(lái)的結(jié)果并不是與原來(lái)一致。 最近碰到個(gè)需求,需要把當(dāng)前頁(yè)面生成pdf,并下載。弄了幾天,自己整理整理,記錄下來(lái),我覺(jué)得應(yīng)該會(huì)有人需要 :) 項(xiàng)目源碼地址:https://github.com/linwalker/... html2...
閱讀 3055·2021-09-03 10:33
閱讀 1283·2019-08-30 15:53
閱讀 2630·2019-08-30 15:45
閱讀 3390·2019-08-30 14:11
閱讀 543·2019-08-30 13:55
閱讀 2593·2019-08-29 15:24
閱讀 1925·2019-08-26 18:26
閱讀 3577·2019-08-26 13:41