摘要:筆者在今天的工作中,遇到了一個需求,那就是如何將字符串生成。比如,需要把字符串這是測試文件生成為該中含有文字這是測試文件。
??筆者在今天的工作中,遇到了一個需求,那就是如何將Python字符串生成PDF。比如,需要把Python字符串‘這是測試文件’生成為PDF, 該PDF中含有文字‘這是測試文件’。
??經(jīng)過一番檢索,筆者決定采用wkhtmltopdf這個軟件,它可以將HTML轉(zhuǎn)化為PDF。wkhtmltopdf的訪問網(wǎng)址為:https://wkhtmltopdf.org/downloads.html ,讀者可根據(jù)自己的系統(tǒng)下載對應(yīng)的文件并安裝。安裝好wkhtmltopdf,我們再安裝這個軟件的Python第三方模塊——pdfkit,安裝方式如下:
pip install pdfkit
??我們再討論如下問題:
如何將Python字符串生成PDF;
如何生成PDF中的表格;
解決PDF生成速度慢的問題。
如何將Python字符串生成PDF??該問題的解決思路還是利用將Python字符串嵌入到HTML代碼中解決,注意換行需要用
標(biāo)簽,示例代碼如下:
import pdfkit # PDF中包含的文字 content = "這是一個測試文件。" + "
" + "Hello from Python!" html = "" ""%content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./test.pdf")%s
輸出的結(jié)果如下:
Loading pages (1/6)
Counting pages (2/6)
Resolving links (4/6)
Loading headers and footers (5/6)
Printing pages (6/6)
Done
生成的test.pdf如下:
如何生成PDF中的表格??接下來我們考慮如何將csv文件轉(zhuǎn)換為PDF中的表格,思路還是利用HTML代碼。示例的iris.csv文件(部分)如下:
??將csv文件轉(zhuǎn)換為PDF中的表格的Python代碼如下:
import pdfkit # 讀取csv文件 with open("iris.csv", "r") as f: lines = [_.strip() for _ in f.readlines()] # 轉(zhuǎn)化為html中的表格樣式 td_width = 100 content = "
%s | "%(td_width, _) for _ in lines[i].split(",")])+"
??生成的PDF文件為iris.pdf,部分內(nèi)容如下:
解決PDF生成速度慢的問題??用pdfkit生成PDF文件雖然方便,但有一個比較大的缺點,那就是生成PDF的速度比較慢,這里我們可以做個簡單的測試,比如生成100份PDF文件,里面的文字為“這是第*份測試文件!”。Python代碼如下:
import pdfkit import time start_time = time.time() for i in range(100): content = "這是第%d份測試文件!"%(i+1) html = "" "%s" % content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./test/%s.pdf"%(i+1)) end_time = time.time() print("一共耗時:%s 秒." %(end_time-start_time))
在這個程序中,生成100份PDF文件一共耗時約192秒。輸出結(jié)果如下:
...... Loading pages (1/6) Counting pages (2/6) Resolving links (4/6) Loading headers and footers (5/6) Printing pages (6/6) Done 一共耗時:191.9226369857788 秒.
??如果想要加快生成的速度,我們可以使用多線程來實現(xiàn),主要使用concurrent.futures模塊,完整的Python代碼如下:
import pdfkit import time from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED start_time = time.time() # 函數(shù): 生成PDF def convert_2_pdf(i): content = "這是第%d份測試文件!"%(i+1) html = "" "%s" % content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./test/%s.pdf"%(i+1)) # 利用多線程生成PDF executor = ThreadPoolExecutor(max_workers=10) # 可以自己調(diào)整max_workers,即線程的個數(shù) # submit()的參數(shù): 第一個為函數(shù), 之后為該函數(shù)的傳入?yún)?shù),允許有多個 future_tasks = [executor.submit(convert_2_pdf, i) for i in range(100)] # 等待所有的線程完成,才進(jìn)入后續(xù)的執(zhí)行 wait(future_tasks, return_when=ALL_COMPLETED) end_time = time.time() print("一共耗時:%s 秒." %(end_time-start_time))
在這個程序中,生成100份PDF文件一共耗時約41秒,明顯快了很多~
注意:不妨了解下筆者的微信公眾號: Python爬蟲與算法(微信號為:easy_web_scrape), 歡迎大家關(guān)注~
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/43821.html
摘要:制作電子書準(zhǔn)備制作電子書使用的是的這個庫,是的封裝包,因此在安裝這個之前要安裝安裝下,不過這里安裝的時候可能對應(yīng)的版本不同,會出現(xiàn)錯誤,如果不行的話還請自己百度下,我安裝的時候是可以的下的用戶直接到官網(wǎng)下載穩(wěn)定版本,然后直接安裝即可,但是 python制作pdf電子書 準(zhǔn)備 制作電子書使用的是python的pdfkit這個庫,pdfkit是 wkhtmltopdf 的Python封裝包...
摘要:復(fù)雜系統(tǒng)仿真的微博客虛假信息擴散模型研究面向影子分析的社交媒體競爭情報搜集面向人機協(xié)同的移動互聯(lián)網(wǎng)政務(wù)門戶探析經(jīng)驗證。微博客的企業(yè)競爭情報搜集移動社交媒體用戶隱私保護對策研究注意這里的提示,原先的個文件沒有被再次抽取,只有個新文件被抽取。 showImg(https://segmentfault.com/img/bVbiU7y?w=1000&h=508); 本文為你展示,如何用Pyth...
摘要:第二步,驗證一下,把百度生成打開任意一個終端,運行下面的腳本。這里雷學(xué)委直接把百度首頁保持為保持內(nèi)容為圖片如下圖所示,這個軟件不止生成文件,還能生存圖片。第三步,高級定制。高級定制參考上面的代碼。 ...
摘要:爬蟲下載二最近在學(xué)習(xí)的爬蟲,并且玩的不亦說乎,因此寫個博客,記錄并分享一下。需下載下載以下模塊模塊模塊一源碼設(shè)置命令行參數(shù)功能下載目標(biāo)最大的線程數(shù)。方法的作用與內(nèi)置函數(shù)類似,不過函數(shù)會在多個線程中并發(fā)調(diào)用方法返回一個生成器。 Python3爬蟲下載pdf(二) 最近在學(xué)習(xí)python的爬蟲,并且玩的不亦說乎,因此寫個博客,記錄并分享一下。 需下載下載以下模塊 bs4模塊 reques...
閱讀 25642·2021-09-29 09:41
閱讀 4806·2021-09-10 11:20
閱讀 1928·2021-09-09 09:32
閱讀 1893·2019-08-30 15:44
閱讀 3199·2019-08-29 17:13
閱讀 2815·2019-08-29 14:14
閱讀 2071·2019-08-29 14:11
閱讀 3231·2019-08-29 12:36