小編寫這篇文章的主要目的,主要是給大家介紹一下關于python代碼實現pdf編輯免費pdf工具相關知識的解答。
PDF是在日常生活中使用范圍還是比較的廣泛的,很多的文檔都是PDF格式。格式穩定是他的一個優勢,使得我們在打印、分享、傳輸過程中能夠最優的保持原有色彩和格式。
PDF各種各樣的的版本是比較的多的,它在格式的穩定性方面雖然具有很大優勢。但是,在可編輯性方面卻為使用者引入了另外一個困擾。
例如,在文檔的分割、合并、剪切、轉換、編輯等方面PDF就有些捉襟見肘了。
pdf版本是比較多的,有的是在線版的,有的是APP版本的,它們在優勢方面,各自有各自的優勢。
曾經,為了替換PDF中的一頁,我幾乎試遍了所有市面上主流的PDF工具,最終還是不得不選擇使用付費工具來解決問題。
事后想了想,既然這些商業化軟件不靠譜,為什么不考慮自己動手開發一款工具呢?明明幾十行代碼能夠解決的問題,為什么要費那么多勁去下載、安裝那些沒有節操的軟件呢?
本文就來介紹一下利用Python輕松開發一款PDF編輯工具,可以用于PDF轉TxT、分割、合并、剪切、轉換。
PyPDF2
PyPDF2是一個第三方的python PDF庫,它能夠對PDF文件進行分割、合并、裁剪和轉換頁面。
另外,它還可以對PDF文件添加自定義數據、水印、密碼,也可以從PDF文件中檢索出文本和元數據。
安裝
使用pip直接安裝:
$pip install PyPDF2
下面就來演示幾項PDF編輯功能,并且會逐行解釋代碼的含義。
刪除PDF頁
先給出實現代碼,
from PyPDF2 import PdfFileWriter,PdfFileReader output=PdfFileWriter()//1 input1=PdfFileReader(open("example.pdf","rb"))//2 def delete_pdf(index): pages=input1.getNumPages()//3 for i in range(pages): if i+1 in index: continue output.addPage(input1.getPage(i))//4 outputStream=open("PyPDF2-output.pdf","wb") output.write(outputStream)//5 delete_pdf([2,3,4])
下面來解釋一下代碼中的幾個關鍵點:
聲明一個用于輸出PDF的實例;
讀取本地PDF文件;
獲取PDF文檔的頁數;
讀取PDF的第i頁,添加到輸出output實例中;
把編輯后的文檔保存到本地;
合并PDF
已經實現了刪除PDF頁,接下來就看一下如何把另外一個PDF中的頁面合并到當前PDF中。
方法1:
可以沿著前面刪除PDF頁的方式進行拓展一下,對PDF進行合并。
from PyPDF2 import PdfFileWriter,PdfFileReader output=PdfFileWriter() input1=PdfFileReader(open("example.pdf","rb")) input2=PdfFileReader(open("simple2.pdf","rb"))//1 def merge_pdf(add_index,origin_index): pages=input1.getNumPages() k=0 for i in range(pages): if i+1 in add_index: output.addPage(input2.getPage(origin_index[k]))//2 pages+=1 k+=1 output.addPage(input1.getPage(i)) outputStream=open("PyPDF2-output.pdf","wb") output.write(outputStream) merge_pdf([2,3,4],[0,0,0])
讀取需要合并的源文件;
遍歷到指定頁,合并源PDF的頁面;
方法2:
除了方法1,還有另外一種方法可以合并PDF:
from PyPDF2 import PdfFileMerger//1
merger=PdfFileMerger()
input1=open("document1.pdf","rb")//2
input2=open("document2.pdf","rb")
input3=open("document3.pdf","rb")
merger.append(fileobj=input1,pages=(0,3))//3
merger.merge(position=2,fileobj=input2,pages=(0,1))//4
merger.append(input3)//5
output=open("document-output.pdf","wb")
merger.write(output)
導入PyPDF2合并模塊PdfFileMerger;
讀取需要處理和合并的PDF文檔;
從第一個PDF文檔中取出需要合并的前3頁;
把第二個PDF文檔的第一頁插入到文檔中;
把第三個PDF文檔附到輸出文檔末尾;
除了上述介紹的2項主要功能,PyPDF2也有一些其他小功能:
旋轉
input1.getPage(1).rotateClockwise(90)
使得頁面1旋轉90度。
添加水印
page=input1.getPage(3) watermark=PdfFileReader(open("watermark.pdf","rb")) page.mergePage(watermark.getPage(0))
其中,水印存儲在另外一個PDF文檔watermark.pdf中。
加密
password="secret" output.encrypt(password)
首先給一個secret密碼,然后使用encrypt對輸出文檔進行加密。
pdfminer
前面介紹的PyPDF2主要擅長于PDF頁面級編輯,而對于文本和源數據級別編輯能力較弱。
所以,這里就來介紹另外一款Python庫來彌補它的不足。
PDFMiner是一個PDF文檔的文本提取工具,它具有如下特性:
能夠準確獲取文本的位置和布局信息;
可以將PDF轉換為HTML/XML等格式;
可以提取目錄;
可以提取標簽內容;
支持各種字體類型(Type1、TrueType、Type3和CID);
支持中、日、韓語言和垂直書寫文本;
安裝
$pip install pdfminer
PDF轉TxT
pdfminer在GitHub的托管項目中,在目錄tools下給出了一些實用的工具集,例如,PDF轉HTML、PDF轉HTML、PDF轉TXT。我們可以直接通過使用下面命令提出PDF文檔中的文本信息。
$pdf2txt.py samples/simple1.pdf
通過上述2款Python庫,就可以實現從頁面到文本元數據的編輯,本文只是簡單的介紹了每項的基本用法。關于詳細的用法和函數列表,可以閱讀官方文檔,或者閱讀GitHub上項目源碼進行了解。此外,可以在這些基本的用法基礎上進行發散思維,發掘更多有價值的應用場景,例如,提出文本數據之后調用翻譯API進行文獻翻譯。也可以,對軟件進行封裝,開發成一款通用的PDF編輯工具。
20行Python代碼就輕松解決了困擾很多同學已久的PDF編輯問題,可見Python的作用和價值是不可忽視的。
綜上所述,相關知識就為大家解答到這里了,希望可以能給大家帶來幫助。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/127755.html
摘要:今天介紹一種通過抓包端微信的方式去獲取公眾號文章的方法。如上圖,通過抓包工具獲取微信的網絡信息請求,我們發現每次下拉刷新文章的時候都會請求這個接口。 本文首發自公眾號:python3xxx 爬取公眾號的方式常見的有兩種 通過搜狗搜索去獲取,缺點是只能獲取最新的十條推送文章 通過微信公眾號的素材管理,獲取公眾號文章。缺點是需要申請自己的公眾號。 showImg(//img.mukew...
摘要:層疊樣式表二修訂版這是對作出的官方說明。速查表兩份表來自一份關于基礎特性,一份關于布局。核心第一篇一份來自的基礎參考指南簡寫速查表簡寫形式參考書使用層疊樣式表基礎指南,包含使用的好處介紹個方法快速寫成高質量的寫出高效的一些提示。 迄今為止,我已經收集了100多個精通CSS的資源,它們能讓你更好地掌握CSS技巧,使你的布局設計脫穎而出。 CSS3 資源 20個學習CSS3的有用資源 C...
摘要:它需要將近美元才能買到,但是你可以下載免費的和版本。在需要花費美元來開始你的學習,將會有超過頁的內容和個多小時的視頻供你訪問,還包括以后可以免費更新。 showImg(https://segmentfault.com/img/bVrJpw); 用Python編寫代碼一點都不難,事實上它一直被贊譽為最容易學的編程語言。如果你準備學習web開發, Python是一個不錯的開始,甚至想做游戲...
摘要:關于作者是軟件基金會的成員,也是巴西第一個黑客空間的聯合創始人。他曾在巴西媒體,銀行和政府部門教授開發,并在,,和上發表演講。他是一位自學成才的程序員,也是使用學習編程一系列書的作者。 showImg(https://segmentfault.com/img/remote/1460000018926735); 來源 | 愿碼(ChainDesk.CN)內容編輯 愿碼Slogan | ...
閱讀 919·2023-01-14 11:38
閱讀 891·2023-01-14 11:04
閱讀 750·2023-01-14 10:48
閱讀 2039·2023-01-14 10:34
閱讀 956·2023-01-14 10:24
閱讀 833·2023-01-14 10:18
閱讀 506·2023-01-14 10:09
閱讀 583·2023-01-14 10:02