摘要:與介紹將圖片翻譯成文字一般被稱為光學(xué)文字識別,。是目前公認最優(yōu)秀最精確的開源系統(tǒng)。我們以圖片為例輸入命令識別結(jié)果如下只識別錯了一個字,識別率還是不錯的。最后加一句,對于彩色圖片的識別效果沒有黑白圖片的效果好。
OCR與Tesseract介紹
??將圖片翻譯成文字一般被稱為光學(xué)文字識別(Optical Character Recognition,OCR)。可以實現(xiàn)OCR 的底層庫并不多,目前很多庫都是使用共同的幾個底層OCR 庫,或者是在上面進行定制。
??Tesseract 是一個OCR 庫,目前由Google 贊助(Google 也是一家以O(shè)CR 和機器學(xué)習(xí)技術(shù)聞名于世的公司)。Tesseract 是目前公認最優(yōu)秀、最精確的開源OCR 系統(tǒng)。
??除了極高的精確度,Tesseract 也具有很高的靈活性。它可以通過訓(xùn)練識別出任何字體(只要這些字體的風(fēng)格保持不變就可以),也可以識別出任何Unicode 字符。
??Tesseract的Windows安裝包下載地址為: http://digi.bib.uni-mannheim.... ,下載后雙擊直接安裝即可。安裝完后,需要將Tesseract添加到系統(tǒng)變量中。在CMD中輸入tesseract -v, 如顯示以下界面,則表示Tesseract安裝完成且添加到系統(tǒng)變量中。
??Linux 用戶可以通過apt-get 安裝:
$sudo apt-get tesseract-ocr
??用Tesseract可以識別格式規(guī)范的文字,主要具有以下特點:
? 使用一個標準字體(不包含手寫體、草書,或者十分“花哨的”字體)
? 雖然被復(fù)印或拍照,字體還是很清晰,沒有多余的痕跡或污點
? 排列整齊,沒有歪歪斜斜的字
? 沒有超出圖片范圍,也沒有殘缺不全,或緊緊貼在圖片的邊緣
??下面將給出幾個tesseract識別圖片中文字的例子。
??首先是E://figures/other/poems.jpg, 輸入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 則會將poems.jpg中的識別文字寫入到poems.txt中,如下圖:
??接著是稍微有點傾斜的文字圖片th.jpg,識別情況如下:
可以看到識別的情況不如剛才規(guī)范字體的好,但是也能識別圖片中的大部分字母。
??最后是識別簡體中文,需要事先安裝簡體中文語言包,下載地址為:https://github.com/tesseract-... ,再講chi_sim.traineddata放在C:Program Files (x86)Tesseract-OCRtessdata目錄下。我們以圖片timg.jpg為例:
輸入命令:
tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim
識別結(jié)果如下:
只識別錯了一個字,識別率還是不錯的。
??最后加一句,Tesseract對于彩色圖片的識別效果沒有黑白圖片的效果好。
??pytesseract是Tesseract關(guān)于Python的接口,可以使用pip install pytesseract安裝。安裝完后,就可以使用Python調(diào)用Tesseract了,不過,你還需要一個Python的圖片處理模塊,可以安裝pillow.
??輸入以下代碼,可以實現(xiàn)同上述Tesseract命令一樣的效果:
import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = "C://Program Files (x86)/Tesseract-OCR/tesseract.exe" text = pytesseract.image_to_string(Image.open("E://figures/other/poems.jpg")) print(text)
運行結(jié)果如下:
Python網(wǎng)絡(luò)數(shù)據(jù)采集 【美】 Ryan Mitchell 人民郵電出版社
https://blog.csdn.net/dcrmg/a...
http://www.inimei.cn/archives...
注意:本人現(xiàn)已開通微信公眾號:Python爬蟲與算法(微信號為:easy_web_scrape), 歡迎大家關(guān)注哦~~
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/41838.html
摘要:一個簡單的圖片轉(zhuǎn)文字的函數(shù)實現(xiàn)如下。百度云這是偶然的發(fā)現(xiàn),百度云提供了一定額度的免費的,目前是每日次,做做研究或者小應(yīng)用還勉強夠用,本文主要為了測試其效果。論中文,還是百度比谷歌更懂一點。 當今時代人工智能都已經(jīng)是爛大街的詞了,OCR應(yīng)該也很多人都知道。 OCR (Optical Character Recognition,光學(xué)字符識別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印...
摘要:在上一篇博客圖像處理之圖片文字識別中我們介紹了在中如何利用軟件來識別圖片中的英文與中文,本文將具體介紹如何在中利用軟件來識別驗證碼數(shù)字加字母。 ??在上一篇博客Python圖像處理之圖片文字識別(OCR)中我們介紹了在Python中如何利用Tesseract軟件來識別圖片中的英文與中文,本文將具體介紹如何在Python中利用Tesseract軟件來識別驗證碼(數(shù)字加字母)。??我們在網(wǎng)...
摘要:我們的生活中,機器學(xué)習(xí)已經(jīng)越來越多的扮演著重要角色,也不再是神秘的東西。本文主要是介紹一個博主使用的比較好的開源項目,在這里分享給大家。項目使用先把項目從上下來,慢慢分析。顯示結(jié)果部分會將識別的文字用框標出來,并且展示識別的結(jié)果。 目錄 前言 項目使用 項目結(jié)構(gòu) 環(huán)境部署 測試代碼 參數(shù)補...
閱讀 2821·2023-04-25 15:01
閱讀 3082·2021-11-23 10:07
閱讀 3369·2021-10-12 10:12
閱讀 3459·2021-08-30 09:45
閱讀 2198·2021-08-20 09:36
閱讀 3587·2019-08-30 12:59
閱讀 2437·2019-08-26 13:52
閱讀 936·2019-08-26 13:24