識(shí)別圖片中的文字 - Tesseract 和百度云OCR的對(duì)比

mushang 發(fā)布于2019-07-30 15:26 / 2722人閱讀

摘要：一個(gè)簡(jiǎn)單的圖片轉(zhuǎn)文字的函數(shù)實(shí)現(xiàn)如下。百度云這是偶然的發(fā)現(xiàn)，百度云提供了一定額度的免費(fèi)的，目前是每日次，做做研究或者小應(yīng)用還勉強(qiáng)夠用，本文主要為了測(cè)試其效果。論中文，還是百度比谷歌更懂一點(diǎn)。

當(dāng)今時(shí)代人工智能都已經(jīng)是爛大街的詞了，OCR應(yīng)該也很多人都知道。

OCR （Optical Character Recognition，光學(xué)字符識(shí)別）是指電子設(shè)備（例如掃描儀或數(shù)碼相機(jī)）檢查紙上打印的字符，通過(guò)檢測(cè)暗、亮的模式確定其形狀，然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。

本文主要記錄了通過(guò)Python使用OCR的兩次嘗試。

Tesseract

Tesseract，一款由HP實(shí)驗(yàn)室開(kāi)發(fā)由Google維護(hù)的開(kāi)源OCR（Optical Character Recognition , 光學(xué)字符識(shí)別）引擎，特點(diǎn)是開(kāi)源，免費(fèi)，支持多語(yǔ)言，多平臺(tái)。

項(xiàng)目地址：https://github.com/tesseract-...

安裝使用

Tesseract的安裝比較簡(jiǎn)單，在mac可以通過(guò)brew安裝。

brew install --with-training-tools tesseract

在windows可以通過(guò)exe安裝包安裝，下載地址可以從GitHub項(xiàng)目中的wiki找到。安裝完成后記得將Tesseract 執(zhí)行文件的目錄加入到PATH中，方便后續(xù)調(diào)用。

另外，默認(rèn)安裝會(huì)包含英文語(yǔ)言訓(xùn)練包，如果需要支持簡(jiǎn)體中文或者繁體中文，需要在安裝時(shí)勾選。

或者安裝結(jié)束后到項(xiàng)目地址下載：https://github.com/tesseract-...

下載好的語(yǔ)言包放入到安裝目錄中的testdata下即可。在windows系統(tǒng)你還需要將testdata目錄也加入環(huán)境變量。

TESSDATA_PREFIX=C:Program Files (x86)Tesseract-OCR	essdata

如果一切就緒，你在命令行中就可以使用Tesseract命令。

# tesseract
Usage:
  tesseract --help | --help-psm | --help-oem | --version
  tesseract --list-langs [--tessdata-dir PATH]
  tesseract --print-parameters [options...] [configfile...]
  tesseract imagename|stdin outputbase|stdout [options...] [configfile...]

OCR options:
  --tessdata-dir PATH   Specify the location of tessdata path.
  --user-words PATH     Specify the location of user words file.
  --user-patterns PATH  Specify the location of user patterns file.
  -l LANG[+LANG]        Specify language(s) used for OCR.
  -c VAR=VALUE          Set value for config variables.
                        Multiple -c arguments are allowed.
  --psm NUM             Specify page segmentation mode.
  --oem NUM             Specify OCR Engine mode.
NOTE: These options must occur before any configfile.

通過(guò)命令行你就可以完成簡(jiǎn)單的圖片文字識(shí)別任務(wù)。

tesseract test.png outfile -l chi_sim

通過(guò)Python調(diào)用

Tesseract安裝完成后可以很方便的被Python調(diào)用，你需要安裝兩個(gè)包。

pip install pillow
pip install pytesseract

一個(gè)簡(jiǎn)單的圖片轉(zhuǎn)文字的函數(shù)實(shí)現(xiàn)如下。

from PIL import Image
import pytesseract

class Languages:
    CHS = "chi_sim"
    CHT = "chi_tra"
    ENG = "eng"

def img_to_str(image_path, lang=Languages.ENG):
    return pytesseract.image_to_string(Image.open(image_path), lang)
  
print(img_to_str("image/test1.png", lang=Languages.CHS))
print(img_to_str("image/test2.png", lang=Languages.CHS))

測(cè)試圖片- test1.png：

識(shí)別結(jié)果：

process image file "image/test1.png" in 1.4782530478747697 seconds

8 所 調(diào) 人 , 在 - 方 。
深 從 久 , 定 中 央
。 所 澈 伊 人 , 圭 水 淳
。 淇 渡 從 之 , 定 圭 北 中 坂 。
。 所 澈 伊人 , 圭 水 浩
從 丿 , 定 圭 水 中 瀝 。

測(cè)試圖片 - test2.png

識(shí)別結(jié)果：

process image file "image/test2.png" in 1.2131140296607923 seconds

清 明 時(shí) 節(jié) 雨 紛 紛 , 路 上 行 人 欲 斷 魂
信 問(wèn) 酒 家 何 處 有 , 牧 奕 通 指 槍 花 村 。

小結(jié)

Tesseract在識(shí)別清晰的標(biāo)準(zhǔn)中文字體效果還行，稍微復(fù)雜的情況就很糟糕，而且花費(fèi)的時(shí)間也很多，我個(gè)人覺(jué)得唯一的優(yōu)點(diǎn)就是免費(fèi)了。如果你不介意多花時(shí)間，可以考慮使用它提供的訓(xùn)練功能自定義你的語(yǔ)言庫(kù)，那樣在特定場(chǎng)景下識(shí)別率應(yīng)該能上一個(gè)臺(tái)階。

百度云OCR

這是偶然的發(fā)現(xiàn)，百度云提供了一定額度的免費(fèi)的OCR API，目前是每日500次，做做研究或者小應(yīng)用還勉強(qiáng)夠用，本文主要為了測(cè)試其效果。

文檔地址：https://cloud.baidu.com/doc/O...

安裝使用

首先你需要注冊(cè)一個(gè)百度云BCE賬號(hào)，然后從控制面板新建一個(gè)文字識(shí)別應(yīng)用。

之后你就可以獲得調(diào)用API需要的 AppID，API Key 和 Secret Key。后面只要根據(jù)官方文檔一步一步走就可以了。

pip install baidu-aip

封裝和調(diào)用

參考文檔： https://cloud.baidu.com/doc/O...

from aip import AipOcr

config = {
    "appId": "your-id",
    "apiKey": "your-key",
    "secretKey": "your-secret-key"
}

client = AipOcr(**config)

def get_file_content(file):
    with open(file, "rb") as fp:
        return fp.read()

def img_to_str(image_path):
    image = get_file_content(image_path)
    result = client.basicGeneral(image)
    if "words_result" in result:
        return "
".join([w["words"] for w in result["words_result"]])

測(cè)試圖片- test1.png：

識(shí)別結(jié)果：

process image file "image/test1.png" in 0.6331169034812572 seconds

蒹葭
先秦:佚名
蒹葭蒼蒼,白露為霜。所謂伊人,在水一方。
溯洄從之,道阻且長(zhǎng)。溯游從之,宛在水中央。
蒹葭萋萋,白露未晞。所謂伊人,在水之湄。
溯洄從之,道陽(yáng)且躋。溯游從之,宛在水中坻。
蒹葭采采,白露未已。所謂伊人,在水之涘。
溯洄從之,道阻且右。溯游從之,宛在水中沚。

測(cè)試圖片 - test2.png

識(shí)別結(jié)果：

process image file "image/test2.png" in 0.6621812639450142 seconds

清明時(shí)節(jié)雨紛紛,路上行人欲斷魂。
借問(wèn)酒家何處有,牧童遙指杏花村。

小結(jié)

測(cè)試結(jié)果很明顯，我只能說(shuō)百度云這個(gè)OCR真是挺厲害的，一個(gè)錯(cuò)別字都沒(méi)有，不服不行。論中文，還是百度比谷歌更懂一點(diǎn)。而且百度OCR提供了更多的參數(shù)讓你更靈活的處理圖片，比如自定義旋轉(zhuǎn)，返回可信度，特定類(lèi)型證件識(shí)別等等。

更多的OCR

除了本文提到的OCR，其實(shí)還是有不少其他選擇。有一些直接提供Demo頁(yè)面，你直接上傳一張圖片就可以直接看到識(shí)別效果，比如：

微軟Azure 圖像識(shí)別：https://azure.microsoft.com/z...

有道智云文字識(shí)別：http://aidemo.youdao.com/ocrdemo

阿里云圖文識(shí)別：https://www.aliyun.com/produc...

騰訊OCR文字識(shí)別： https://cloud.tencent.com/pro...

你有沒(méi)有發(fā)現(xiàn)所有的大公司都有這樣的服務(wù)？以后我們買(mǎi)買(mǎi)買(mǎi)就行，花大力氣去發(fā)明輪子就沒(méi)多大意義了。

關(guān)于作者：Python技術(shù)愛(ài)好者，目前從事測(cè)試開(kāi)發(fā)相關(guān)工作，轉(zhuǎn)載請(qǐng)注明原文出處。歡迎關(guān)注我的博客 https://betacat.online，你可以到我的公眾號(hào)中去當(dāng)吃瓜群眾。

云服務(wù)器 GPU云服務(wù)器識(shí)別圖片中的文字 java圖片文字識(shí)別ocr 二值化圖片和普通圖片文字識(shí)別國(guó)內(nèi)ocr文字識(shí)別

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/41245.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

mushang

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

溫濕度傳感器

閱讀 2619·2021-09-28 09:35
PostMan詳細(xì)介紹

閱讀 3266·2021-09-03 10:28
基于webpack下在vue中使用scss，背景圖片的使用

閱讀 2917·2019-08-30 15:43
css 命名規(guī)范 BEM

閱讀 1481·2019-08-30 14:04
【微信小程序】關(guān)于微信小程序多層嵌套渲染列表以及嵌套列表中數(shù)據(jù)的獲取

閱讀 1813·2019-08-29 17:02
開(kāi)發(fā)一個(gè)基于 Vue2.0 的個(gè)人天氣預(yù)報(bào)

閱讀 1820·2019-08-26 13:59
前端E2E測(cè)試框架 cypress了解一下

閱讀 700·2019-08-26 11:51
3 Express-NodeJs+Express+Mysql實(shí)戰(zhàn)

閱讀 3262·2019-08-23 17:16

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

識(shí)別圖片中的文字 - Tesseract 和百度云OCR的對(duì)比

相關(guān)文章

***Tesseract* 進(jìn)行圖像*識(shí)別***

OCR識(shí)別驗(yàn)證碼

**Python圖像處理之圖片文字識(shí)別（OCR）**

發(fā)表評(píng)論

0條評(píng)論

mushang

男|高級(jí)講師

TA的文章

溫濕度傳感器

PostMan詳細(xì)介紹

基于webpack下在vue中使用scss，背景圖片的使用

css 命名規(guī)范 BEM

【微信小程序】關(guān)于微信小程序多層嵌套渲染列表以及嵌套列表中數(shù)據(jù)的獲取

開(kāi)發(fā)一個(gè)基于 Vue2.0 的個(gè)人天氣預(yù)報(bào)

前端E2E測(cè)試框架 cypress了解一下

3 Express-NodeJs+Express+Mysql實(shí)戰(zhàn)

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

識(shí)別圖片中的文字 - Tesseract 和 百度云OCR的對(duì)比

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

識(shí)別圖片中的文字 - Tesseract 和百度云OCR的對(duì)比