構建多層感知器神經網絡對數字圖片進行文本識別

LeanCloud 發布于2019-07-30 14:32 / 1838人閱讀

摘要：搞點有意思的圖像識別在環境下構建多層感知器模型，對數字圖像進行精確識別。對于每一個，其交叉熵值就是要通過迭代盡量往小優化的值。交叉熵的作用如下圖所示在此分類神經網絡中，使用判別結果的作為參數值好壞的度量標準。

搞點有意思的？
！！圖像識別?( ?? ω ?? )y

在Keras環境下構建多層感知器模型，對數字圖像進行精確識別。
模型不消耗大量計算資源，使用了cpu版本的keras，以Tensorflow 作為backended，在ipython交互環境jupyter notebook中進行編寫。

1.數據來源

在Yann LeCun的博客頁面上下載開源的mnist數據庫：
http://yann.lecun.com/exdb/mn...

此數據庫包含四部分：訓練數據集、訓練數據集標簽、測試數據集、測試數據集標簽。由于訓練模型為有監督類型的判別模型，因此標簽必不可少。若使用該數據集做k-means聚類，則不需要使用標簽。將數據整合之后放入user.kerasdatasets文件夾以供調用。

也可以直接從keras建議的url直接下載：
https://s3.amazonaws.com/img-...

其中訓練數據集包含了60000張手寫數字的圖片和這些圖片分別對應的標簽；測試數據集包含了10000張手寫數字的圖片和這些圖片分別對應的標簽.

2.數據格式和前期處理（在此不涉及）
訓練數據集包含60000張圖片，測試數據集包含10000張，所有圖片都被當量化為28pixel*28pixel的大小。為減少向量長度，將圖片灰度處理，每個像素用一個RGB值表示（0~255），這是因為灰度處理后的RGB值加了歸一約束，向量長度相是灰度處理前的1/3。至此，每個圖片都可以用28*28的向量表示。

3.導入依賴庫

打開jupyter notebook后導入依賴庫numpy,此處的seed為隨機量的標簽，可隨意設置:

from __future__ import print_function
import numpy as np
np.random.seed(9999)

繼續從keras中導入使用到的模塊：

from keras.datasets import mnist
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation
from keras.optimizers import SGD, Adam, RMSprop
from keras.utils import np_utils

mnist為之前準備的數據集，Dense為全連接神經元層，Dropout為神經元輸入的斷接率，Activation為神經元層的激勵函數設置。

導入繪圖工具，以便之后繪制模型簡化圖：

from keras.utils.vis_utils import plot_model as plot

4.處理導入的數據集

處理數據集
1.為了符合神經網絡對輸入數據的要求，原本為60000*28*28shape的三維ndarray,改變成了尺寸為60000*784的2維數組，每行為一個example，每一列為一個feature。
3.神經網絡用到大量線性與求導運算，將輸入的feature的數值類型改變為32位float。
3.將feature值歸一化，原本0~255的feature歸一為0~1。
4.測試數據集同理。

(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train = X_train.reshape(60000, 28*28)
X_test = X_test.reshape(10000, 28*28)
X_train = X_train.astype("float32")
X_test = X_test.astype("float32")
X_train /= 255
X_test /= 255

處理標簽
文本識別問題本質是一個多元分類問題。將類向量轉換為二進制數表示的類矩陣，其中每一行都是每一個example對應一個label。label為10維向量，每一位代表了此label對應的example屬于特定類（0~10）的概率。此時Y_train為60000*10的向量，Y_test為10000*10的向量

Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)

5.用keras建立神經網絡模型

batch_size = 128
nb_classes = 10
nb_epoch = 20
model = Sequential()
model.add(Dense(500, input_shape=(28*28,)))
model.add(Activation("relu"))
model.add(Dropout(0.2))
model.add(Dense(500))
model.add(Activation("relu"))
model.add(Dropout(0.2))
model.add(Dense(500))
model.add(Activation("relu"))
model.add(Dropout(0.2))
model.add(Dense(10))
model.add(Activation("softmax"))

每次iter時，每一批次梯度下降運算所包含的example數量為128；
softmax輸出值為10維向量；
一共迭代20次iteration。

三層的神經網絡，其中輸入層為28*28=784維的全連接層。
Hidden Layer有3層，每一層有500個神經元，input layer->hidden layer->output layer都是全連接方式（DENSE）。

hidden layer的激活函數采用ReLu函數，表達式：

如下圖所示：

相比與傳統的sigmoid函數，ReLU更容易學習優化。因為其分段線性性質，導致其前傳、后傳、求導都是分段線性。而傳統的sigmoid函數，由于兩端飽和，在傳播過程中容易丟棄信息。且Relu在x<0時所映射的值永遠是0，因此可稀疏掉負的feature。

文本識別本質是多元分類（此處為10元分類），因此輸出層采用softmax函數進行feature處理，如下圖所示：

其中第j個輸出層神經元輸出值與當層輸入feature的關系為：

該神經網絡示意圖如圖所示：

調用summary方法做一個總覽：

model.summary()

結果如下：

該神經網絡一共有898510個參數，即在后向反饋過程中，每一次用梯度下降都要求898510次導數。

用plot函數打印model：

plot(model, to_file="mlp_model.png"，show_shapes=True)

如下圖所示：

編譯模型，使用cross_entropy交叉熵函數作為loss function，公式如下圖所示：

用交叉熵可量化輸出向量與標簽向量的差異，p與q分別為輸出向量與標簽向量。對于每一個example，其交叉熵值就是要通過迭代盡量往小優化的值。優過程使用梯度算法，計算過程中使用反向傳播算法求導。
交叉熵的作用如下圖所示：

在此分類神經網絡中，使用判別結果的accuracy作為參數值好壞的度量標準。

6.用數據訓練和測試網絡

history = model.fit(X_train, Y_train,
                    batch_size=batch_size, nb_epoch=nb_epoch,
                    verbose=1, validation_data=(X_test, Y_test))

在這個地方運行碰到warning，原因是最新版的keras使用的iteration參數名改成了epoch，而非之前沿用的nb_epoch。將上面的代碼作修改即可。

訓練結果如下所示。第一次迭代，通過對60000/128個的batch訓練，已經達到了比較好的結果，accuracy已經高達0.957。之后Loss值繼續下降，精確度繼續上升。從第9個itearation開始，loss函數值（交叉熵cross_entropy）開始震蕩在0.05附近，accuracy保持在0.98以上。說明前9次迭代就已經訓練了足夠好的θ值和bias，不需要后11次訓練。

7.評估模型

用score函數打印模型評估結果：

score = model.evaluate(X_test, Y_test, verbose=0)
print("Test score:", score[0])
print("Test accuracy:", score[1])

輸出結果如下圖所示：

訓練的multi-layer_perceptron神經網絡在對數字文本識別時具有98.12%的準確率。

手寫數字圖片數據庫和Iris_Flower_dataset一樣，算是dl界的基本素材，可以拿來做很多事情，比如k-means聚類，LSTM(長短記憶網絡)。

GPU云服務器云服務器 html圖片文本對其圖片識別數字在防火墻中可以對什么網絡進行設置感知器

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/40769.html

深度學習研究綜述

摘要：此原因在一定程度上阻礙了深度學習的發展，并將大多數機器學習和信號處理研究，從神經網絡轉移到相對較容易訓練的淺層學習結構。深度學習算法可以看成核機器學習中一個優越的特征表示方法。摘要：深度學習是一類新興的多層神經網絡學習算法。因其緩解了傳統訓練算法的局部最小性，引起機器學習領域的廣泛關注。首先論述了深度學習興起淵源，分析了算法的優越性，并介紹了主流學習算法及應用現狀，最后總結當前存在的...

jokester 2019-04-25 17:58 評論0 收藏0
深度學習

摘要：深度學習在過去的幾年里取得了許多驚人的成果，均與息息相關。機器學習進階筆記之一安裝與入門是基于進行研發的第二代人工智能學習系統，被廣泛用于語音識別或圖像識別等多項機器深度學習領域。零基礎入門深度學習長短時記憶網絡。多圖｜入門必看：萬字長文帶你輕松了解LSTM全貌作者 | Edwin Chen編譯 | AI100第一次接觸長短期記憶神經網絡（LSTM）時，我驚呆了。原來，LSTM是神...

Vultr 2019-06-26 18:19 評論0 收藏0

發表評論

登陸后可評論

0條評論

LeanCloud

男|高級講師

我要關注我要私信

TA的文章

C語言中數據的存儲

閱讀 2675·2021-11-25 09:43
Python | Numpy：詳解計算矩陣的均值和標準差

閱讀 2587·2021-11-22 09:34
Badboy

閱讀 2856·2021-11-12 10:34
從織夢DedeCMS商業授權看未來開源程序選擇策略

閱讀 1442·2021-10-20 13:46
CSS考點之一，<a>標簽，偽類

閱讀 2307·2019-08-30 13:21
使用js-xlsx純前端導出excel

閱讀 935·2019-08-30 11:21
Css清除浮動的方法總結

閱讀 488·2019-08-30 11:20
原生js實現手機端導航滑動效果

閱讀 2192·2019-08-29 17:20

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

構建多層感知器神經網絡對數字圖片進行文本識別

相關文章

深度學習研究綜述

深度學習

發表評論

0條評論

LeanCloud

男|高級講師

TA的文章

C語言中數據的存儲

Python | Numpy：詳解計算矩陣的均值和標準差

Badboy

從織夢DedeCMS商業授權看未來開源程序選擇策略

CSS考點之一，<a>標簽，偽類

使用js-xlsx純前端導出excel

Css清除浮動的方法總結

原生js實現手機端導航滑動效果

最新活動