摘要:沒有顯卡也沒有關(guān)系,可以看看我前面發(fā)布的兩篇文章谷歌云計算平臺,免費又好用上安裝本文采用的深度學(xué)習(xí)模型是雅虎開源的深度學(xué)習(xí)色情圖片檢測模型,這里的代表,該項目基于框架。你還可以讀利用人工智能檢測色情圖片谷歌云計算平臺,免費又好用上安裝
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的圖片和視頻出現(xiàn)在網(wǎng)絡(luò),特別是UCG產(chǎn)品,激發(fā)人們上傳圖片和視頻的熱情,比如微信每天上傳的圖片就高達10億多張。每個人都可以上傳,這就帶來監(jiān)管問題,如果沒有內(nèi)容審核,色情圖片和視頻就會泛濫。前不久,一向以開放著稱的tumblr,就迫于壓力,開始限制人們分享色情圖片。更別提國內(nèi),內(nèi)容審核是UCG繞不過去的坎。還記得前幾年出現(xiàn)的職業(yè)鑒黃師這一職業(yè)么?傳說百萬年薪,每天看黃片看得想吐,但最近又很少有人提及這一職業(yè),這個應(yīng)監(jiān)管而生的職業(yè),因人工智能的出現(xiàn)又快速消亡。(當(dāng)然也不是完全消亡,畢竟判斷是否色情圖片是一個主觀的事情,有些藝術(shù)和色情之間的邊界比較模糊,需要人工加以判斷)
之前寫過一篇文章利用人工智能檢測色情圖片,也曾經(jīng)嘗試過在瀏覽器中加入色情圖片過濾功能,但實驗下來,推理速度太慢(當(dāng)時使用的Google Nexus 4做的測試,檢測一張圖片需要幾秒鐘),沒法做實時過濾。最近在研究nvidia的Jetson Nano以及推理加速框架TensorRT,因此想嘗試一下,看能否應(yīng)用一些加速方法,加速推理。
雖然我的最終目標是應(yīng)用到Jetson Nano,但是TensorRT其實適用于幾乎所有的Nvidia顯卡,為了方便起見,我還是先在PC端進行嘗試。沒有Nvidia顯卡?也沒有關(guān)系,可以看看我前面發(fā)布的兩篇文章:
谷歌GPU云計算平臺,免費又好用
Google Colab上安裝TensorRT
本文采用的深度學(xué)習(xí)模型是雅虎開源的深度學(xué)習(xí)色情圖片檢測模型open_nsfw,這里的NSFW代表Not Suitable for Work,該項目基于caffe框架。由于我主要研究的是Tensorflow,所以在網(wǎng)上找到該模型的Tensorflow實現(xiàn)版本,fork了一份,并添加了TensorRT框架的處理腳本,你可以使用如下命令獲得相關(guān)代碼:
git clone https://github.com/mogoweb/tensorflow-open_nsfw.git
在 model.py 中,我們可以看到open_nsfw的模型定義,data/open_nsfw-weights.npy 是采用工具從yahoo open_nsfw的cafee權(quán)重轉(zhuǎn)換得到的Tensorflow權(quán)重,這樣我們無需訓(xùn)練模型,直接用于推理過程。classify_nsfw.py 腳本可用于單張圖片的推理:
python classify_nsfw.py -m data/open_nsfw-weights.npy test.jpg
注意:腳本提供了兩種解碼圖片文件的方式,一種是采用PIL.image、skimage進行圖片處理,也就是所謂的yahoo_image_loader,一種是采用tensorflow中的圖片處理函數(shù)進行處理。因為原始的open_nsfw模型是采用PIL.image、skimage進行預(yù)處理而訓(xùn)練的,而不同的庫解碼出來的結(jié)果存在細微的差異,會影響最終結(jié)果,一般優(yōu)選選擇yahoo_image_loader。當(dāng)然,如果你打算自己訓(xùn)練模型,那選擇哪種圖片處理庫都可以。
tools 目錄下有一些腳本,可以將模型導(dǎo)出為frozen graph、saved model以及tflite等格式,這樣我們可以方便的在服務(wù)器端部署,還可以應(yīng)用到手機端。
opt是我編寫的采用TensorRT框架加速的代碼,在下面我將詳細說明。
目前TensorRT作為Tensorflow的一部分得到Google官方支持,其包位于tensorflow.contrib.tensorrt,在代碼中加入:
import tensorflow.contrib.tensorrt as trt
就可以使用TensorRT,因為有Google的支持,導(dǎo)出到TensorRT也就相當(dāng)簡單:
trt_graph = trt.create_inference_graph(
input_graph_def=frozen_graph_def,
outputs=[output_node_name],
max_batch_size=1,
max_workspace_size_bytes=1 << 25,
precision_mode="FP16",
minimum_segment_size=50
)
graph_io.write_graph(trt_graph, export_base_path, "trt_" + graph_name, as_text=False)
其中:
input_graph_def 為需要導(dǎo)出的Tensorflow模型圖定義
outputs 為輸出節(jié)點名稱
max_batch_size 為最大的batch size限制,因為GPU存在顯存限制,需要根據(jù)GPU memory大小決定,一般情況可以給8或者16
precision_mode 為模型精度,有FP32、FP16和INT8可選,精度越高,推理速度越慢,也要依GPU而定。
graph_io.write_graph 將圖寫入到文件,在后續(xù)的代碼中可以加載之。
完整的代碼請參考 opt/export_trt.py 文件。
因為一些政策法規(guī)的限制,并沒有公開數(shù)據(jù)集可提供下載,不過在github上有一些開源項目,提供腳本,從網(wǎng)絡(luò)上進行下載。我使用的是 github.com/alexkimxyz/… 這個開源項目中的腳本。這個項目提供drawings、hentai、neutral、porn、sexy四種類別圖片,可以劃分為訓(xùn)練集和測試集,并檢查圖片是否有效(因為從網(wǎng)絡(luò)爬取,有些鏈接不一定能訪問到)。
注意這個圖片下載量非常大,需要注意別把硬盤撐滿。雖然這個數(shù)據(jù)量夠大(幾萬張),可以自行進行模型訓(xùn)練,但和yahoo訓(xùn)練open_nsfw模型的圖片量相比,還是小巫見大巫,據(jù)說yahoo訓(xùn)練這個模型用了幾百萬張的圖片。
在opt目錄下,我針對兩種模型的加載和推理添加了兩個腳本,分別是 benchmark_classify_nsfw.py 和 benchmark_classify_trt.py,細心的同學(xué)可能會發(fā)現(xiàn),這兩個腳本幾乎一模一樣,是的,除了 benchmark_classify_trt.py 多了一行代碼:
import tensorflow.contrib.tensorrt as trt
加入這行import語句,告訴tensorflow使用TensorRT框架,否則的話,會出現(xiàn)如下錯誤:
tensorflow.python.framework.errors_impl.NotFoundError: Op type not registered "TRTEngineOp" in binary running on alex-550-279cn. Make sure the Op and Kernel are registered in the binary running in this process. Note that if you are loading a saved graph which used ops from tf.contrib, accessing (e.g.) `tf.contrib.resampler` should be done before importing the graph, as contrib ops are lazily registered when the module is first accessed.
取2000張測試圖片進行測試,在我的GTX 960上,推理速度如下:
未優(yōu)化模型: 53 s 使用TensorRT優(yōu)化模型: 54 s
如果你下載更大的數(shù)據(jù)集,可以多測試一些圖片,看看優(yōu)化效果。
在Google Colab上,我放了一份Jupter Notebook,有興趣的同學(xué)可以借助Google Colab嘗試一下,文件地址:colab.research.google.com/drive/1vH-G… ,當(dāng)然你也可以訪問我github上完整的腳本及Notebook:
github.com/mogoweb/ten…
點擊閱讀原文,可以跳轉(zhuǎn)到該項目。
題外話:
微信公眾號流量主的門檻已經(jīng)大大降低,我在公眾號文章底部開通了廣告,希望沒有影響大家的閱讀體驗。我一直很好奇,這種廣告會有人點擊么,過一段也許我會得到答案。
你還可以讀:
利用人工智能檢測色情圖片
谷歌GPU云計算平臺,免費又好用
Google Colab上安裝TensorRT
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/7315.html
摘要:阿里巴巴集團安全部今年在直播管控中的特色在于大量采用人工智能和深度學(xué)習(xí)等技術(shù),配合優(yōu)化后的高性能多媒體計算集群,大幅度降低人工審核成本的同時,提升了對內(nèi)容風(fēng)險的防控能力。 阿里巴巴直播內(nèi)容風(fēng)險防控中的AI力量 直播作為近來新興的互動形態(tài)和今年阿里巴巴雙十一的一大亮點,其內(nèi)容風(fēng)險監(jiān)控是一個全新的課題,技術(shù)的挑戰(zhàn)非常大,管控難點主要包括業(yè)界缺乏成熟方案和標準、主播行為、直播內(nèi)容不可控、峰值...
閱讀 3749·2021-11-24 09:39
閱讀 3494·2019-08-30 15:56
閱讀 1383·2019-08-30 15:55
閱讀 1045·2019-08-30 15:53
閱讀 1936·2019-08-29 18:37
閱讀 3615·2019-08-29 18:32
閱讀 3144·2019-08-29 16:30
閱讀 2953·2019-08-29 15:14