TensorFlow的多平臺基準測試

jk_v1 發(fā)布于2019-04-25 18:23 / 1478人閱讀

摘要：我們認為，在基準測試平臺中，包含真實數(shù)據(jù)的測量非常重要。其他結(jié)果訓練合成數(shù)據(jù)訓練真實數(shù)據(jù)詳情環(huán)境下表列出了用于測試的批量大小和優(yōu)化器。在給定平臺上，以缺省狀態(tài)運行。

圖像分類模型的結(jié)果

InceptionV3[2]、ResNet-50[3]、ResNet-152[4]、VGG16[5] 和 AlexNet[6] 使用 ImageNet[7] 數(shù)據(jù)集進行測試。測試環(huán)境為 Google Compute Engine、Elastic Compute Cloud (Amazon EC2) 和 NVIDIA? DGX-1?。大部分測試使用了合成數(shù)據(jù)和真實數(shù)據(jù)。使用合成數(shù)據(jù)進行測試是通過一個 tf.Variable 完成的，它被設(shè)置為與 ImageNet 的每個模型預期的數(shù)據(jù)相同的形狀。我們認為，在基準測試平臺中，包含真實數(shù)據(jù)的測量非常重要。這個負載測試底層硬件和框架，用來準備實際訓練的數(shù)據(jù)。我們從合成數(shù)據(jù)開始，將磁盤 I/O 作為一個變量移除，并設(shè)置一個基線。然后，用真實數(shù)據(jù)來驗證 TensorFlow 輸入管道和底層磁盤 I/O 是否飽和的計算單元。

使用 NVIDIA? DGX-1? (NVIDIA? Tesla? P100) 進行訓練

詳情和額外的結(jié)果請參閱“NVIDIA? DGX-1? (NVIDIA? Tesla? P100)”一節(jié)。

使用 NVIDIA? Tesla? K80 進行訓練

詳情和額外的結(jié)果請參閱“Google Compute Engine (NVIDIA? Tesla? K80)”一節(jié)和“Amazon EC2 (NVIDIA? Tesla? K80)”一節(jié)。

使用 NVIDIA? Tesla? K80 進行分布式訓練

詳情和額外的結(jié)果請參閱“Amazon EC2 Distributed (NVIDIA? Tesla? K80)”一節(jié)。

使用合成數(shù)據(jù)和真實數(shù)據(jù)進行訓練的比較

NVIDIA? Tesla? P100

NVIDIA? Tesla? K80

NVIDIA? DGX-1? (NVIDIA? Tesla? P100) 詳情

環(huán)境

Instance type: NVIDIA? DGX-1?

GPU: 8x NVIDIA? Tesla? P100

OS: Ubuntu 16.04 LTS with tests run via Docker

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: Local SSD

DataSet: ImageNet

Test Date: May 2017

每個模型所使用的批量大小及優(yōu)化器，如下表所示。除下表所列的批量大小外，InceptionV3、ResNet-50、ResNet-152 和 VGG16 使用批量大小為 32 進行測試。這些結(jié)果在“其他結(jié)果”一節(jié)中。

用于每個模型的配置如下表：

結(jié)果

訓練合成數(shù)據(jù)

訓練真實數(shù)據(jù)

在上述圖標和表格中，排除了在 8 個 GPU 上使用真實數(shù)據(jù)訓練的 AlexNet，因為它將輸入管線較大化了。

其他結(jié)果

下面的結(jié)果，都是批量大小為 32。

訓練合成數(shù)據(jù)

訓練真實數(shù)據(jù)

Google Compute Engine (NVIDIA? Tesla? K80) 詳情

環(huán)境

Instance type: n1-standard-32-k80x8

GPU: 8x NVIDIA? Tesla? K80

OS: Ubuntu 16.04 LTS

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: 1.7 TB Shared SSD persistent disk (800 MB/s)

DataSet: ImageNet

Test Date: May 2017

如下表所示，列出了每種模型使用的批量大小及優(yōu)化器。除去表中所列的批量之外，Inception V3 和 ResNet-50 的批量大小為 32。這些結(jié)果在“其他結(jié)果”一節(jié)。

用于每個模型的配置的variable_update、 parameter_server、local_parameter_device 和 cpu，它們是相等的。

結(jié)果

訓練合成數(shù)據(jù)

訓練真實數(shù)據(jù)

其他結(jié)果

訓練合成數(shù)據(jù)

訓練真實數(shù)據(jù)

Amazon EC2 (NVIDIA? Tesla? K80) 詳情

環(huán)境

Instance type: p2.8xlarge

GPU: 8x NVIDIA? Tesla? K80

OS: Ubuntu 16.04 LTS

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: 1TB Amazon EFS (burst 100 MiB/sec for 12 hours, continuous 50 MiB/sec)

DataSet: ImageNet

Test Date: May 2017

下標列出了每種模型所使用的批量大小和優(yōu)化器。除去表中所列的批量大小外，InceptionV3 和 ResNet-50 的批量大小為 32。這些結(jié)果都在“其他結(jié)果”一節(jié)中。

用于每個模型的配置。

結(jié)果

訓練合成數(shù)據(jù)

訓練真實數(shù)據(jù)

由于我們的 EFS 設(shè)置未能提供足夠的吞吐量，因此在上述圖標和表格中，排除了在 8 個 GPU 上使用真實數(shù)據(jù)來訓練 AlexNet。

其他結(jié)果

訓練合成數(shù)據(jù)

訓練真實數(shù)據(jù)

Amazon EC2 Distributed (NVIDIA? Tesla? K80) 詳情

環(huán)境

Instance type: p2.8xlarge

GPU: 8x NVIDIA? Tesla? K80

OS: Ubuntu 16.04 LTS

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: 1.0 TB EFS (burst 100 MB/sec for 12 hours, continuous 50 MB/sec)

DataSet: ImageNet

Test Date: May 2017

下表列出了用于測試的批量大小和優(yōu)化器。除去表中所列的批量大小之外，InceptionV3 和 ResNet-50 的批量大小為 32。這些結(jié)果包含在“其他結(jié)果”一節(jié)。

用于每個模型的配置。

為簡化服務(wù)器設(shè)置，運行工作服務(wù)器的 EC2 實例（p2.8xlarge）也運行著參數(shù)服務(wù)器。使用相同數(shù)量的參數(shù)服務(wù)器和工作服務(wù)器，不同之處在于：

InceptionV3: 8 instances / 6 parameter servers

ResNet-50: (batch size 32) 8 instances / 4 parameter servers

ResNet-152: 8 instances / 4 parameter servers

結(jié)果

訓練合成數(shù)據(jù)

其他結(jié)果

訓練合成數(shù)據(jù)

方法

這個腳本 [8] 運行在不同的平臺上，產(chǎn)生上述結(jié)果。高性能模型 [9] 詳細介紹了腳本中的技巧及如何執(zhí)行腳本的示例。

為了盡可能達到重復的結(jié)果，每個測試運行五次，然后平均一下時間。GPU 在給定平臺上，以缺省狀態(tài)運行。對于 NVIDIA?Tesla?K80，這意味著要離開 GPU Boost[10]。每次測試，都要完成 10 個預熱步驟，然后對接下來的 100 個步驟進行平均。

參考鏈接：

[1] Benchmarks:

https://www.tensorflow.org/performance/benchmarks

[2] Rethinking the Inception Architecture for Computer Vision:

https://arxiv.org/abs/1512.00567

[3] Deep Residual Learning for Image Recognition:

https://arxiv.org/abs/1512.03385

[4] Deep Residual Learning for Image Recognition:

https://arxiv.org/abs/1512.03385

[5] Very Deep Convolutional Networks for Large-Scale Image Recognition:

https://arxiv.org/abs/1409.1556

[6] ImageNet Classification with Deep Convolutional Neural Networks:

http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

[7] ImageNet:

http://www.image-net.org/

[8] tf_cnn_benchmarks: High performance benchmarks:

https://github.com/tensorflow/benchmarks/tree/master/scripts/tf_cnn_benchmarks

[9] High-Performance Models:

https://www.tensorflow.org/performance/benchmarks

[10] Increase Performance with GPU Boost and K80 Autoboost:

https://devblogs.nvidia.com/parallelforall/increase-performance-gpu-boost-k80-autoboost/

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器基準測試 linux 基準測試 tensorflow測試 jsp基準路徑

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/4707.html

發(fā)表評論

登陸后可評論

0條評論

jk_v1

男|高級講師

我要關(guān)注我要私信

TA的文章

騰訊云輕量應(yīng)用服務(wù)器和云服務(wù)器哪個好（雙11促銷3年低至144元）

閱讀 1915·2021-11-09 09:46
CSS繪制各種圖形的方法

閱讀 2492·2019-08-30 15:52
echarts花樣作死的坑

閱讀 2455·2019-08-30 15:47
web前端對文件的引用規(guī)則

閱讀 1325·2019-08-29 17:11
JS對象之封裝（二）

閱讀 1750·2019-08-29 15:24
es6常用數(shù)組操作及技巧匯總

閱讀 3508·2019-08-29 14:02
網(wǎng)頁設(shè)計中分欄布局的幾種實現(xiàn)方案

閱讀 2449·2019-08-29 13:27
Angular2入門系列（五）———— 路由參數(shù)設(shè)置

閱讀 1209·2019-08-29 12:32

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

TensorFlow的多平臺基準測試

相關(guān)文章

**基準評測TensorFlow、Caffe等在三類流行深度神經(jīng)網(wǎng)絡(luò)上的表現(xiàn)**

深度學習三大硬件+四大學習庫基準測試對比，指標全面呈現(xiàn)

MATLAB更新R2017b：轉(zhuǎn)換CUDA代碼極大提升推斷速度

GPU訓練機器學習模型哪家強？AWS、谷歌云、IBM等6大平臺對比

Keras vs PyTorch：誰是「第一」深度學習框架？

發(fā)表評論

0條評論

jk_v1

男|高級講師

TA的文章

騰訊云輕量應(yīng)用服務(wù)器和云服務(wù)器哪個好（雙11促銷3年低至144元）

CSS繪制各種圖形的方法

echarts花樣作死的坑

web前端對文件的引用規(guī)則

JS對象之封裝（二）

es6常用數(shù)組操作及技巧匯總

網(wǎng)頁設(shè)計中分欄布局的幾種實現(xiàn)方案

Angular2入門系列（五）———— 路由參數(shù)設(shè)置

最新活動