摘要:為了進(jìn)一步了解的邏輯,圖對和進(jìn)行了展開分析。另外,在命名空間中還隱式聲明了控制依賴操作,這在章節(jié)控制流中相關(guān)說明。簡述是高效易用的開源庫,有效支持線性代數(shù),矩陣和矢量運(yùn)算,數(shù)值分析及其相關(guān)的算法。返回其中一塊給用戶,并將該內(nèi)存塊標(biāo)識為占用。
3. TF 代碼分析初步
3.1 TF總體概述
為了對TF有整體描述,本章節(jié)將選取TF白皮書[1]中的示例展開說明,如圖 3 1所示是一個簡單線性模型的TF正向計(jì)算圖和反向計(jì)算圖。圖中x是輸入,W是參數(shù)權(quán)值,b是偏差值,MatMul和Add是計(jì)算操作,dMatMul和dAdd是梯度計(jì)算操作,C是正向計(jì)算的目標(biāo)函數(shù),1是反向計(jì)算的初始值,dC/dW和dC/dx是模型參數(shù)的梯度函數(shù)。
圖 3 1 tensorflow計(jì)算流圖示例
以圖 3 1為例實(shí)現(xiàn)的TF代碼見圖 3 2。首先聲明參數(shù)變量W、b和輸入變量x,構(gòu)建線性模型y=W*x+b,目標(biāo)函數(shù)loss采用誤差平方和最小化方法,優(yōu)化函數(shù)optimizer采用隨機(jī)梯度下降方法。然后初始化全局參數(shù)變量,利用session與master交互實(shí)現(xiàn)圖計(jì)算。
圖 3 2 TF線性模型示例的實(shí)現(xiàn)代碼
圖 3 2中summary可以記錄graph元信息和tensor數(shù)據(jù)信息,再利用tensorboard分析模型結(jié)構(gòu)和訓(xùn)練參數(shù)。
圖 3 3是上述代碼在Tensorboard中記錄下的Tensor跟蹤圖。Tensorboard可以顯示scaler和histogram兩種形式。跟蹤變量走勢可更方便的分析模型和調(diào)整參數(shù)。
圖 3 3 Tensorboard顯示的TF線性模型參數(shù)跟蹤
圖 3 4是圖 3 1示例在Tensorboard中顯示的graph圖。左側(cè)子圖描述的正向計(jì)算圖和反向計(jì)算圖,正向計(jì)算的輸出被用于反向計(jì)算的輸入,其中MatMul對應(yīng)MatMul_grad,Add對應(yīng)Add_grad等。右上側(cè)子圖指明了目標(biāo)函數(shù)最小化訓(xùn)練過程中要更新的模型參數(shù)W、b,右下側(cè)子圖是參數(shù)節(jié)點(diǎn)W、b展開后的結(jié)果。
圖 3 4 Tensorboard顯示的TF線性模型graph
圖 3 4中,參數(shù)W是命名空間(Namespace)類型,展開后的W主要由Assign和Read兩個OpNode組成,分別負(fù)責(zé)W的賦值和讀取任務(wù)。
命名空間gradients是隱含的反向計(jì)算圖,定義了反向計(jì)算的計(jì)算邏輯。從圖 3 1可以看出,更新參數(shù)W需要先計(jì)算dMatMul,即圖 3 4中的MatMul_grad操作,而Update_W節(jié)點(diǎn)負(fù)責(zé)更新W操作。為了進(jìn)一步了解UpdateW的邏輯,圖 3 5對MatMul_grad和update_W進(jìn)行了展開分析。
圖 3 5 MatMul_grad計(jì)算邏輯
圖 3 5中,子圖(a)描述了MatMul_grad計(jì)算邏輯,子圖(b)描述了MatMul_grad輸入輸出,子圖(c)描述了update_W的計(jì)算邏輯。首先明確MatMul矩陣運(yùn)算法則,假設(shè) z=MatMul(x, y),則有dx = MatMul(dz, y),dy = MatMul(x, dz),由此可以推出dW=MatMul(dAdd, x)。在子圖(a)中左下側(cè)的節(jié)點(diǎn)b就是輸入節(jié)點(diǎn)x,dAdd由Add_grad計(jì)算輸出。update_W的計(jì)算邏輯由最優(yōu)化函數(shù)指定,而其中的minimize/update_W/ApplyGradientDescent變量決定,即子圖(b)中的輸出變量Outputs。
另外,在MatMul_grad/tuple命名空間中還隱式聲明了control dependencies控制依賴操作,這在章節(jié)2.4控制流中相關(guān)說明。
3.2 Eigen介紹
在Tensoflow中核心數(shù)據(jù)結(jié)構(gòu)和運(yùn)算主要依賴于Eigen和Stream Executor庫,其中Eigen支持CPU和GPU加速計(jì)算,Stream Executor主要用于GPU環(huán)境加速計(jì)算。下面簡單講述Eigen庫的相關(guān)特性,有助于進(jìn)一步理解Tensorflow。
3.2.1 Eigen簡述
Eigen是高效易用的C++開源庫,有效支持線性代數(shù),矩陣和矢量運(yùn)算,數(shù)值分析及其相關(guān)的算法。不依賴于任何其他依賴包,安裝使用都很簡便[8]。具有如下特性:
? ?支持整數(shù)、浮點(diǎn)數(shù)、復(fù)數(shù),使用模板編程,可以為特殊的數(shù)據(jù)結(jié)構(gòu)提供矩陣操作。比如在用ceres-solver進(jìn)行做優(yōu)化問題(比如bundle adjustment)的時候,有時候需要用模板編程寫一個目標(biāo)函數(shù),ceres可以將模板自動替換為內(nèi)部的一個可以自動求微分的特殊的double類型。而如果要在這個模板函數(shù)中進(jìn)行矩陣計(jì)算,使用Eigen就會非常方便。
? ?支持逐元素、分塊、和整體的矩陣操作。
? ?內(nèi)含大量矩陣分解算法包括LU,LDLt,QR、SVD等等。
? ?支持使用Intel MKL加速
? ?部分功能支持多線程
? ?稀疏矩陣支持良好,到今年新出的Eigen3.2,已經(jīng)自帶了SparseLU、SparseQR、共軛梯度(ConjugateGradient solver)、bi conjugate gradient stabilized solver等解稀疏矩陣的功能。同時提供SPQR、UmfPack等外部稀疏矩陣庫的接口。
? ?支持常用幾何運(yùn)算,包括旋轉(zhuǎn)矩陣、四元數(shù)、矩陣變換、AngleAxis(歐拉角與Rodrigues變換)等等。
? ?更新活躍,用戶眾多(Google、WilliowGarage也在用),使用Eigen的比較著名的開源項(xiàng)目有ROS(機(jī)器人操作系統(tǒng))、PCL(點(diǎn)云處理庫)、Google Ceres(優(yōu)化算法)。OpenCV自帶到Eigen的接口。
Eigen庫包含 Eigen模塊和unsupported模塊,其中Eigen模塊為official module,unsupported模塊為開源貢獻(xiàn)者開發(fā)的。
Eigen unsupported 模塊中定義了數(shù)據(jù)類型Tensor及相關(guān)函數(shù),包括Tensor的存儲格式,Tensor的符號表示,Tensor的編譯加速,Tensor的一元運(yùn)算、二元運(yùn)算、高維度泛化矩陣運(yùn)算,Tensor的表達(dá)式計(jì)算。本章后續(xù)所述Tensor均為Eigen::Tensor
Eigen運(yùn)算性能評估如圖 3 6所示[9],eigen3的整體性能比eigen2有很大提升,與GOTO2、INTEL_MKL基本持平。
圖 3 6矩陣運(yùn)算常用庫比較
3.2.2 Eigen 存儲順序
Eigen中的Tensor支持兩種存儲方式:
? ?Row-major表示矩陣存儲時按照row-by-row的方式。
? ?Col-major表示矩陣存儲時按照column-by-column的方式。
Eigen默認(rèn)采用Col-major格式存儲的(雖然也支持Row-major,但不推薦),具體采用什么存儲方式取決于算法本身是行遍歷還是列遍歷為主。例如:A=[[a11, a12, a13], [a21, a22, a23]]的存儲序列見圖 3 7。
圖 3 7 Row-major和Column-major存儲順序
3.2.3 Eigen 惰性求值
在編程語言理論中,存在及早求值(Eager Evaluation) 和惰性求值(Lazy Evaluation)
? ?及早求值:大多數(shù)編程語言所擁有的普通計(jì)算方式
? ?惰性求值:也認(rèn)為是“延遲求值”,可以提高計(jì)算性能,最重要的好處是它可以構(gòu)造一個無限的數(shù)據(jù)類型。
關(guān)于惰性求值,舉例如下:
Vec3 = vec1 + vec2;
及早求值形式需要臨時變量vec_temp存儲運(yùn)算結(jié)果,再賦值給vec3,計(jì)算效率和空間效率都不高:
Vec_temp = vec1 + vec2;
Vec3 = vec_temp
而惰性求值不需要臨時變量保存中間結(jié)果,提高了計(jì)算性能:
Vec_symbol_3 = (vec_symbol_1 + vec_symbol_2);
Vec3 = vec_symbol_3.eval(vec1, vec2)
由于Eigen默認(rèn)采用惰性計(jì)算,如果要求表達(dá)式的值可以使用Tensor::eval()函數(shù)。Tensor::eval()函數(shù)也是session.run()的底層運(yùn)算。例如:
Tensor
3.2.4 Eigen 編譯加速
編譯加速可以充分發(fā)揮計(jì)算機(jī)的并行計(jì)算能力,提高程序運(yùn)行速度。
舉例如下:
普通的循環(huán)相加運(yùn)算時間復(fù)雜度是O(n):
如果指令集支持128bit并行計(jì)算,則時間復(fù)雜度可縮短為O(n/4):
Eigen編譯時使用了SSE2加速。假設(shè)處理float32類型,指令集支持128bit并行計(jì)算,則一次可以計(jì)算4個float32類型,速度提升4倍。
3.2.5 Eigen::half
Tensorflow支持的浮點(diǎn)數(shù)類型有float16, float32, float64,其中float16本質(zhì)上是Eigen::half類型,即半精度浮點(diǎn)數(shù)[10]。關(guān)于半精度浮點(diǎn)數(shù),英偉達(dá)2002年首次提出使用半精度浮點(diǎn)數(shù)達(dá)到降低數(shù)據(jù)傳輸和存儲成本的目的。
在分布式計(jì)算中,如果對數(shù)據(jù)精度要求不那么高,可以將傳輸數(shù)據(jù)轉(zhuǎn)換為float16類型,這樣可以大大縮短設(shè)備間的數(shù)據(jù)傳輸時間。在GPU運(yùn)算中,float16還可以減少一般的內(nèi)存占用。
在Tensorflow的分布式傳輸中,默認(rèn)會將float32轉(zhuǎn)換為float16類型。Tensorflow的轉(zhuǎn)換方式不同于nvidia的標(biāo)準(zhǔn),采用直接截?cái)辔矓?shù)的方式轉(zhuǎn)化為半精度浮點(diǎn)數(shù),以減少轉(zhuǎn)換時間。
圖 3 8是雙精度浮點(diǎn)數(shù)(float64)存儲格式。
圖 3 8 雙精度浮點(diǎn)數(shù)
圖 3 9是單精度浮點(diǎn)數(shù)(float32)存儲格式。
圖 3 9 單精度浮點(diǎn)數(shù)
圖 3 10是半精度浮點(diǎn)數(shù)(float16)存儲格式。
圖 3 10 半精度浮點(diǎn)數(shù)
浮點(diǎn)數(shù)存儲格式分成3部分,符號位,指數(shù)和尾數(shù)。不同精度是指數(shù)位和尾數(shù)位的長度不一樣。
3.3 設(shè)備內(nèi)存管理
TF設(shè)備內(nèi)存管理模塊利用BFC算法(best-fit with coalescing)實(shí)現(xiàn)。BFC算法是Doung Lea’s malloc(dlmalloc)的一個非常簡單的版本。它具有內(nèi)存分配、釋放、碎片管理等基本功能[11]。
BFC將內(nèi)存分成一系列內(nèi)存塊,每個內(nèi)存塊由一個chunk數(shù)據(jù)結(jié)構(gòu)管理。從chunk結(jié)構(gòu)中可以獲取到內(nèi)存塊的使用狀態(tài)、大小、數(shù)據(jù)的基址、前驅(qū)和后繼chunk等信息。整個內(nèi)存可以通過一個chunk的雙鏈表結(jié)構(gòu)來表示。
圖 3 11內(nèi)存分塊結(jié)構(gòu)圖
用戶申請一個內(nèi)存塊(malloc)。根據(jù)建立的chunk雙鏈表找到一個合適的內(nèi)存塊(后面會說明什么是合適的內(nèi)存塊),如果該內(nèi)存塊的大小是用戶申請大小的兩倍以上,那么將該內(nèi)存塊切分成兩塊,這就是split操作。返回其中一塊給用戶,并將該內(nèi)存塊標(biāo)識為占用。Spilt操作會新增一個chunk,所以需要修改chunk雙鏈表以維持前驅(qū)和后繼關(guān)系。
用戶釋放一個內(nèi)存塊(free)。先將該塊標(biāo)記為空閑。然后根據(jù)chunk數(shù)據(jù)結(jié)構(gòu)中的信息找到其前驅(qū)和后繼內(nèi)存塊。如果前驅(qū)和后繼塊中有空閑的塊,那么將剛釋放的塊和空閑的塊合并成一個更大的chunk(這就是merge操作,合并當(dāng)前塊和其前后的空閑塊)。再修改雙鏈表結(jié)構(gòu)以維持前驅(qū)后繼關(guān)系。這就做到了內(nèi)存碎片的回收。
BFC的核心思想是:將內(nèi)存分塊管理,按塊進(jìn)行空間分配和釋放;通過split操作將大內(nèi)存塊分解成小內(nèi)存塊;通過merge操作合并小的內(nèi)存塊,做到內(nèi)存碎片回收。
但是還留下許多疑問。比如說申請內(nèi)存空間時,什么樣的塊算合適的內(nèi)存塊?如何快速管理這種塊?
BFC算法采取的是被動分塊的策略。最開始整個內(nèi)存是一個chunk,隨著用戶申請空間的次數(shù)增加,最開始的大chunk會被不斷的split開來,從而產(chǎn)生越來越多的小chunk。當(dāng)chunk數(shù)量很大時,為了尋找一個合適的內(nèi)存塊而遍歷雙鏈表無疑是一筆巨大的開銷。為了實(shí)現(xiàn)對空閑塊的高效管理,BFC算法設(shè)計(jì)了bin這個抽象數(shù)據(jù)結(jié)構(gòu)。
Bin數(shù)據(jù)結(jié)構(gòu)中,每個bin都有一個size屬性,一個bin是一個擁有chunk size >= bin size的空閑chunk的集合。集合中的chunk按照chunk size的升序組織成單鏈表。BFC算法維護(hù)了一個bin的集合:bins。它由多個bin以及從屬于每個bin的chunks組成。內(nèi)存中所有的空閑chunk都由bins管理。
圖 3 12 bins集合的結(jié)構(gòu)圖
圖 3 12中每一列表示一個bin,列首方格中的數(shù)字表示bin的size。bin size的大小都是256的2^n的倍。每個bin下面掛載了一系列的空閑chunk,每個chunk的chunk size都大于等于所屬的bin的bin size,按照chunk size的升序掛載成單鏈表。BFC算法針對bins這個集合設(shè)計(jì)了三個操作:search、insert、delete。
Search 操作:給定一個chunk size,從bins中找到大于等于該chunk size的最小的那個空閑chunk。Search操作具體流程如下。如果bin以數(shù)組的形式組織,那么可以從index = chunk size /256 >>2的那個bin開始查找。較好的情況是開始查找的那個bin的chunk鏈表非空,那么直接返回鏈表頭即可。這種情況時間復(fù)雜度是常數(shù)級的。最壞的情況是遍歷bins數(shù)組中所有的bin。對于一般大小的內(nèi)存來說,bins數(shù)組元素非常少,比如4G空間只需要23個bin就足夠了(256 * 2 ^ 23 > 4G),因此也很快能返回結(jié)果??傮w來說search操作是非常高效的。對于固定大小內(nèi)存來說,查找時間是常數(shù)量級的。
Insert 操作:將一個空閑的chunk插入到一個bin所掛載的chunk鏈表中,同時需要維持chunk鏈表的升序關(guān)系。具體流程是直接將chunk插入到index = chunk size /256 >>2的那個bin中即可。
Delete操作:將一個空閑的chunk從bins中移除。
TF中內(nèi)存分配算法實(shí)現(xiàn)文件core/common_runtime/bfc_allocator.cc,GPU內(nèi)存分配算法實(shí)現(xiàn)文件core/common_runtime/gpu/gpu_bfc_allocator.cc。
3.4 TF開發(fā)工具介紹
TF系統(tǒng)開發(fā)使用了bazel工具實(shí)現(xiàn)工程代碼自動化管理,使用了protobuf實(shí)現(xiàn)了跨設(shè)備數(shù)據(jù)傳輸,使用了swig庫實(shí)現(xiàn)python接口封裝。本章將從這三方面介紹TF開發(fā)工具的使用。
3.4.1 Swig封裝
Tensorflow核心框架使用C++編寫,API接口文件定義在tensorflow/core/public目錄下,主要文件是tensor_c_api.h文件,C++語言直接調(diào)用這些頭文件即可。
Python通過Swig工具封裝TF庫包間接調(diào)用,接口定義文件tensorflow/python/ tensorflow.i。其中swig全稱為Simplified Wrapper and Interface Generator,是封裝C/C++并與其它各種高級編程語言進(jìn)行嵌入聯(lián)接的開發(fā)工具,對swig感興趣的請參考相關(guān)文檔。
在tensorflow.i文件中包含了若干個.i文件,每個文件是對應(yīng)模塊的封裝,其中tf_session.i文件中包含了tensor_c_api.h,實(shí)現(xiàn)client向session發(fā)送請求創(chuàng)建和運(yùn)行g(shù)raph的功能。
3.4.2 Bazel編譯和調(diào)試
Bazel是Google開源的自動化構(gòu)建工具,類似于Make和CMake工具。Bazel的目標(biāo)是構(gòu)建“快速并可靠的代碼”,并且能“隨著公司的成長持續(xù)調(diào)整其軟件開發(fā)實(shí)踐”。
TF中幾乎所有代碼編譯生成都是依賴Bazel完成的,了解Bazel有助于進(jìn)一步學(xué)習(xí)TF代碼,尤其是編譯測試用例進(jìn)行g(shù)db調(diào)試。
Bazel假定每個目錄為[package]單元,目錄里面包含了源文件和一個描述文件BUILD,描述文件中指定了如何將源文件轉(zhuǎn)換成構(gòu)建的輸出。
以圖 3 13為例,左子圖為工程中不同模塊間的依賴關(guān)系,右子圖是對應(yīng)模塊依賴關(guān)系的BUILD描述文件。
圖 3 13中name屬性來命名規(guī)則,srcs屬性為模塊相關(guān)源文件列表,deps屬性來描述規(guī)則之間的依賴關(guān)系?!?/search: google_search_page”中”search”是包名,”google_search_page”為規(guī)則名,其中冒號用來分隔包名和規(guī)則名;如果某條規(guī)則所依賴的規(guī)則在其他目錄下,就用"http://"開頭,如果在同一目錄下,可以忽略包名而用冒號開頭。
圖 3 13中cc_binary表示編譯目標(biāo)是生成可執(zhí)行文件,cc_library表示編譯目標(biāo)是生成庫文件。如果要生成google_search_page規(guī)則可運(yùn)行
如果要生成可調(diào)試的二進(jìn)制文件,可運(yùn)行
圖 3 13 Bazel BUILD文件示例
TF中首次運(yùn)行bazel時會自動下載很多依賴包,如果有的包下載失敗,打開tensorflow/workspace.bzl查看是哪個包下載失敗,更改對應(yīng)依賴包的new_http_archive中的url地址,也可以把new_http_archive設(shè)置為本地目錄new_local_repository。
TF中測試用例跟相應(yīng)代碼文件放在一起,如MatMul操作的core/kernels/matmul_op.cc文件對應(yīng)的測試用例文件為core/kernels/matmul_op_test.cc文件。運(yùn)行這個測試用例需要查找這個測試用例對應(yīng)的BUILD文件和對應(yīng)的命令規(guī)則,如matmul_op_test.cc文件對應(yīng)的BUILD文件為core/kernels/BUILD文件,如下
其中tf_cuda_cc_test函數(shù)是TF中自定義的編譯函數(shù),函數(shù)定義在/tensorflow/ tensorflow.bzl文件中,它會把matmul_op_test.cc放進(jìn)編譯文件中。要生成matmul_op_test可執(zhí)行文件可運(yùn)行如下腳本:
3.4.3 Protobuf序列化
Protocol Buffers 是一種輕便高效的結(jié)構(gòu)化數(shù)據(jù)存儲格式,可以用于結(jié)構(gòu)化數(shù)據(jù)串行化,或者說序列化。它很適合做數(shù)據(jù)存儲或 RPC 數(shù)據(jù)交換格式??捎糜谕ㄓ崊f(xié)議、數(shù)據(jù)存儲等領(lǐng)域的語言無關(guān)、平臺無關(guān)、可擴(kuò)展的序列化結(jié)構(gòu)數(shù)據(jù)格式。
Protobuf對象描述文件為.proto類型,編譯后生成.pb.h和.pb.cc文件。
Protobuf主要包含讀寫兩個函數(shù):Writer(序列化)函數(shù)SerializeToOstream() 和 ?Reader(反序列化)函數(shù) ParseFromIstream()。
Tensorflow在core/probobuf目錄中定義了若干與分布式環(huán)境相關(guān)的.proto文件,同時在core/framework目錄下定義了與基本數(shù)據(jù)類型和結(jié)構(gòu)的.proto文件,在core/util目錄中也定義部分.proto文件,感覺太隨意了。
在分布式環(huán)境中,不僅需要傳輸數(shù)據(jù)序列化,還需要數(shù)據(jù)傳輸協(xié)議。Protobuf在序列化處理后,由gRPC完成數(shù)據(jù)傳輸。gRPC數(shù)據(jù)傳輸架構(gòu)圖見圖 3 14。
圖 3 14 gRPC數(shù)據(jù)傳輸架構(gòu)
gRPC服務(wù)包含客戶端和服務(wù)端。gRPC客戶端調(diào)用stub 對象將請求用 protobuf 方式序列化成字節(jié)流,用于線上傳輸,到 server 端后調(diào)用真正的實(shí)現(xiàn)對象處理。gRPC的服務(wù)端通過observer觀察處理返回和關(guān)閉通道。
TF使用gRPC完成不同設(shè)備間的數(shù)據(jù)傳輸,比如超參數(shù)、梯度值、graph結(jié)構(gòu)。
作者簡介:
姚健,畢業(yè)于中科院計(jì)算所網(wǎng)絡(luò)數(shù)據(jù)實(shí)驗(yàn)室,畢業(yè)后就職于360天眼實(shí)驗(yàn)室,主要從事深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)相關(guān)研究工作。目前就職于騰訊MIG事業(yè)部,從事神經(jīng)機(jī)器翻譯工作。聯(lián)系方式: yao_62995@163.com
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4499.html
摘要:深度學(xué)習(xí)在過去的幾年里取得了許多驚人的成果,均與息息相關(guān)。機(jī)器學(xué)習(xí)進(jìn)階筆記之一安裝與入門是基于進(jìn)行研發(fā)的第二代人工智能學(xué)習(xí)系統(tǒng),被廣泛用于語音識別或圖像識別等多項(xiàng)機(jī)器深度學(xué)習(xí)領(lǐng)域。零基礎(chǔ)入門深度學(xué)習(xí)長短時記憶網(wǎng)絡(luò)。 多圖|入門必看:萬字長文帶你輕松了解LSTM全貌 作者 | Edwin Chen編譯 | AI100第一次接觸長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)時,我驚呆了。原來,LSTM是神...
閱讀 1105·2021-10-12 10:11
閱讀 887·2019-08-30 15:53
閱讀 2302·2019-08-30 14:15
閱讀 2974·2019-08-30 14:09
閱讀 1210·2019-08-29 17:24
閱讀 985·2019-08-26 18:27
閱讀 1292·2019-08-26 11:57
閱讀 2168·2019-08-23 18:23