摘要:需要對(duì)個(gè)人的日語(yǔ)元音的發(fā)音分析,然后根據(jù)分析確定名發(fā)音者。九個(gè)發(fā)音者發(fā)出兩個(gè)日本元音先后。其中每塊數(shù)據(jù)中包含的行數(shù)為到不等,每行代表著發(fā)音者的一個(gè)時(shí)間幀。
業(yè)務(wù)理解(Business Understanding)
該業(yè)務(wù)是分類(lèi)問(wèn)題。需要對(duì)9個(gè)人的日語(yǔ)元音ae的發(fā)音分析,然后根據(jù)分析確定9名發(fā)音者。ae.train文件是訓(xùn)練數(shù)據(jù)集,ae.test文件是用來(lái)測(cè)試訓(xùn)練效果的,size_ae.test記錄了每個(gè)發(fā)音者對(duì)應(yīng)的ae.test數(shù)據(jù)文件中包含數(shù)據(jù)的對(duì)應(yīng)塊,同理size_ae.train記錄了實(shí)際結(jié)果每個(gè)塊對(duì)應(yīng)的發(fā)音者。
數(shù)據(jù)理解(Data Understanding):
(1) 概述:數(shù)據(jù)是驗(yàn)證多維時(shí)間序列曲線分類(lèi)的。九個(gè)發(fā)音者發(fā)出兩個(gè)日本元音/ae/先后。對(duì)于每個(gè)發(fā)音分析參數(shù),采用12度線性預(yù)測(cè)分析,以它來(lái)取得的LPC倒譜系數(shù)(LPCC)12離散時(shí)間序列。這意味著,一個(gè)接一個(gè)發(fā)音者話語(yǔ)形成一個(gè)時(shí)間序列,其長(zhǎng)度的范圍是7-29,每一個(gè)時(shí)間序列是12個(gè)特征值。
在時(shí)間序列數(shù)共分640塊。270塊用做訓(xùn)練,用370塊進(jìn)行測(cè)試。270塊對(duì)應(yīng)著ae.train文件,370塊數(shù)據(jù)對(duì)應(yīng)著ae.test文件。
(2)訓(xùn)練集數(shù)據(jù)理解:size_ae.train中的數(shù)據(jù)是30 30 30 30 30 30 30 30 30,表示9個(gè)發(fā)音者對(duì)應(yīng)的數(shù)據(jù)塊數(shù)(1-30塊對(duì)應(yīng)著第一個(gè)說(shuō)話者,31-60對(duì)應(yīng)第二個(gè)說(shuō)話者,以此類(lèi)推),這是 ae.train中的數(shù)據(jù)發(fā)音者對(duì)應(yīng)發(fā)音的情況;在ae.train中有270塊數(shù)據(jù),塊與塊之間有一個(gè)空行作為分割的標(biāo)志。其中每塊數(shù)據(jù)中包含的行數(shù)為7到29不等,每行代表著發(fā)音者的一個(gè)時(shí)間幀。每行包含了12屬性列,因?yàn)槭褂玫氖?2LPCC。
(3) 測(cè)試集數(shù)據(jù)有兩種方式理解:
在ae.test中有370塊數(shù)據(jù),塊與塊之間有一個(gè)空行作為分割的標(biāo)志。其中每塊數(shù)據(jù)中包含的行數(shù)為7到29不等,每行代表著發(fā)音者的一個(gè)時(shí)間幀。每行包含了12屬性列。
方式A:size_ae.test中的數(shù)據(jù)是31 35 88 44 29 24 40 50 29,表示9個(gè)發(fā)音者對(duì)應(yīng)的數(shù)據(jù)塊數(shù)(1-31對(duì)應(yīng)著第一個(gè)說(shuō)話者,以此類(lèi)推)。則樣本集是以分塊為單位,即對(duì)應(yīng)9個(gè)待估計(jì)樣本,預(yù)測(cè)這9個(gè)人對(duì)應(yīng)的發(fā)音者。
方式B:ae.test對(duì)應(yīng)的370塊對(duì)應(yīng)不同人的發(fā)音測(cè)試樣本,如此就需要對(duì)370個(gè)樣本判斷對(duì)應(yīng)的發(fā)音者(1-9類(lèi)發(fā)音者)。
預(yù)測(cè):我采用了B鐘方式的理解做的,由于B中方式的樣本太少,預(yù)測(cè)正確率一定比A低。(由于時(shí)間有限,沒(méi)有去實(shí)現(xiàn)A方式的的預(yù)測(cè),B正確率90.5%)
(4) 數(shù)據(jù)預(yù)處理:由于從ae.train和ae.test數(shù)據(jù)文件看,沒(méi)有缺失值,一共12維,每維數(shù)據(jù)范圍差距以及不同數(shù)據(jù)維差距都不大,所以不需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。暫且認(rèn)定數(shù)據(jù)質(zhì)量是完整的,沒(méi)有出錯(cuò)的。
數(shù)據(jù)準(zhǔn)備(Data Preparation)
(1)數(shù)據(jù)選擇:12維的數(shù)據(jù)都要選擇,都是重要屬性組成
(2)數(shù)據(jù)清潔:由觀察可忽略數(shù)據(jù)源可能在測(cè)試或人為記錄中的錯(cuò)誤,忽略噪音,沒(méi)有缺失值,不需要人為對(duì)缺失值處理等;
(3)數(shù)據(jù)創(chuàng)建:在原有數(shù)據(jù)的基礎(chǔ)上根據(jù)塊的劃分,將270塊按照size_ae.train文件要求以30一份劃分為9類(lèi),分別對(duì)應(yīng)9個(gè)人不同發(fā)音類(lèi),在12維數(shù)據(jù)之前加上tagClass作為類(lèi)的標(biāo)志(tagClass:1-9),建立13維;
(4)數(shù)據(jù)合并:沒(méi)有需要合并的數(shù)據(jù),在數(shù)據(jù)準(zhǔn)備階段,中間處理過(guò)程有需要合并的;
(5)數(shù)據(jù)格式化:由訓(xùn)練集文件得12維的數(shù)據(jù)格式都是數(shù)字類(lèi)型,double型,而且都是保留6位小數(shù),如果保留小數(shù)位不統(tǒng)一,則需要進(jìn)行處理,使數(shù)據(jù)格式一致,但文檔中數(shù)據(jù)格式已經(jīng)比較規(guī)范,而且不同數(shù)據(jù)維之間都是用空格間隔。
建立模型(Modeling)
(1) 模型設(shè)計(jì),設(shè)計(jì)方案:
A. 在訓(xùn)練集中,有270個(gè)塊,對(duì)于每一塊,取每列(維)的平均值作為該塊維度的一個(gè)評(píng)估,這樣可保證每個(gè)塊每維數(shù)據(jù)獨(dú)立于其他塊的維度數(shù)據(jù),以塊作為單位進(jìn)行數(shù)據(jù)處理。即把每一塊的數(shù)據(jù),相當(dāng)于一個(gè)(7-29)行12列的矩陣,轉(zhuǎn)化為一個(gè)12維的list或數(shù)組,轉(zhuǎn)化過(guò)程以每塊每維的平均值作為list值組成。
B. 由上一步可以得到一個(gè)270行12列的大矩陣(或者簡(jiǎn)單說(shuō)是270個(gè)list),然后對(duì)270個(gè)進(jìn)行類(lèi)劃分,根據(jù)size_ae.train文件要求以30一份劃分為9類(lèi),分別對(duì)應(yīng)9個(gè)人不同發(fā)音類(lèi),即對(duì)應(yīng)9人,每個(gè)人有一個(gè)矩陣30*12,添加一個(gè)屬性tagClass(1-9),標(biāo)志不同的類(lèi),即不同矩陣屬于對(duì)應(yīng)的類(lèi)(1-9);
C. 把測(cè)試樣本(以370個(gè)為單位),把每個(gè)樣本代入到以上9類(lèi)(9個(gè)矩陣)計(jì)算歐幾里德距離,取最小距離所在的類(lèi)為樣本歸屬類(lèi)。
模型評(píng)估(Evaluation)
(1)預(yù)測(cè)結(jié)果:運(yùn)行結(jié)果如下圖 ,包括文件讀取和生成之類(lèi)的,在最后一個(gè)main函數(shù)里面調(diào)用,用了1.407秒。
(2) 結(jié)果評(píng)估:由于選取了每個(gè)塊中的每維平均值做為該塊該維的平均值,在數(shù)值上沒(méi)問(wèn)題,但忽略了該維中時(shí)間序列(7-29)間的順序值特征,所以此問(wèn)題是導(dǎo)致算法估計(jì)沒(méi)有得到更高準(zhǔn)確率的原因。
(3)算法改進(jìn):
第一步: 對(duì)每個(gè)分塊,每一維分別建立時(shí)間序列(7-29)和對(duì)應(yīng)的具體值的線性回歸方程(y=kx+b),因?yàn)橹本€的斜率能反應(yīng)分塊時(shí)間序列變化對(duì)應(yīng)的具體值的變化趨勢(shì),同時(shí)加了b后整個(gè)值能反映某維值范圍。然后抽取整個(gè)塊的每維值(k,b),則每個(gè)塊能轉(zhuǎn)換為list,list里面有1行,24列的矩陣,Eg:(k1,b1,k2,b2,k3,b3,k4,b4……….k12,b12)
第二步:把測(cè)試集370個(gè)樣本也轉(zhuǎn)換為370個(gè)list,然后算歐幾里德距離。
例如:對(duì)應(yīng)測(cè)試集(k1’,b1’,…………………….k12’,b12’)
計(jì)算距離:Distance = Math.sqrt(Math.pow((k1-k1’),2)+ Math.pow((b1-b1’),2))+….. +Math.sqrt(Math.pow((k12-k12’),2)+ Math.pow((b12-b12’),2));
然后取距離最小所在的類(lèi)作為該測(cè)試集樣本類(lèi),這個(gè)估計(jì)算法概率可以達(dá)到95%及以上。
(2) 算法實(shí)現(xiàn):
A.項(xiàng)目框架
B.各類(lèi)函數(shù)及作用分析
(本人覺(jué)得沒(méi)有特別復(fù)雜的函數(shù)實(shí)現(xiàn),故沒(méi)復(fù)制代碼解釋 ,具體實(shí)現(xiàn)看項(xiàng)目代碼)
? ReadWriteTest.java: 讀取處理文件格式,把270塊->270“行”->9個(gè)矩陣(加上類(lèi)標(biāo),但獨(dú)立保存每個(gè)矩陣對(duì)應(yīng)的30行)
①writerTxt函數(shù):
input:內(nèi)容,路徑 (把內(nèi)容寫(xiě)到指定文件)
output:多個(gè)文件D://bigdata//test-270.txt,D://bigdata//train-9-30.txt,
②readTxt函數(shù):
對(duì)原數(shù)據(jù)進(jìn)行格式處理->1把270塊轉(zhuǎn)換為270行;2. 把270行分為9類(lèi),加上類(lèi)標(biāo)
intput:讀的路徑,flag 0,1分別對(duì)train,test做不同處理
output:多出2個(gè)txt文件 內(nèi)容,test-270.txt,train-9-30
? SampleClassify.java: 測(cè)試樣本,輸出預(yù)測(cè)值
①mapSpeakers變量:
存儲(chǔ)所有發(fā)音者類(lèi)對(duì)應(yīng)其行(每行是一個(gè)塊的轉(zhuǎn)換), key是發(fā)音者類(lèi),value是對(duì)應(yīng)30個(gè)行(用二維數(shù)組存儲(chǔ))
②getSpeakerMatrix函數(shù):初始化矩陣,3013
③readTxtTrain函數(shù):取train文件值,存儲(chǔ)到mapSpeakers中
④readTxtTest函數(shù):
讀取test中370個(gè)sample,每個(gè)sample進(jìn)行和9個(gè)類(lèi)的距離計(jì)算,然后存在數(shù)組中,然后比較得到最小的,最小所在類(lèi)即是該sample所屬類(lèi)(發(fā)音者)
⑤ getClassifyTag函數(shù):
返回距離最近的那個(gè)類(lèi)的標(biāo)號(hào):1-9之間 sample 是1-370塊中的樣本,是一個(gè)一維數(shù)組,長(zhǎng)度13,第一位表示下標(biāo)
? CheckoutCorrect.java: 驗(yàn)證正確率
①blockArr數(shù)組: 定義劃分塊,使方便能根據(jù)塊輸出samplId tagClass,
方便自己預(yù)測(cè)值于實(shí)際預(yù)測(cè)文件中值進(jìn)行比較
②outputCompareTest:ae.train的結(jié)果通過(guò)size_ae.train劃分,存儲(chǔ)到文件compare.txt中,格式:sampleId tagClass
③predictionCorrect:比較兩個(gè)文件內(nèi)容,輸出正確預(yù)測(cè)值的概率
具體代碼參考bitbucket地址:bitbucket 原代碼
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/64277.html
摘要:在草案中增加了對(duì)的支持主要作用在兩個(gè)非常重要的方面語(yǔ)音識(shí)別將所說(shuō)的轉(zhuǎn)換成文本文字語(yǔ)音合成將文本文字讀出來(lái)而在版本發(fā)布后宣布對(duì)該特性的支持今天重要介紹第二部分。是一款基于的跨平臺(tái)的發(fā)音支持類(lèi)庫(kù),支持超過(guò)種語(yǔ)言和種聲音,分為免費(fèi)版和商業(yè)版。 showImg(https://segmentfault.com/img/bVuZqk); 在w3c草案中增加了對(duì)Web Speech Api的支持;...
摘要:的人工智能版圖人工智能版圖由應(yīng)用平臺(tái)框架三大部分組成應(yīng)用層是提供各種應(yīng)用服務(wù),比如平臺(tái)層是平臺(tái)。應(yīng)用層主推三大成熟應(yīng)用基于深度學(xué)習(xí)的圖像和視頻分析它能實(shí)現(xiàn)對(duì)象與場(chǎng)景檢測(cè)人臉?lè)治雒娌勘容^人臉識(shí)別名人識(shí)別圖片調(diào)節(jié)等功能。 AWS的人工智能版圖AWS人工智能版圖由:應(yīng)用、平臺(tái)、框架三大部分組成AI應(yīng)用層:是提供各種...
摘要:的人工智能版圖人工智能版圖由應(yīng)用平臺(tái)框架三大部分組成應(yīng)用層是提供各種應(yīng)用服務(wù),比如平臺(tái)層是平臺(tái)。應(yīng)用層主推三大成熟應(yīng)用基于深度學(xué)習(xí)的圖像和視頻分析它能實(shí)現(xiàn)對(duì)象與場(chǎng)景檢測(cè)人臉?lè)治雒娌勘容^人臉識(shí)別名人識(shí)別圖片調(diào)節(jié)等功能。AWS的人工智能版圖 AWS人工智能版圖由:應(yīng)用、平臺(tái)、框架三大部分組成 AI應(yīng)用層:是提供各種應(yīng)用服務(wù),比如Amazon Rekognition、Polly...
摘要:技術(shù)之類(lèi)加載機(jī)制掘金類(lèi)加載機(jī)制是語(yǔ)言的一大亮點(diǎn),使得類(lèi)可以被動(dòng)態(tài)加載到虛擬機(jī)中。玩轉(zhuǎn)仿探探卡片式滑動(dòng)效果掘金講起本篇博客的歷史起源,估計(jì)有一段歷史了。 Java 技術(shù)之類(lèi)加載機(jī)制 - Android - 掘金類(lèi)加載機(jī)制是 Java 語(yǔ)言的一大亮點(diǎn),使得 Java 類(lèi)可以被動(dòng)態(tài)加載到 Java 虛擬機(jī)中。 這次我們拋開(kāi)術(shù)語(yǔ)和概念,從例子入手,由淺入深地講解 Java 的類(lèi)加載機(jī)制。 本文...
閱讀 1367·2019-08-30 15:55
閱讀 1654·2019-08-26 10:21
閱讀 3445·2019-08-23 18:28
閱讀 3382·2019-08-23 15:38
閱讀 750·2019-08-23 15:24
閱讀 2143·2019-08-23 13:59
閱讀 781·2019-08-23 11:31
閱讀 2874·2019-08-23 10:53