摘要:定類變量定類就是將給數據定義一個類別。它是比定類變量層次更高的變量,因此也具有定類變量的特質,即區分類別,。它除了包括定序變量的特性外,還能確切測量同一類別各個案高低大小次序之間的距離,因而具有加與減的數學特質。
在這個世界上有無限多的數據,而每種數據都有屬于自己的屬性。那么做數據挖掘數據分析的時候,要對雜亂無章數據由一定的敏感度,學會分析數據屬于哪一種類型也是一種技能。多留意身邊的一些數據,試試給他分個類型也是挺好玩的一件事。
如果從宏觀角度分析,數據類型分為定性和定量兩種。
</>復制代碼
定性:變量是品質特征,如性別分男和女,是一種特質;
定量:變量是數值,可以量化,如身高體重等。
定量又可以分為離散型和連續型,離散型一般為計數結果,如男朋友毀約的次數,連續型一般為測試結果,如女朋友身高體重的測量。
那么又是怎么去對這些數據類型進行度量,也就是對數據類型劃分一定的層次
</>復制代碼
一般可以將數據類型的度量分為四種:定類,定序,定距,和定比,這四種類型是從低到高的遞進關系,高級的類型可以用低級類型的分析方法來分析,而反過來卻不行,理解下面這些類型對于后面學習統計分析方法尤為重要。
1、定類變量
定類就是將給數據定義一個類別。這種數據類型將所研究的對象分類,也即只能決定研究對象是同類抑或不同類。例如把性別分成男女兩類;把動物分成哺乳類和爬行類等等。
</>復制代碼
注意!定類變量遵循兩個原則:
(1)類與類之間互斥,不存在即是男又是女的東西(人妖特例不算)
(2)每個對象都必須要有類別,就像每個動物都有自己的界門綱目科屬種
2、 定序變量
定序變量是將同一個類別下的對象分一個次序,即變量的值能把研究對象排列高低或大小,具有>與<的數學特質。它是比定類變量層次更高的變量,因此也具有定類變量的特質,即區分類別(=,≠)。
例如文化程度可以分為大學、高中、初中、小學、文盲;工廠規模可以分為大、中、?。荒挲g可以分為老、中、青。這些變量的值,既可以區分異同,也可以區別研究對象的高低或大小。
</>復制代碼
注意!各個定序變量的值之間沒有確切的間隔距離。比如大學究竟比高中高出多少,大學與高中之間的距離和初中與小學之間的距離是否相等,通常是沒有確切的尺度來測量的。定序變量在各個案上所取的變量值只具有大于或小于的性質,只能排列出它們的順序,而不能反映出大于或小于的數量或距離。
?
3、 定距變量
定距變量是區別同一類別下個案中等級次序及其距離的變量。它除了包括定序變量的特性外,還能確切測量同一類別各個案高低、大小次序之間的距離,因而具有加與減的數學特質。但是,定距變量沒有一個真正的零點。
例如,攝氏溫度這一定距變量說明,攝氏40度比30度高10度,攝氏30度比20度又高10度,它們之間高出的距離相等,而攝氏零度并不是沒有溫度。又比如調查數個地區的工人占全部勞動人口的比率時,發現甲、乙,丙、丁、戊五個地區的比率分別是2%、10%、35%、20%、10%。甲區與丙區相差33%,丙區與丁區相差15%。這也是一個定距變量。
</>復制代碼
注意!定距變量各類別之間的距離,只能加減而不能乘除或倍數的形式來說明它們之間的關系。
???
4.、定比變量
定比變量是區別同一類別個案中等級次序及其距離的變量。定比變量除了具有定距變量的特性外,還具有一個真正的零點,因而它具有乘與除(×、÷)的數學特質。例如年齡和收入這兩個變量,固然是定距變量,同時又是定比變量,因為其零點是絕對的,可以作乘除的運算。
如A月收入是60元,而B是30元,我們可以算出前者是后者的兩倍。智力商數這個變量是定距變量,但不是定比變量,因為其0分只具有相對的意義,不是絕對的或固定的,不能說某人的智商是0分就是沒有智力;同時,由于其零點是不固定的,即使A是140分而B是70分,我們也不能說前者的智力是后者的兩倍,只能說兩者相差70分。因為0值是不固定的,如果將其向上移高20分,則A的智商變為120分而B變成50分,兩者的相差仍是70分,但A卻是B的2.4倍,而不是原先的兩倍了。攝氏溫度這一變量也如此。
</>復制代碼
這里沒注意了!定比變量是最高測量層次的變量。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/42644.html
摘要:特征編碼類型本篇,我們主要說一下分類型特征的編碼方式。下面,我們要對這個變量進行編碼,在中有現成的獨熱編碼方法,代碼如下原來的變量被拆分為兩個單獨的變量,這兩個變量就是原來的分類特征值有電梯和無電梯。 作者:xiaoyu 微信公眾號:Python數據科學 知乎:python數據分析師 showImg(https://segmentfault.com/img/remote/146000...
摘要:特征編碼類型本篇,我們主要說一下分類型特征的編碼方式。下面,我們要對這個變量進行編碼,在中有現成的獨熱編碼方法,代碼如下原來的變量被拆分為兩個單獨的變量,這兩個變量就是原來的分類特征值有電梯和無電梯。 作者:xiaoyu 微信公眾號:Python數據科學 知乎:python數據分析師 showImg(https://segmentfault.com/img/remote/146000...
摘要:將數據集中不含缺失值的變量稱為完全變量,數據集中含有缺失值的變量稱為不完全變量。這種程序的實施恰當地反映了由于缺失值引起的不確定性,使得統計推斷有效。 作者:xiaoyu 微信公眾號:Python數據科學 知乎:python數據分析師 showImg(https://segmentfault.com/img/remote/1460000015801387?w=1045&h=603);...
閱讀 2775·2021-09-24 10:34
閱讀 1878·2021-09-22 10:02
閱讀 2267·2021-09-09 09:33
閱讀 1471·2021-08-13 15:02
閱讀 3280·2020-12-03 17:10
閱讀 1195·2019-08-30 15:44
閱讀 2156·2019-08-30 12:58
閱讀 3238·2019-08-26 13:40