国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

數據預處理代碼分享——機器學習與數據挖掘

XFLY / 2009人閱讀

摘要:數據預處理分為步第步導入和庫。數據可能因為各種原因丟失,為了不降低機器學習模型的性能,需要處理數據。代碼如下視頻教學群導入類庫導入數據集處理缺失的數據編碼分類數據切分數據集成訓練數據和測試數據特征縮放

數據預處理分為6步:

第1步:導入NumPy和Pandas庫。NumPy和Pandas是每次都要導入的庫,其中Numpy包含了數學計算函數,Pnadas是一個用于導入和管理數據集(Data Sets)的類庫。

第2步:導入數據集。數據集一般都是.csv格式,csv文件以文本形式存儲數據。每一行數據是一條記錄。我們使用pandas類庫的read_csv方法讀取本地的csv文件作為一個dataframe。然后從datafram中分別創建自變量和因變量的矩陣和向量。

第3步:處理缺失的數據。我們得到的數據很少是完整的。數據可能因為各種原因丟失,為了不降低機器學習模型的性能,需要處理數據。我們可以用整列的平均值或者中間值替換丟失的數據。我們用sklearn.preprocessing庫中的Inputer類完成這項任務。

第4步:對分類數據進行編碼。分類數據指的是含有標簽值而不是數字值得變量。取值范圍通常是固定的。例如“YES”和“NO”不能用于模型的數學計算,所以需要編碼成數字。為數顯這一功能,我們從sklearn.preprocessing庫中導入LabelEncoder類。

第5步:拆分數據集為測試集合和訓練集合。把數據集拆分成兩個,一個是用來訓練模型的訓練集合,另一個是用來驗證模型的測試集合。兩種比例一般是80:20。我們導入sklearn.crossvalidation庫中的train_test_split()方法。

第6步:特征縮放。大部分模型算法使用兩點間的歐式近距離表示,但此特征在幅度、單位和范圍姿態問題上變化很大。在距離計算中,高幅度的特征比低幅度特征權重大。可用特征標準化或Z值歸一化解決。導入sklearn.preprocessing庫的StandardScalar類。

代碼如下: 視頻教學QQ群 519970686

1 Step 1: 導入類庫
2
3 import numpy as np
4 import pandas as pd
5
6 Step 2: 導入數據集
7 dataset = pd.read_csv("Data.csv")
8 X = dataset.iloc[ : , :-1].values
9 Y = dataset.iloc[ : , 3].values
10
11 Step 3: 處理缺失的數據
12 from sklearn.preprocessing import Imputer
13 imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
14 imputer = imputer.fit(X[ : , 1:3])
15 X[ : , 1:3] = imputer.transform(X[ : , 1:3])
16
17 Step 4:編碼分類數據
18 from sklearn.preprocessing import LabelEncoder, OneHotEncoder
19 labelencoder_X = LabelEncoder()
20 X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
21 Creating a dummy variable
22
23 onehotencoder = OneHotEncoder(categorical_features = [0])
24 X = onehotencoder.fit_transform(X).toarray()
25 labelencoder_Y = LabelEncoder()
26 Y = labelencoder_Y.fit_transform(Y)
27
28 Step 5: 切分數據集成訓練數據和測試數據
29 from sklearn.cross_validation import train_test_split
30 X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)
31
32 Step 6: 特征縮放
33 from sklearn.preprocessing import StandardScaler
34 sc_X = StandardScaler()
35 X_train = sc_X.fit_transform(X_train)
36 X_test = sc_X.fit_transform(X_test)

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/42445.html

相關文章

  • 在開始第一個機器學習項目之前就了解的那些事兒

    摘要:此外,與訓練機器學習模型的作業相比,作業具有不同的執行配置文件。此外,還制作了一個界面,以便控制機器學習的參數指定用于訓練的數據量等。 摘要: 一份機器學習過來人的經驗清單分享,主要是包含一些關于構建機器學習工作流以及Apache Spark應該注意的一些事項,希望這個清單能夠幫助那些正在學習機器學習的相關人員少走一些彎路,節約一些時間。 showImg(https://segment...

    BearyChat 評論0 收藏0
  • 我是如何入門機器學習的呢

    摘要:在這里我分享下我個人入門機器學習的經歷,希望能對大家能有所幫助。相關學習鏈接,,入門后的體驗在入門了機器學習之后,在實際工作中,絕大多數的情況下你并不需要去創造一個新的算法。 機器學習在很多眼里就是香餑餑,因為機器學習相關的崗位在當前市場待遇不錯,但同時機器學習在很多人面前又是一座大山,因為發現它太難學了。在這里我分享下我個人入門機器學習的經歷,希望能對大家能有所幫助。 PS:這篇文章...

    ShowerSun 評論0 收藏0

發表評論

0條評論

XFLY

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<