摘要:是一種非參數的懶惰的監督學習算法非參數的意思是,模型不會對基礎數據分布做出任何假設。電腦端查看源碼參考資料網址是一個支持的人工智能建模平臺,能幫助你快速開發訓練并部署應用。
KNN 是一種非參數的懶惰的監督學習算法.
非參數的意思是,模型不會對基礎數據分布做出任何假設。換句話說,模型的結構是根據數據確定的。懶惰的意思是沒有或者只有很少的訓練過程.
KNN 算法既可以處理分類問題,測試數據的類型由所有 K 個最近鄰點投票決定,也可以處理回歸問題,測試數據的值是所有 K 個最近鄰點的值的均值或眾數.
KNN 的算法非常簡單.
例如,對于分類問題,算法流程如下,
對需要預測的每個數據依次執行以下操作:
計算已知訓練數據集中的點與當前點之間的距離;
按照距離遞增次序排序;
選取與當前點距離最小的k個點;
確定前k個點所在類別的出現頻率;
返回前k個點出現頻率最高的類別作為當前點的預測分類。
需要注意的是,要對數據進行特征縮放.下面兩張圖很好的闡釋了縮放的重要性.
那么KNN在實際使用中有哪些優點和缺點呢?
它的優點有:
可以處理線性和非線性數據
直觀上易于理解
具有較高的準確率
既可以用作回歸問題,也可以用作分類問題
它的缺點是
計算代價大
內存要求高
數據量大時預測較慢
對無關的特征以及特征縮放敏感
在實際的使用過程中,可能會遇到如下的問題.
k 近鄰的類別出現了平局的情況. 例如在二分類中,正負類型的近鄰數相同,使用奇數個近鄰可以解決此問題,但是無法解決多分類的問題.這個時候可以
隨機決定屬于哪個類別
對某些類別設置優先級
使用最近鄰來做最終的決定
2.訓練數據的缺失值如何處理.如果不處理缺失值,則無法計算距離.對于缺失值的處理的核心原則是,盡可能小的影響距離的計算.一個合理的解決辦法是,使用訓練數據的平均值來填充缺失值.
最后附上實現代碼,登錄之后就能查看了。
電腦端查看源碼
參考資料
https://medium.com/@adi.brons...
https://www.youtube.com/watch...
https://www.datacamp.com/comm...
https://stats.stackexchange.c...
————————————————————————————————————
Mo (網址:momodel.cn )是一個支持 Python 的人工智能建模平臺,能幫助你快速開發訓練并部署 AI 應用。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/20010.html
摘要:算法及工作原理近鄰算法采用測量不同特征值之間的距離方法進行分類。最后選擇個最相似數據中出現次數最多的分類作為新數據的分類。 1 分類算法引言 眾所周知,電影可以按照題材分類,然而題材本身是如何定義的?由誰來判定某部電影屬于哪個題材?也就是說同一題材的電影具有哪些公共特征?這些都是在進行電影分類時必須要考慮的問題。 動作片中也會存在接吻鏡頭,愛情片中也會存在打斗場景,我們不能單純依靠是...
必須要看的前言 本文風格:以??簡單易懂??的語言帶你徹底搞懂KNN,了解什么是有監督學習算法。 認真看完這篇文章,徹底了解KNN、了解監督學習算法絕對是一樣很簡單的事情。 注:本篇文章非常詳細,同時我也附加了Python代碼,歡迎收藏后慢慢閱讀。 目錄 必須要看的前言監督學習算法KNN/K近鄰算法1 算法原理1.1 實現過程1.2 距離的確定 2 算法的優缺點3 算法的變種3.1 變...
摘要:項目介紹某用戶一直使用在線約會軟件尋找適合自己的約會對象。盡管約會網站會推薦不同的人選但她并不是喜歡每一個人。 1 項目介紹 某APP用戶一直使用在線約會軟件尋找適合自己的約會對象。盡管約會網站會推薦不同的人選,但她并不是喜歡每一個人。經過一番總結,她發現曾交往過三種類型的人: 不喜歡的人(3) 魅力一般的人(2) 極具魅力的人(1) 某APP用戶希望分類軟件可以更好地幫助她將匹...
閱讀 3326·2021-11-12 10:36
閱讀 2486·2021-11-02 14:43
閱讀 2159·2019-08-30 14:23
閱讀 3474·2019-08-30 13:08
閱讀 931·2019-08-28 18:09
閱讀 3145·2019-08-26 12:22
閱讀 3156·2019-08-23 18:24
閱讀 2026·2019-08-23 18:17