国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Python中運用Winsorize縮尾解決操作工作經驗

89542767 / 838人閱讀

  縮尾解決等同于對信息進行掐頭(尾)去尾,之后再依照相應的方式彌補被剪掉相關數據,接下來本文主要是給為大家介紹了有關Python中運用Winsorize縮尾解決的資料,必須的小伙伴可以參考一下


  近期搞數據信息的時候發現,縮尾時原來是空字符或是失效系數的地區被彌補了數據信息。傳統促進會將空字符去除之后再進行縮尾,但是一些不用去除空字符的數據必須去除極端值,因此不可以忽略縮尾。結合自身的操作工作經驗做一些記錄:


  以儲存在Excel中相關數據舉例:


  from scipy.stats.mstats import winsorize
  import pandas as pd
  df=pd.read_excel('Excel.xlsx',engine='openpyxl',header=0)
  df_list=["a","b","c"]#需要進行縮尾的列名


  1:直接應用Winsorize,不考慮空值和無效值,縮尾結果可能導致部分空值被填充數據


  for i in df_list():
  df<i>=winsorize(df<i>,limits=[0.01,0.01])#對指定列中的連續數據進行1%和99%的縮尾(Winsorize)處理


  2.1:屏蔽空值和無效值,僅對其他值進行Winsorize處理,縮尾結果不改變原來的空值和無效值


  for i in df_list():
  df<i>=np.where(df<i>.isnull(),np.nan,winsorize(np.ma.masked_invalid(df<i>),limits=(0.01,0.01)))
  #np.where(condition,x,y),滿足condition是x,否則y
  #此處判斷是否空值,是的話為空,否的話進行屏蔽空值和無效值的1%和99%縮尾處理


  2.2:winsorize提供的參數,但這個方法我沒有成功…僅供參考


  for i in df_list():
  df<i>=winsorize(df<i>,limits=[0.01,0.01],nan_policy='omit')

  

01.png

      3:屏蔽空值和無效值,對所有值進行Winsorize處理,縮尾結果不改變原來的空值和無效值,與方法2的區別在于方法3沒有改變需要縮尾的數據長度


  for i in df_list():
  mask=df<i>.notna()
  df.loc[mask,i]=winsorize(df<i>.loc[mask],limits=[0.01,0.01])
  #這個mask就是一個bool index,指示哪些位置上是nan
  #比如一列數據是[1,NaN,2],如果用df['A'].isnan()得到的就是一個[False,True,False]的數組
  #這個數組就是所謂的mask,它可以把dataframe中的特定數據挑出來


  我碰到后續描述性統計有負無窮值的問題,因而將其替換為空值


  #如果需要將無窮值換為空值
  df=df.replace(-np.Inf,np.NaN)


  總結


  到此這篇關于Python中應用Winsorize縮尾處理的文章就介紹到這了,希望可以給大家帶來一定的幫助。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/128688.html

相關文章

  • “樂高式松耦合”架構實戰

    摘要:二樂高式松耦合架構落地快速實現需求與需求實現越來越慢的矛盾如何解決最終白山的產品架構聚焦在解耦上,方便平臺快速迭代,減少系統間依賴程度,打通無關聯項目,為運營互動提供高效支持,確保服務質量。 作者:王康 白山聯合創始人兼產品副總裁。 王康先生主要負責產品的完善與升級、產品開發流程把控及進度協調、產品設計改進及定期優化、產品全生命周期管理等工作。他帶領團隊實現白山首款產品CDN-X的多項...

    xiaochao 評論0 收藏0
  • “樂高式松耦合”架構實戰

    摘要:二樂高式松耦合架構落地快速實現需求與需求實現越來越慢的矛盾如何解決最終白山的產品架構聚焦在解耦上,方便平臺快速迭代,減少系統間依賴程度,打通無關聯項目,為運營互動提供高效支持,確保服務質量。 作者:王康 白山聯合創始人兼產品副總裁。 王康先生主要負責產品的完善與升級、產品開發流程把控及進度協調、產品設計改進及定期優化、產品全生命周期管理等工作。他帶領團隊實現白山首款產品CDN-X的多項...

    Pikachu 評論0 收藏0
  • 入行數據科學一定要有研究生學歷嗎?

    摘要:如果你的目標是成為數據科學家或機器學習工程師研究員,那么有博士學位會給你加分不少。當然,有些人更喜歡學術研究,而不是在行業中運用數據科學或機器學習。二碩士學位入行數據科學需要碩士學位嗎視情況而定。 showImg(https://segmentfault.com/img/bVbm5Mw?w=850&h=566);作者 | Jeremie Harris翻譯 | MikaCDA 數據分析師...

    DrizzleX 評論0 收藏0
  • 蠎周刊 2015 年度最贊

    摘要:蠎周刊年度最贊親俺們又來回顧又一個偉大的年份兒包去年最受歡迎的文章和項目如果你錯過了幾期就這一期不會丟失最好的嗯哼還為你和你的準備了一批紀念裇從這兒獲取任何時候如果想分享好物給大家在這兒提交喜歡我們收集的任何意見建議通過來吧原文 Title: 蠎周刊 2015 年度最贊Date: 2016-01-09 Tags: Weekly,Pycoder,Zh Slug: issue-198-to...

    young.li 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<