摘要:查看數據的基本統計信息。用處是用于數據讀寫處理更改提取等一系列操作的包,可以說,所有能實現的功能,都可以通過代碼輕松實現,因此,對于學習非常重要。如果在里,需要翻到最低和最右,而且可能由于溢出無法窮盡可以簡單的實現。
????????這學期刻意少選了一些課,希望能夠多一些輸入,讓自己的內在能力提升起來,做一個實干家而不是口嗨家。
????????于是干脆結合平時數據處理過程中遇到的問題與實戰資料,進行系統的總結,形成一篇篇文檔。既是對自己學習的記錄,也可能對看到的朋友有幫助。由于水平有限目前需要依靠大量的參考資料來支撐,也盡數列在【參考文獻】中,可以溯源查看。
????????非常感謝松鼠在過程中給出的建議和支持,沒有松鼠的鼓勵可能我完全堅持不到不斷完善和更新,有人支持的感覺真好!哈哈哈哈哈
????????之前學習Python總覺得各種函數的使用非?!翱斩础?,不知道針對哪些數據用怎樣的方法,像是使用一個一個黑盒,經常發生“報錯”。
????????究其原因,發現是我自己對于數據處理的類型以及對應的方法不夠熟悉導致的,因此,在此根據網絡資料和kaggle實戰總結pandas的相關使用指南。未來數據處理過程中,只要是pandas類型的數據,可以放心使用以下方法達到目的,不會出現報錯和意外。
????????重要的是,本帖子里的方法只是最簡單的基礎和入門,pandas是一個非常博大精深的庫,眾多方法和函數具有無限的組合,只是作為初學者的一個初窺。
????????官方的API地址:API reference — pandas 1.3.3 documentation官方的權威指南,一切問題以官方指南為準。
? ? ? ? 水平有限肯定有很多不足,如果發現或有任何建議,請朋友一定聯系我,感謝!
???????
目錄
查看數據的基本統計信息:count、mean、std、min、25%、50%、75%、max。
???????
Python查詢MySQL導出到ExcelPython查詢MySQL導出到Excel_嗶哩嗶哩_bilibili
使用pandas方法read_html( )6-7 使用pandas方法read_html( )_嗶哩嗶哩_bilibili
pandas.read_html()讀取網頁表格類數據pandas.read_html()讀取網頁表格類數據_總裁余(余登武)博客-CSDN博客_pandas read_html
pandas的操作很像搭積木,遇到實際的問題,我們需要不斷分解直到最簡單的模塊組合,再對應具體的pandas函數組合。
pandas是用于數據讀寫、處理、更改、提取等一系列操作的包,可以說,Excel所有能實現的功能,pandas都可以通過代碼輕松實現,因此,pandas對于Python學習非常重要。
import pandas as pd
根據實際場景,Pandas支持兩種類型的數據結構。
Series
Dataframe
????????Series可以理解成可以“自定義標簽”的一維列表,可以人為的設定標簽的名稱;你可以把它形象的理解成,第一個參數是一個列表(也可以是其它,例如range(0,5)),第二個參數是你希望的列表的索引值。
一般列表默認的索引是從0到n,略顯死板;Series可以自定義標簽索引,這是它的最大優勢
?# 自定義一個Series,索引為a,b,c,d?# 注意:Series可以是任意數據類型!比如1和"a"?houSeries = pd.Series([1,2,"a",4], index=["a","b","c","d"])?houSeries
?a ? 1?b ? 2?c ? a?d ? 4?dtype: int64
注意:如果不人為給出索引,那么默認的索引為從0開始
?houSeries2 = pd.Series([1,2,3,4])?houSeries2
?0 ? 1?1 ? 2?2 ? 3?3 ? 4?dtype: int64
DataFrame可以理解成一個二維的excel表
?ser_i = pd.Series(np.intersect1d(ser1, ser2)) ?# 交集?ser_u = pd.Series(np.union1d(ser1, ser2)) ?# 并集?ser_s = ser_u[~ser_u.isin(ser_i)]# 差集
?train["CategoricalFare"] = pd.qcut(train["Fare"], 4)?# 數據分箱,分成4個箱子
目的
連續變量離散化:1~100分成4箱
為什么要分箱?
離散變量便于特征的增加和減少,便于模型快速迭代
稀疏向量內積乘法更快,計算結果便于存儲,容易擴展
離散化后的特征對異常數據有很強的魯棒性,例如,連續異常值5000可能對模型影響很大,但如果分箱后,模型影響很小
為模型引入非線性,提升模型表達能力,加大擬合
模型更加穩定,不會因為各別數據增加而影響模型精度
簡化模型,防止模型過擬合
?# 1.pd.concat()函數?data = pd.concat([ser1, ser2], axis=1)???# 2.pd.DataFrame()函數?data = pd.DataFrame({"col1": ser1, "col2": ser2})
?# 把series的值提取出來,轉化為7x5的矩陣dataframe?data = pd.DataFrame(series.values.reshape(7,5))
?# 類似列表,直接加在后面?ser3 = ser1.append(ser2)
?# 方法一:title()函數結合lambda?ser.map(lambda x: x.title())???# 方法二upper()結合lambda?ser.map(lambda x: x[0].upper() + x[1:])???# 方法三title()結合列表推導式?pd.Series([i.title() for i in ser])
?# 讀?df = pd.read_csv("data.csv",nrows=5)?# 寫?df.to_csv(filename)
?# 讀?pd.read_excel("filename")?# 寫?pd.to_excel("dir/dataFrame.xlsx", sheet_name="Sheet1")
此處以MySQL為例
首先,我們要創建sqlalchemy對象連接MySQL。
SQLAlchemy的作用,是把關系數據庫的表結構映射到對象上,讓我們能在Python上間接處理數據。
?pip install sqlalchemy?pip install mysql-connector-python
?# 導入庫?from sqlalchemy import create_engine?# 連接MySQL數據庫?engine = create_engine("mysql+mysqlconnector://root:123456@127.0.0.1:3306/test",echo=False)?# 參數含義:mysql表示使用MySQL數據庫;mysqlconnector表示使用庫;root是用戶名;“:”后、“@”前是我們的密碼;@后是host地址;端口號是3306;最后是數據庫的名字“test”?# echo=False表示不輸出sql語句
其次,我們從sql中讀取數據。
?import pymysql?conn = pymysql.connect(? ? ?host = "127.0.0.1", #數據庫的host? ? ?user="root", #用戶名? ? ?passwd="12345678", #密碼? ? ?port=3306, #port? ? ?db="db_school" #數據庫的名字? ? ?charset="utf8" #處理中文數據?)?df = pd.read_sql("""? select * from student_grade?""", con=conn)
隨后,我們把Python數據寫入sql中。
?# 方法1當數據表不存在時,每次覆蓋整個表?df.to_sql(name="student", con=engine, if_exists="replace")?# name為sql表名;con為連接,對應engine;if_exists=“replace”表示覆蓋。???# 方法2當數據表已經存在時,追加即可?df.to_sql(name="student", con=engine, if_exists="append")
?# 分隔符文本的讀?pd.read_table(filename)???# json格式的讀寫?pd.read_json(json_string)?df.to_json(filename) ???# 傳入html格式,進行解析?# 注意:read_html只能讀取網頁中的表格類數據!?# 注意:一般只能處理靜態網頁;動態網頁要用selenium?pd.read_html(url)?df.to_html(filename) ???# 剪切板?pd.read_clipboard()?df.to_clipboard()
?# 創建一個10行5列的隨機數矩陣?pd.DataFrame(np.random.rand(10,5))
0 | 1 | 2 | 3 | 4 | |
---|---|---|---|---|---|
0 | 0.671785 | 0.879404 | 0.350473 | 0.689689 | 0.857887 |
1 | 0.710817 | 0.495626 | 0.361229 | 0.683298 | 0.872921 |
2 | 0.623185 | 0.245117 | 0.281589 | 0.531199 | 0.893249 |
3 | 0.373295 | 0.432649 | 0.842731 | 0.127529 | 0.713869 |
4 | 0.038610 | 0.641308 | 0.903039 | 0.829121 | 0.395986 |
5 | 0.774026 | 0.856268 | 0.184218 | 0.058289 | 0.145508 |
6 | 0.758030 | 0.495285 | 0.867913 | 0.411790 | 0.781194 |
7 | 0.245190 | 0.618623 | 0.738077 | 0.300838 | 0.992442 |
8 | 0.492621 | 0.723553 | 0.958007 | 0.834120 | 0.618777 |
9 | 0.944307 | 0.877147 | 0.175041 | 0.058599 | 0.470091 |
后文代碼中使用的數據為2021東京奧運會各國的獎牌數量統計,包括:加權排名、國家、金牌數量、銀牌數量、銅牌數量、金牌總計、獎牌數量排名
拿到數據第一步往往先查看數據有多少行、多少列。
如果在Excel里,需要翻到最低和最右,而且可能由于溢出無法窮盡;Python可以簡單的實現。
?data.shape
?data.info()
??RangeIndex: 93 entries, 0 to 92?Data columns (total 7 columns):? # ? Column ? ? ? ? Non-Null Count Dtype ?--- ------ ? ? ? ? -------------- ----- ? 0 ? Rank ? ? ? ? ? 93 non-null ? ? int64 ? 1 ? Team/NOC ? ? ? 93 non-null ? ? object? 2 ? Gold ? ? ? ? ? 93 non-null ? ? int64 ? 3 ? Silver ? ? ? ? 93 non-null ? ? int64 ? 4 ? Bronze ? ? ? ? 93 non-null ? ? int64 ? 5 ? Total ? ? ? ? 93 non-null ? ? int64 ? 6 ? Rank by Total 93 non-null ? ? int64 ?dtypes: int64(6), object(1)?memory usage: 5.2+ KB
數據的行數、索引、列、每列的非缺失值數量、數據類型、數據的內存大小
?data.describe()
這里的操作可以想象是Excel中,對每列數據進行統計和觀察。
拿到數據后,我們先看一下數據有哪些列
?# 注意,不用加()因為沒有要傳入的參數?data.columns
?Index(["Rank", "Team/NOC", "Gold", "Silver", "Bronze", "Total",? ? ? ? "Rank by Total"],? ? ? dtype="object")
當我們發現一些列名比較奇怪或者不規范需要更改的時候,Excel里我們需要“找到需要更改的列名——點擊表格——編輯”,pandas我們可以用代碼更改。
?# 把“Gold”名字改成“金牌”?# columns中,第一個參數為原名,:后為新名?data.rename(columns= {"Gold" : "金牌"}).head()
Rank | Team/NOC | 金牌 | Silver | Bronze | Total | Rank by Total | |
---|---|---|---|---|---|---|---|
0 | 1 | United States of America | 39 | 41 | 33 | 113 | 1 |
1 | 2 | People"s Republic of China | 38 | 32 | 18 | 88 | 2 |
2 | 3 | Japan | 27 | 14 | 17 | 58 | 5 |
3 | 4 | Great Britain | 22 | 21 | 22 | 65 | 4 |
4 | 5 | ROC | 20 | 28 | 23 | 71 | 3 |
data.index.name = "ye"
ye | |||||||
---|---|---|---|---|---|---|---|
0 | 1 | United States of America | 39 | 41 | 33 | 113 | 1 |
1 | 2 | People"s Republic of China | 38 | 32 | 18 | 88 | 2 |
2 | 3 | Japan | 27 | 14 | 17 | 58 | 5 |
3 | 4 | Great Britain | 22 | 21 | 22 |
我希望統計每列數據有多少行,如果在Excel里,我們可能需要翻到最后一頁。Python只需要一行代碼。
?data.count()?# 或 len(data)
?Rank ? ? ? ? ? ? 93?Team/NOC ? ? ? ? 93?Gold ? ? ? ? ? ? 93?Silver ? ? ? ? ? 93?Bronze ? ? ? ? ? 93?Total ? ? ? ? ? 93?Rank by Total ? 93?dtype: int64
表示Rank列有93行數據
有時候我們希望看到每列有多少獨特的值,特別是當獨特值具有關鍵意義的時候。
?# 注意是nunique()而不是unique()??!?data.nunique()
?Rank ? ? ? ? ? ? 67?Team/NOC ? ? ? ? 93?Gold ? ? ? ? ? ? 14?Silver ? ? ? ? ? 17?Bronze ? ? ? ? ? 21?Total ? ? ? ? ? 30?Rank by Total ? 30?dtype: int64
我們希望看到每一列的最大值,例如,我們希望知道“獲得金牌最多的”有多少?
?# 統計每列數據的最大值:例如,我想看得到金牌、銀牌、銅牌數量最多為多少??data.max()
?Rank ? ? ? ? ? ? ? ? ? 86?Team/NOC ? ? ? ? Venezuela?Gold ? ? ? ? ? ? ? ? ? 39?Silver ? ? ? ? ? ? ? ? 41?Bronze ? ? ? ? ? ? ? ? 33?Total ? ? ? ? ? ? ? ? 113?Rank by Total ? ? ? ? ? 77?dtype: object
同理,我們想知道,獲得金牌最少的是多少?
?# 統計每列的最小值:例如,我想看金牌最低的為多少??data.min()
?Rank ? ? ? ? ? ? ? ? ? ? 1?Team/NOC ? ? ? ? Argentina?Gold ? ? ? ? ? ? ? ? ? ? 0?Silver ? ? ? ? ? ? ? ? ? 0?Bronze ? ? ? ? ? ? ? ? ? 0?Total ? ? ? ? ? ? ? ? ? 1?Rank by Total ? ? ? ? ? 1?dtype: object
有時候我們不僅需要直到最大值或最小值是誰,我們也希望直到對應的索引是多少,便于我們定位。
由于要定位索引,必須要針對某列,不能針對Dataframe整體,必須篩選列;Series可以直接用。
?# "Gold"列的最小值的索引?data["Gold"].idxmin()???# "Gold"列的最大值的索引?data["Gold"].idxmax()
除了最基本的量、最大最小值,我們還希望了解每列數據的一些基本的統計特征。例如,平均金牌數量?金牌數量的中位數?隊伍之間獲得金牌的數量的差異大嗎(方差or標準差)
?# 均值?data.mean()
?Rank ? ? ? ? ? ? 46.333333?Gold ? ? ? ? ? ? 3.655914?Silver ? ? ? ? ? 3.634409?Bronze ? ? ? ? ? 4.322581?Total ? ? ? ? ? 11.612903?Rank by Total ? 43.494624?dtype: float64
有趣的是,pandas會自動把非數字的列給忽視掉,只計算數值列的均值
?# 中位數?data.median()
?Rank ? ? ? ? ? ? 46.0?Gold ? ? ? ? ? ? 1.0?Silver ? ? ? ? ? 1.0?Bronze ? ? ? ? ? 2.0?Total ? ? ? ? ? ? 4.0?Rank by Total ? 47.0?dtype: float64
?# 標準差?data.std()
?Rank ? ? ? ? ? ? 26.219116?Gold ? ? ? ? ? ? 7.022471?Silver ? ? ? ? ? 6.626339?Bronze ? ? ? ? ? 6.210372?Total ? ? ? ? ? 19.091332?Rank by Total ? 24.171769?dtype: float64
?# 方差?data.var()
?Rank ? ? ? ? ? ? 687.442029?Gold ? ? ? ? ? ? 49.315101?Silver ? ? ? ? ? 43.908368?Bronze ? ? ? ? ? 38.568724?Total ? ? ? ? ? 364.478962?Rank by Total ? 584.274427?dtype: float64
除了總的均值、方差這些量,我們有時候希望獲得數據的階段性情況,例如,我想知道“前25%的人的金牌數量大約為多少”(從小到大),第75%的人的金牌數量大約為多少。
這時,我們需要引入四分位數。
具體取25%還是75%,取幾個點,可以根據自己的喜好設定。
?data.quantile([0.25, 0.5, 0.75])
Rank | Gold | Silver | Bronze | Total | Rank by Total | |
---|---|---|---|---|---|---|
0.25 | 24.0 | 0.0 | 0.0 | 1.0 | 2.0 | 23.0 |
0.50 | 46.0 | 1.0 | 1.0 | 2.0 | 4.0 | 47.0 |
0.75 | 70.0 | 3.0 | 4.0 | 5.0 | 11.0 | 66.0 |
每一列數據,從小到大排序,第25%、第50%、第75%的數據為多少。
結果發現,由于50%時的金牌為1,說明至少有大約50%的國家,沒有金牌或只有1枚金牌。
例如,我想要知道,金牌的數量一共有哪些?獲得39塊金牌的共有多少人?獲得0塊金牌的共有多少人?
對應在Excel的操作是:“數據——自動篩選——統計值的出現次數”
?# 統計Gold列的值的出現次數?data["Gold"].value_counts()
?0 ? ? 28?1 ? ? 22?2 ? ? 11?3 ? ? 11?4 ? ? 5?7 ? ? 4?10 ? ? 4?6 ? ? 2?17 ? ? 1?20 ? ? 1?22 ? ? 1?27 ? ? 1?38 ? ? 1?39 ? ? 1?Name: Gold, dtype: int64
第一列為值,第二列為出現頻次。
結果說明,共有28個國家一枚金牌都沒有獲得,有一個國家獲得了39枚金牌。
例如,我們希望數據根據“金牌列”進行升序排序;對應Excel里面的排序操作。
?# 默認為升序?# 添加參數ascending= False則變成降序?data.sort_values("Gold").head()
Rank | Team/NOC | Gold | Silver | Bronze | Total | Rank by Total | |
---|---|---|---|---|---|---|---|
92 | 86 | Syrian Arab Republic | 0 | 0 | 1 | 1 | 77 |
65 | 66 | Colombia | 0 | 4 | 1 | 5 | 42 |
66 | 67 | Azerbaijan | 0 | 3 | 4 | 7 | 33 |
67 | 68 | Dominican Republic | 0 | 3 | 2 | 5 | 42 |
68 | 69 | Armenia | 0 | 2 | 2 | 4 | 47 |
求每列的值的總和,例如,整個2021東京奧運會,一共有多少枚金牌?
?data.sum()
?Rank ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 4309?Team/NOC ? ? ? ? United States of AmericaPeople"s Republic of C...?Gold ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 340?Silver ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 338?Bronze ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 402?Total ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 1080?Rank by Total ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 4045?dtype: object
有時候我們希望列之間實現累加疊積的關系,例如,隨著國家的增多,累計金牌數量的變化?
?# 累計求和:依次統計前1、2、3、4、5...n行的累計和?data.cumsum()
Rank | Team/NOC | Gold | Silver | Bronze | Total | Rank by Total | |
---|---|---|---|---|---|---|---|
0 | 1 | United States of America | 39 | 41 | 33 | 113 | 1 |
1 | 3 | United States of AmericaPeople"s Republic of C... | 77 | 73 | 51 | 201 | 3 |
2 | 6 | United States of AmericaPeople"s Republic of C... | 104 | 87 | 68 | 259 | 8 |
3 | 10 | United States of AmericaPeople"s Republic of C... | 126 | 108 | 90 | 324 | 12 |
4 | 15 | United States of AmericaPeople"s Republic of C... | 146 | 136 | 113 | 395 | 15 |
... | ... | ... | ... | ... | ... | ... | ... |
88 | 3965 | United States of AmericaPeople"s Republic of C... | 340 | 338 | 398 | 1076 | 3737 |
89 | 4051 | United States of AmericaPeople"s Republic of C... | 340 | 338 | 399 | 1077 | 3814 |
90 | 4137 | United States of AmericaPeople"s Republic of C... | 340 | 338 | 400 | 1078 | 3891 |
91 | 4223 | United States of AmericaPeople"s Republic of C... | 340 | 338 | 401 | 1079 | 3968 |
92 | 4309 | United States of AmericaPeople"s Republic of C... | 340 | 338 | 402 | 1080 | 4045 |
?# 累計積:切忌不能放入字符串進去,必須為可計算的數值?data.cumprod()???# 累計最大值?data.cummax()???# 累計最小值?data.cummin()
有時候我們需要對多列之間進行計算,得到第三列作為我們所需要的列。
例如,我們希望統計每個國家的金牌和銀牌的數量,我們把兩列想加得到第三列
data["gold_Silver"] = df.Gold + df.Silver
?data.corr()
當數據量比較大的時候,我們會查看前n行大致了解一下
?# .head()默認前5行,可以根據參數改變?data.head()
?# 同head?data.tail()
?# 默認抽取一行?data.sample()
比如我想知道,銀牌數量最多的前n個數據的樣子是怎樣的
?data.nlargest(5,"Gold")
例如,我想知道,銀牌數量大于10的國家都有哪些
?data[data.Silver>10]
選擇特定的列
?# 選擇"Gold"列的數據?data["Gold"]???# 同理?data.Gold???# 根據列名篩選:篩選Gold和Silver列?data[["Gold","Silver"]]
選擇特定的行
?# 篩選第10行到最后的數據?data[10:]???# 返回索引從5~7的行數據?data.loc[5:7]???# 篩選某列數據的某一行?data["Gold"][0]
篩選第n行第m列的數據框
篩選第~行第~列的數據框
?# 返回第2行,第3列的數據框?data.iloc[[1],[2]]???# 根據行索引和列名篩選?data.loc[:,"Gold":"Bronze"]
?# 自己創建過濾條件?filters = data.Gold>5?data[filters]???# 使用.filter函數和regex匹配?# regex="^G"表示匹配開頭為G的列?data.filter(regex="^G").head()???# 多重條件?# (1)np.logical_and()函數?data[np.logical_and(data["Gold"]>10,data["Silver"]<50)]?# (2)直接使用&?data[(data["Gold"]>10)&(data["Silver"]<50)]
Python內置的正則表達式引擎——regex模塊
常見的正則模塊re有4270行C語言代碼,而regex模塊有24513行C語言代碼,更加強大??!
?data.sort_values("Gold",ascending=False).head()
?# 默認升序?data.sort_index()
?# columns=不能省??!?data.drop(columns=["Gold"])?data.drop(columns=["Gold","Silver"])???# 使用axis參數:刪除Gold列?data.drop("Gold", axis=1)
?# 刪除Series中索引為"a"值?hou_Series.drop("a")
?# 刪除索引為0,1的行?data.drop([0,1])
查看每列數據是整型?浮點?字符串?
?data.dtypes
?# dataType為特定的數據類型?data["Gold"] = data["Gold"].astype("dataType")
有時候我們需要自定義實現一些個性化的功能,這時我們可以通過apply函數實現
?def power(x):? ? ?return x*2?data.Gold.apply(power).head()
df.Gold.apply(lambda x: x*2).head()
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/121685.html
摘要:利用的一些輔助函數進行類型轉換的函數和復雜的自定函數之間有一個中間段,那就是的一些輔助函數。這些輔助函數對于某些特定數據類型的轉換非常有用如。 利用Pandas進行數據分析時,確保使用正確的數據類型是非常重要的,否則可能會導致一些不可預知的錯誤發生。筆者使用Pandas已經有一段時間了,但是還是會在一些小問題上犯錯誤,追根溯源發現在對數據進行操作時某些特征列并不是Pandas所能處理的...
摘要:大家好,我是一行今天給大家聊聊一行在讀研里最成功的投資,那必然是鍵盤邊上的每一本技術書啦畢竟股票基金這種投資即使賺了錢,過段時間就得還回去,非常的神奇但是讀過的每一本技術書籍,都內化在手指上了,只要給個鍵盤,就能給它實 ...
摘要:是一個廣泛用于結構化數據的包。因此,的任何變化都會導致發生變化。這是檢查值分布的命令。這也是每個人都會使用的命令。我想在這里指出兩個技巧。另一個技巧是處理混合在一起的整數和缺失值。將所有浮點數舍入為整數。 showImg(https://segmentfault.com/img/remote/1460000019138448?w=432&h=270); Pandas是一個廣泛用于結構化...
摘要:不為人知的七大實用技巧大家好,我今天勤快地回來了,這一期主要是和大家分享一些的實用技巧,會在日常生活中大大提升效率,希望可以幫助到大家還是老樣子,先給大家奉上這一期的章節目錄自定義選項,設置實用中模塊構建測試數據巧用訪問器合并其他列拼接使用 Pandas不為人知的七大實用技巧 大家好,我今天勤快地回來了,這一期主要是和大家分享一些pandas的實用技巧,會在日常生活中大大提升效率,希望...
摘要:往期回顧教程實現社交網絡可視化,看看你的人脈影響力如何轉載字概括精髓,必知必會例注意字歸納總結帶你做數據預處理新聞字張圖,一鍵生成炫酷的動態交互式圖表分享收藏點贊在看 今天分享幾個不為人知的pandas函數,大家可能平時看到的不多,但是使用起來倒是非常的方便,也能夠幫助我們數據分析人員大...
閱讀 1784·2023-04-25 14:33
閱讀 3386·2021-11-22 15:22
閱讀 2185·2021-09-30 09:48
閱讀 2697·2021-09-14 18:01
閱讀 1748·2019-08-30 15:55
閱讀 3010·2019-08-30 15:53
閱讀 2148·2019-08-30 15:44
閱讀 655·2019-08-30 10:58