小編寫這篇文章的主要目的,主要是對pandas做一個較為詳細的一個解答,pandas其實就是一個數(shù)據(jù)模型庫,里面的內(nèi)容還是比較的多的,那么,怎么樣對海量的數(shù)據(jù)進行處理呢?處理的內(nèi)容就是對超大的csv文件進行快速拆分,下面就給大家舉例驗證。
前言
本文介紹如何利用pandas對超大CSV文件進行快速拆分。
1.操作步驟
1.1安裝pandas
pip install pandas
1.2拆分大文件
import pandas as pd
#讀取csv文件 df=pd.read_csv("../super_big.csv") #獲取文件總行數(shù) row_num=len(df) #確定每個小文件要包含的數(shù)據(jù)量 step=400 for start in range(0,row_num,step): stop=start+step filename="./small_{}-{}.csv".format(start,stop) d=df[start:stop] print("Saving file:"+filename+",data size:"+str(len(d))) d.to_csv(fname,index=None) #輸出如下 #Saving file:./small_0-500.csv,data size:500 #Saving file:./small_500-1000.csv,data size:500
代碼就這么簡單。
2.再多了解一點兒
2.1 pandas讀取csv文件后,返回的是什么類型?
import pandas df=pandas.read_csv('./super_big.csv') type(df) <class'pandas.core.frame.DataFrame'>
2.2如何從DataFrame中讀取某一行呢?
#返回第一行 print(df.loc[0]) #返回第二行 print(df.loc[1])
2.3如何從DataFrame讀取多行呢?
d=df[start:stop]
2.4如何從DataFrame中讀取某一列呢?
data={ "name":["peter","rose","joe"], "career":["teacher","engineer","doctor"] } df=pd.DataFrame(data) print(df["name"]) #0 peter #1 rose #2 joe #Name:name,dtype:object
2.5如何用pandas讀寫CSV文件?
df=pd.read_csv("YOUT_CSV_FILE.csv") df.to_csv(fname,index=None) 注意:index默認是True,意思是保存行索引,這時候需要一個例子。 data={ "name":["peter","rose","joe"], "career":["teacher","engineer","doctor"] } df=pd.DataFrame(data) df.to_csv("a.csv") #文件內(nèi)容如下,注意每行的開頭自動添加了行索引,從0開始遞增 ,name,career 0,peter,teacher 1,rose,engineer 2,joe,doctor
2.6關(guān)于pandas
pandas是一款快速、強大、靈活且易于使用的開源數(shù)據(jù)分析和操作工具,建立在Python編程語言之上。用了都說好。
3.小結(jié)
其實pandas處理csv文件的方法還有很多,功能非常強大,僅僅是數(shù)據(jù)切分,就有很多方法,有需要的時候,可以去看看文檔。
綜上所述,這篇文章就給大家介紹到這里了,希望可以給各位讀者帶來幫助。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/128349.html
摘要:目標(biāo)很簡單,因為我想要爬一下證券化率,然后可視化輸出結(jié)果。證券化率的基礎(chǔ)就是上市公司的總市值,對于證券化率其實還蠻多說法的,比如雪球的這篇文。我們可以利用這個回調(diào)函數(shù)來顯示當(dāng)前的下載進度。 寫在前面的叨叨 折騰了這么久,我終于在喝完一聽快樂肥宅水后下定決心來學(xué)習(xí)寫爬蟲了。目標(biāo)很簡單,因為我想要爬一下證券化率,然后可視化輸出結(jié)果。證券化率的基礎(chǔ)就是上市公司的總市值,對于證券化率其實還蠻多...
摘要:在中實現(xiàn)機器學(xué)習(xí)功能的種方法來源愿碼內(nèi)容編輯愿碼連接每個程序員的故事網(wǎng)站愿碼愿景打造全學(xué)科系統(tǒng)免費課程,助力小白用戶初級工程師成本免費系統(tǒng)學(xué)習(xí)低成本進階,幫助一線資深工程師成長并利用自身優(yōu)勢創(chuàng)造睡后收入。 在Python中實現(xiàn)機器學(xué)習(xí)功能的4種方法 showImg(https://segmentfault.com/img/remote/1460000018849605); 來源 | ...
閱讀 919·2023-01-14 11:38
閱讀 891·2023-01-14 11:04
閱讀 750·2023-01-14 10:48
閱讀 2039·2023-01-14 10:34
閱讀 956·2023-01-14 10:24
閱讀 835·2023-01-14 10:18
閱讀 506·2023-01-14 10:09
閱讀 583·2023-01-14 10:02