[譯]從列表或字典創建Pandas的DataFrame對象

zhaochunqi 發布于2019-07-30 17:57 / 613人閱讀

摘要：在這些情況下，了解如何從標準列表或字典創建會很有幫助。大多數人會注意到列的順序看起來不對。這個問題出現的原因是標準的字典不保留其鍵的順序。列表從創建的另一個選擇是將數據包含在列表結構中。

介紹

每當我使用pandas進行分析時，我的第一個目標是使用眾多可用選項中的一個將數據導入Pandas的DataFrame 。
對于絕大多數情況下，我使用的 read_excel ， read_csv 或 read_sql 。

但是，有些情況下我只需要幾行數據或包含這些數據里的一些計算。
在這些情況下，了解如何從標準python列表或字典創建DataFrames會很有幫助。
基本過程并不困難，但因為有幾種不同的選擇，所以有助于理解每種方法的工作原理。
我永遠記不住我是否應該使用 from_dict ， from_records ， from_items 或默認的 DataFrame 構造函數。
通常情況下，通過一些反復試驗和錯誤，我能搞定它。但由于它仍然讓我感到困惑，我想我會通過以下幾個例子來澄清這些不同的方法。
在本文的最后，我簡要介紹了在生成Excel報表時如何使用它。

從Python的數據結構中生成DataFrame

您可以使用多種方法來獲取標準python數據結構并創建Pandas的DataFrame。
出于這些示例的目的，我將為3個虛構公司創建一個包含3個月銷售信息的DataFrame。

字典

在展示下面的示例之前，我假設已執行以下導入：

import pandas as pd
from collections import OrderedDict
from datetime import date

從python創建DataFrame的“默認”方式是使用字典列表。在這種情況下，每個字典鍵用于列標題。將自動創建默認索引：

sales = [{"account": "Jones LLC", "Jan": 150, "Feb": 200, "Mar": 140},
         {"account": "Alpha Co",  "Jan": 200, "Feb": 210, "Mar": 215},
         {"account": "Blue Inc",  "Jan": 50,  "Feb": 90,  "Mar": 95 }]
df = pd.DataFrame(sales)

如您所見，這種方法非常“面向行”。如果您想以“面向列”的方式創建DataFrame，您可以使用 from_dict

sales = {"account": ["Jones LLC", "Alpha Co", "Blue Inc"],
         "Jan": [150, 200, 50],sheng cheng
         "Feb": [200, 210, 90],
         "Mar": [140, 215, 95]}
df = pd.DataFrame.from_dict(sales)

使用此方法，您可以獲得與上面相同的結果。需要考慮的關鍵點是哪種方法更容易理解您獨特的使用場景。
有時，以面向行的方式獲取數據更容易，而其他時候以列為導向的則更容易。
了解這些選項將有助于使您的代碼更簡單，更易于理解，以滿足您的特定需求。

大多數人會注意到列的順序看起來不對。這個問題出現的原因是標準的python字典不保留其鍵的順序。
如果要控制列順序，則有兩種方式。

第一種，您可以手動重新排序列：

df = df[["account", "Jan", "Feb", "Mar"]]

或者你可以使用python中的OrderedDict 創建你的有序字典。

sales = OrderedDict([ ("account", ["Jones LLC", "Alpha Co", "Blue Inc"]),
          ("Jan", [150, 200, 50]),
          ("Feb",  [200, 210, 90]),
          ("Mar", [140, 215, 95]) ] )
df = pd.DataFrame.from_dict(sales)

這兩種方法都會按照您可能期望的順序為您提供結果。

由于我在下面概述的原因，我傾向于專門重新排序我的列，盡管使用OrderedDict一直是一個很好理解的選項。

列表

從python創建DataFrame的另一個選擇是將數據包含在列表結構中。
第一種方法是使用pandas進行面向行的方法 from_records 。此方法類似于字典方法，但您需要顯式調出列標簽。

sales = [("Jones LLC", 150, 200, 50),
         ("Alpha Co", 200, 210, 90),
         ("Blue Inc", 140, 215, 95)]
labels = ["account", "Jan", "Feb", "Mar"]
df = pd.DataFrame.from_records(sales, columns=labels)

第二種方法是 from_items 面向列的，實際上看起來類似于 OrderedDict 上面的例子。

sales = [("account", ["Jones LLC", "Alpha Co", "Blue Inc"]),
         ("Jan", [150, 200, 50]),
         ("Feb", [200, 210, 90]),
         ("Mar", [140, 215, 95]),
         ]
df = pd.DataFrame.from_items(sales)

這兩個示例都將生成以下DataFrame：

各種選項的直觀總結

為了保持各種選項在我的腦海中清晰，我將這個簡單的圖形放在一起，以顯示字典與列表選項以及行與列導向的方法。
這是一個2X2的網格，所以我希望所有來詢問的人都留下深刻的印象！

為簡單起見，我沒有展示 OrderedDict 方法，因為這種 from_items 方法可能更像是一個現實世界的解決方案。
如果這有點難以閱讀，您也可以獲得PDF版本。

簡單的例子

對于一個簡單的概念，這似乎有很多解釋。
但是，我經常使用這些方法來構建小型DataFrame，并將其與更復雜的分析結合起來。

舉一個例子，假設我們要保存我們的DataFrame并包含一個頁腳，以便我們知道它何時被創建以及它是由誰創建的。
如果我們填充DataFrame并將其寫入Excel比我們嘗試將單個單元格寫入Excel更容易。

拿我們現有的DataFrame：

sales = [("account", ["Jones LLC", "Alpha Co", "Blue Inc"]),
         ("Jan", [150, 200, 50]),
         ("Feb", [200, 210, 90]),
         ("Mar", [140, 215, 95]),
         ]
df = pd.DataFrame.from_items(sales)

現在構建一個頁腳（以列為導向）：

from datetime import date

create_date = "{:%m-%d-%Y}".format(date.today())
created_by = "CM"
footer = [("Created by", [created_by]), ("Created on", [create_date]), ("Version", [1.1])]
df_footer = pd.DataFrame.from_items(footer)

合并進入一個Excel中的一個sheet：

writer = pd.ExcelWriter("simple-report.xlsx", engine="xlsxwriter")
df.to_excel(writer, index=False)
df_footer.to_excel(writer, startrow=6, index=False)
writer.save()

這里的秘訣是使用 startrow 在銷售數據框架下面寫入頁腳DataFrame。還有一個相應的startcol，所以你可以控制成為你想要的列布局。
這使得基本 to_excel 功能具有很大的靈活性。

總結

大多數Pandas用戶很快就熟悉了電子表格，CSV和SQL數據的攝取。
但是，有時您會在基本列表或字典中包含數據并希望填充DataFrame。
Pandas提供了幾種選擇，但可能并不總是立即明確何時使用哪種選擇。

沒有一種方法是“最好的”，它實際上取決于您的需求。
我傾向于喜歡基于列表的方法，因為我通常關心排序，列表確保我保留順序。
最重要的是要知道這些選項是可用的，這樣您就可以聰明地使用最簡單的選項來滿足您的特定情況。

從表面上看，這些代碼樣例看似簡單，但我發現使用這些方法生成快速的信息片非常常見，他們可以增加或澄清更復雜的分析。
DataFrame中數據的好處在于它很容易轉換為其他格式，如Excel，CSV， HTML，LaTeX等。
這種靈活性對于臨時報告生成非常方便。

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/42528.html

【數據科學系統學習】Python # 數據分析基本操作[二] pandas

摘要：中面向行和面向列的操作基本是平衡的。用層次化索引，將其表示為更高維度的數據。使用浮點值表示浮點和非浮點數組中的缺失數據。索引的的格式化輸出形式選取數據子集在內層中進行選取層次化索引在數據重塑和基于分組的操作中很重要。我們在上一篇介紹了 NumPy，本篇介紹 pandas。 pandas入門 Pandas 是基于Numpy構建的，讓以NumPy為中心的應用變的更加簡單。 pandas...

jayzou 2019-07-31 11:11 評論0 收藏0
【數據科學系統學習】Python # 數據分析基本操作[四] 數據規整化和數據聚合與分組運算

摘要：數據規整化清理轉換合并重塑數據聚合與分組運算數據規整化清理轉換合并重塑合并數據集可根據一個或多個鍵將不同中的行鏈接起來。函數根據樣本分位數對數據進行面元劃分。字典或，給出待分組軸上的值與分組名之間的對應關系。本篇內容為整理《利用Python進行數據分析》，博主使用代碼為 Python3，部分內容和書本有出入。在前幾篇中我們介紹了 NumPy、pandas、matplotlib 三個...

The question 2019-07-31 11:11 評論0 收藏0
一文帶你斬殺Python之Numpy??Pandas全部操作【全網最詳細】???

目錄Numpy簡介Numpy操作集合1、不同維度數據的表示1.1 一維數據的表示1.2 二維數據的表示1.3 三維數據的表示2、為什么要使用Numpy2.1、Numpy的ndarray具有廣播功能2.2 Numpy數組的性能比Python原生數據類型高3 ndarray的屬性和基本操作3.1 ndarray的基本屬性3.2 ndarray元素類型3.3 創建ndarray的方式3.4 ndarr...

asoren 2021-09-09 09:34 評論0 收藏0
Pandas庫基礎分析——數據生成和訪問

摘要：本文著重介紹這兩種數據結構的生成和訪問的基本方法。是一種類似于一維數組的對象，由一組數據一維數組對象和一組與之對應相關的數據標簽索引組成。注當數據未指定索引時，會自動創建整數型索引注通過字典創建，可視為一個定長的有序字典。前言 Pandas是Python環境下最有名的數據統計包，是基于 Numpy 構建的含有更高級數據結構和工具的數據分析包。Pandas圍繞著 Series 和 Da...

Jonathan Shieber 2019-07-30 15:42 評論0 收藏0
python_pandas學習

摘要：的名稱來自于面板數據和數據分析。以下的內容主要以為主。終端輸入導入相關模塊是一種類似于一維數組的對象，它由一組數據各種數據類型以及一組與之相關的數據標簽即索引組成。如果僅傳入一個序列，則會重新索引行函數的參數參數說明用作索引的新序列。原文鏈接 numPy pandas的數據結構介紹簡介 Pandas [1] 是python的一個數據分析包，最初由AQR Capital Mana...

codercao 2019-07-30 16:10 評論0 收藏0