如何使用熊猫将Excel数据导入Python脚本

Microsoft Excel是世界上使用最广泛的电子表格软件,这有充分的理由:友好的用户界面和强大的内置工具使处理数据变得简单。

如果您想进行更高级的数据处理,则需要超越Excel的功能,并开始使用脚本/编程语言(如Python)。而不是将数据手动复制到数据库中,这是一个有关如何使用Pandas将Excel数据加载到Python中的快速教程。

注意:如果您以前从未使用过Python,本教程可能有点困难。我们建议从这些网站开始学习Python。

什么是熊猫?

Python数据分析库(“ Pandas")是Python的开源库。

Pandas将数据加载到称为 Dataframes 的Python对象中,该对象像传统数据库一样按行和列存储数据。创建数据框后,就可以使用Python对其进行操作,从而开辟了无限的可能性。

安装熊猫

注意:使用Python 2.7或更高版本来安装Pandas。

要在您的计算机上开始使用Pandas,您需要导入Pandas库。如果您正在寻找重量级的解决方案,则可以下载内置有Pandas的Anaconda Python发行版。如果您不使用Anaconda,则可以轻松在终端中安装Pandas。

Pandas是PyPI软件包,这意味着您可以通过命令行使用适用于Python的PIP进行安装。现代Mac系统随附PIP。对于其他Windows,Linux和较旧的系统,很容易学习如何为Python安装PIP。

打开终端后,可以使用以下命令安装最新版本的Pandas:

>> pip install pandas

熊猫还需要NumPy库,我们也可以在命令行上安装它:

>> pip install numpy

您现在已经安装了熊猫,并准备创建第一个DataFrame!

准备Excel数据

在此示例中,我们使用一个示例数据集:一个名为 Cars.xlsx 的Excel工作簿。

此数据set显示输入表中的汽车的品牌,型号,颜色和年份。该表显示为Excel范围。熊猫足够聪明,可以正确地读取数据。

此工作簿已保存到桌面目录,这是使用的文件路径:

/Users/grant/Desktop/Cars.xlsx

您将需要知道以下内容的文件路径:利用熊猫的工作簿。首先,打开Visual Studio Code编写脚本。如果您没有文本编辑器,我们建议您使用Visual Studio Code或Atom Editor。

编写Python脚本

现在,您可以使用以下文本编辑器:选择,真正的乐趣开始了。我们将Python和我们的Cars工作簿放在一起,以创建Pandas DataFrame。

打开文本编辑器并创建一个新的Python文件。我们称它为 Script.py

为了在脚本中使用熊猫,您需要将其导入代码中。这是用一行代码完成的:

import pandas as pd

在这里,我们正在加载Pandas库并将其附加到变量“ pd"。您可以使用任何名称,我们使用“ pd"作为Pandas的缩写。

要使用Pandas使用Excel,您需要一个名为 ExcelFile 的附加对象。 ExcelFile内置在Pandas生态系统中,因此您可以直接从Pandas导入:

from pandas import ExcelFile

为了使Pandas可以访问您的工作簿,您需要将脚本定向到文件的位置。最简单的方法是为脚本提供工作簿的完整路径。

在此示例中,请回忆我们的路径: /Users/grant/Desktop/Cars.xlsx

您将需要脚本中引用的该文件路径来提取数据。通过将路径存储在变量中,可以保持代码整洁,而不是引用Read_Excel函数内部的路径:

Cars_Path = '/Users/grant/Desktop/Cars.xlsx'

您现在可以使用熊猫函数提取数据了!

导入了Pandas并设置了路径变量后,您现在可以使用Pandas对象中的函数来完成我们的任务。

您将需要使用的函数被适当地命名为 Read_Excel 。 Read_Excel函数采用Excel工作簿的文件路径,并返回带有工作簿内容的DataFrame对象。熊猫将此函数编码为:

pandas.read_excel(path)

“ path"参数将成为Cars.xlsx工作簿的路径,并且我们已经将路径字符串设置为变量Cars_Path。

您准备创建DataFrame对象!让我们放在一起,然后将DataFrame对象设置为一个名为“ DF"的变量:

DF = pd.read_excel(Cars_Path)

最后,您要查看DataFrame,以便打印结果。使用DataFrame变量作为参数,在脚本末尾添加一条打印语句:

print(DF)

在终端中运行脚本的时间!

打开终端或命令行,并导航到存放脚本的目录。在这种情况下,我在桌面上有“ Script.py"。要执行脚本,请使用python命令,后跟脚本文件:

Python将从“ Cars.xlsx"中提取数据到新的DataFrame中,并将DataFrame打印到终端上!

乍一看,DataFrame看起来与常规Excel表非常相似。因此,Pandas DataFrames易于解释。

您的标头被标记在数据集的顶部,并且Python在行中填充了从“ Cars.xlsx"工作簿中读取的所有信息。

请注意最左边的列,索引从0开始并为列编号。熊猫默认会将此索引应用于您的DataFrame,这在某些情况下会很有用。如果您不希望生成此索引,则可以在代码中添加一个附加参数:

DF = pd.read_excel(Cars_Path, index=False)

将参数“ index"设置为False将会删除索引列,仅保留Excel数据。

使用Python做更多的事情

现在,您已经能够从Excel工作表中读取数据,因此您可以选择任何方式应用Python编程。使用Pandas是经验丰富的Python程序员处理Excel工作簿中存储的数据的一种简单方法。

使用Python轻松分析和操作数据是Python成为Python的众多原因之一。未来的编程语言。

图片来源:Rawpixel / Depositphotos

标签: