首页 > 其他资讯 > Pandas 入门一：零基础也能懂！3步安装+10分钟玩转数据读取

Pandas 入门一：零基础也能懂！3步安装+10分钟玩转数据读取

时间：26-04-25

「Pandas从入门到精通」系列一：从零到一的起手式，10分钟搞定安装与数据读取

数据分析项目的第一步，常常是处理海量的表格数据。手动操作不仅耗时，还极易出错。Pandas作为Python生态中的数据分析利器，能让你高效、精准地处理Excel或CSV文件，将繁琐工作自动化。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

本指南将带你快速上手Pandas。在接下来的10分钟内，你将完成环境搭建并掌握核心的数据读取方法，为后续的数据清洗、分析与可视化打下坚实基础。

一、第一步：3分钟搞定Pandas安装（零失败）

开始使用Pandas前，需要先完成环境配置。其安装流程简洁明了，无论你的操作系统是Windows、macOS还是Linux，遵循以下三步即可顺利完成。

1. 打开“命令行工具”

这是执行安装命令的入口。
Windows用户：按下Win+R，输入“cmd”后回车，打开命令提示符。
Mac/Linux用户：在应用程序中搜索并打开「终端」（Terminal）。

2. 输入安装命令（复制粘贴就行）

在命令行中，输入以下指令并回车：

pip install pandas

等待安装完成，通常需要1-3分钟。当看到“Successfully installed pandas-xxx”的提示时，即表示安装成功。

3. 新手安装失败？三个解决方案

若安装过程遇到网络或权限问题，可尝试以下三种解决方案：

换用国内镜像源：使用国内镜像能显著提升下载速度。执行命令：
```
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
```
Windows权限不足：在命令末尾添加 --user 参数，为当前用户安装：
```
pip install pandas --user
```
提示“pip不是内部命令”：这通常意味着Python环境变量未正确配置。对于初学者，推荐安装「Anaconda」发行版，它预装了Python、Pandas及一系列科学计算库，能省去环境配置的麻烦。

二、第二步：导入Pandas，给它起个“小名”

安装后，需在Python脚本中导入库才能使用。在你常用的Python编辑器（如PyCharm、VS Code或IDLE）中，于代码文件开头写入：

import pandas as pd  # 核心代码：导入Pandas库，并用pd作为别名

使用“as pd”为Pandas设置别名是数据分析领域的通用惯例。这能大幅简化后续代码，例如调用读取函数时只需书写pd.read_csv()，既高效又专业。

三、第三步：10分钟玩转数据读取（新手最常用2种格式）

Pandas支持多种数据格式，入门阶段掌握「CSV」与「Excel」这两种最常用的格式，即可应对绝大多数业务场景。

1. 先准备工作：让文件“好找”

避免“文件找不到”错误的最佳实践是：将你的数据文件（如 data.csv）与Python脚本置于同一目录下。这样在读取时只需引用文件名，无需处理复杂的绝对路径。

2. 场景一：读取CSV文件（最常用，体积小、速度快）

CSV（逗号分隔值）是数据存储与交换的标准格式，结构简单且通用性强。

示例代码如下：

# 1. 导入Pandas（如果之前已导入，则无需重复）
import pandas as pd

# 2. 读取CSV文件：核心函数pd.read_csv()
df = pd.read_csv("data.csv")  # 括号内替换为你的文件名，如“sales_data.csv”

# 3. 查看数据：默认预览前5行
print("CSV文件前5行数据：")
print(df.head())  # head()函数用于查看头部数据，括号内可指定行数，如df.head(10)

运行后，你会看到一个结构清晰的表格输出：

CSV文件前5行数据：
   姓名  年龄  城市  消费金额
0  张三  25  北京    300
1  李四  32  上海    500
2  王五  28  广州    450
3  赵六  23  深圳    380
4  孙七  35  杭州    600

这个输出在Pandas中称为「DataFrame」，你可以将其理解为一个功能强大的智能表格，后续的数据筛选、清洗与计算都将基于此对象进行。

关键参数解析（解决80%的读取问题）：

sep: 指定分隔符，默认为逗号。对于制表符分隔的文件（TSV），需设置sep='\t'。
header: 指定表头行，默认header=0（第一行）。若文件无表头，则设置header=None。
encoding: 解决中文乱码的关键参数。Windows系统生成的CSV文件常用encoding='gbk'，而Mac/Linux或国际通用格式则多用encoding='utf-8'。

带参数的实用示例：

df = pd.read_csv("data.csv", encoding='gbk', header=0)

3. 场景二：读取Excel文件（日常办公最常用）

读取Excel文件的核心函数是pd.read_excel()，但由于Excel文件结构复杂，需要先安装对应的解析引擎。

(1) 安装依赖库
在命令行中执行以下命令（通常只需安装一次）：

pip install openpyxl  # 用于读取.xlsx格式（Excel 2007及以上版本）
# 如需读取旧的.xls格式文件，请额外安装：
pip install xlrd==1.2.0

(2) 示例代码

import pandas as pd

# 读取Excel文件
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")  # 通过sheet_name指定具体工作表

# 查看前3行数据
print("Excel文件前3行数据：")
print(df.head(3))

(3) 运行结果示意：

Excel文件前3行数据：
   产品名称  销量  单价  销售额
0  手机    100  3000  300000
1  电脑     50  5000  250000
2  平板     80  2000  160000

(4) 关键参数掌握：

sheet_name: 指定工作表，可按名称（如“Sheet1”）或索引（如0表示第一个工作表）指定。
usecols: 仅读取指定列，提升大文件处理效率，例如usecols=[‘姓名’, ‘年龄’]。
index_col: 将某一列设置为行索引，例如index_col=‘产品名称’。

四、新手避坑指南（3个高频问题）

“FileNotFoundError”文件找不到: 首要检查文件是否与代码同目录，以及文件名、后缀名（如.csv误写为.xlsx）是否完全匹配，包括空格。
中文乱码: CSV文件优先尝试encoding='gbk'，其次encoding='utf-8'。Excel文件通常无需特别设置编码。
Excel读取报错: 确保已正确安装openpyxl库。对于.xls旧格式文件，务必安装指定版本xlrd==1.2.0，因为新版本已不再支持.xls格式。