Pandas
pandas 提供了快速、灵活且富有表现力的数据结构,旨在更加便捷直观的处理关系(relational)或标记数据(labeled data)。
安装
安装 pandas 最简单的方法就是直接安装Anaconda。Anaconda 是一个用于数据分析和科学计算的跨平台包管理工具。
Note
由于 Anaconda 中默认包含了非常多的数据分析和科学计算包,很多情况下我们用不到,这样就可以通过安装 Miniconda 来使用 conda 来安装包。
最后就是 Python 官方的包管理工具 pip:
Tips
由于 pip 的安装可能存在编译环节,尤其在 windodws 可能会出现编译工具缺失而导致某些库安装失败。
可选依赖项
Pandas 的某些函数需要引入一些其他模块,但是他们默认是不安装的,如果调用了这些函数就需要手动安装对应的依赖项。pip≥19.3 后还提供了一种机制来安装可选依赖包:
Bash
pip install "pandas[excel]" # 安装支持读写 excel 的模块例如 openpyxl
pip install "pandas[performance]" # 性能依赖,推荐安装
pip install "pandas[plot, output-formatting]" # 可视化依赖
pip install "pandas[computation]" # 计算模块
pip install "pandas[html, xml]" # html xml 解析器
# postgresql 时会出问题, 可以安装 psycopg2-binary
pip install "pandas[postgresql, mysql, sql-other]" # SQL 数据库引擎
pip install "pandas[hdf5, parquet, feather, spss, excel]" # 其他数据源
pip install "pandas[compression]" # 压缩支持
pip install "pandas[all]" # 安装所有依赖
使用流程
- 构造 pandas 使用的数据结构,核心就是类表格数据DataFrame,pandas 提供了特定方法来从各种源来构造 DataFrame
- 需要对数据源进行数据清洗和整理,这主要涉及到重复和 null 数据
- 之后从数据源中选择数据子集以及向现有的的表格中插入新列来整理需要的数据源,这其中还可能牵扯对不同数据类型的特殊操作
- 将多个数据合并为最终需要的数据
- 对最终的数据进行分类汇总统计数据
- pandas 还集成了各种工具来可视化呈现数据