从数据源中构建 DataFrame
pandas 包括一组顶级的 read_xxx
I/O API 函数用于从各种源读取数据来构造DataFrame对象。同样的 DataFrame 对象也提供了类似 to_xxx
方法来将数据导出到不同类型的数据文件中:
类型 | Reader | Writer |
---|---|---|
CSV | read_csv() |
to_csv() |
JSON | read_json() |
to_json() |
Excel | read_excel() |
to_excel() |
parquet | read_parquet() |
to_parquet() |
Stata | read_stata() |
to_stata() |
SQL | read_sql() |
to_sql() |
dict | from_dict() |
to_dict() |
records | from_records() |
to_records() |
dtype_backend
大多数 read_*
类方法都具有该属性,它表示构建 DataFrame 使用的后端类型系统,默认是 numpy 我们可以指定其他值:
"numpy_nullable"
: 使用 NA 来表示字符串、整数和布尔值的缺失值"pyarrow"
: 使用 pyarrow 作为后端的类型系统,他外在表现就是统一使用 NA 作为缺失值
Tips
Pandas 之后会慢慢切换到 pyarrow 上,不过目前依然是测试阶段
compression
对于所有文本或字节类型的导入导出都有该方法,它用于压缩或者解压文件。默认都是 "infer"
即自动根据文件名检测,他支持检测 .gz .bz2 .zip .xz .zst .tar .tar.gz .tar.xz .tar.bz2
。