Skip to content

从数据源中构建 DataFrame

pandas 包括一组顶级的 read_xxx I/O API 函数用于从各种源读取数据来构造DataFrame对象。同样的 DataFrame 对象也提供了类似 to_xxx 方法来将数据导出到不同类型的数据文件中:

I/O API

类型 Reader Writer
CSV read_csv() to_csv()
JSON read_json() to_json()
Excel read_excel() to_excel()
parquet read_parquet() to_parquet()
Stata read_stata() to_stata()
SQL read_sql() to_sql()
dict from_dict() to_dict()
records from_records() to_records()

dtype_backend

大多数 read_* 类方法都具有该属性,它表示构建 DataFrame 使用的后端类型系统,默认是 numpy 我们可以指定其他值:

  • "numpy_nullable": 使用 NA 来表示字符串、整数和布尔值的缺失值
  • "pyarrow": 使用 pyarrow 作为后端的类型系统,他外在表现就是统一使用 NA 作为缺失值

Tips

Pandas 之后会慢慢切换到 pyarrow 上,不过目前依然是测试阶段

compression

对于所有文本或字节类型的导入导出都有该方法,它用于压缩或者解压文件。默认都是 "infer" 即自动根据文件名检测,他支持检测 .gz .bz2 .zip .xz .zst .tar .tar.gz .tar.xz .tar.bz2

参考