Skip to content

JSON

JSON 因为有官方的标准要比 CSV 更加的规范,并且他也是网络传递数据的事实标准,并且他和 Python 中的字典非常类似因此是非常重要的数据格式。

read_json

read_json用于从 JSON 格式文件中读取数据来构造 DataFrame:

Python
def read_json(
    path, # 要读取的 json 的文件路径
    orient, # 内容格式,可以查看 dict
    convent_dates: bool|list[str]=True, # 根据 keep_default_dates 来转换日期,也可以指定
    keep_default_dates: bool=True, # 识别以 _at _time timestamp 开始或 modified date 的列为时间列
    lines: bool=False, # 针对于 jsonlines 即每行一个 JSON 对象
    chunksize: int=None, # 如果 lines=True,则会返回一个 JsonReader 迭代器其中包含 chunksize 行数据,他避免过大的 jsonlines 导致的内存溢出
    compression='infer', # 默认根据文件名执行压缩
):
    pass

to_json

to_json用的相对少一些,还有就是可以转换为 dict 然后直接用 json.dumps 来实现同样的效果。