JSON
JSON 因为有官方的标准要比 CSV 更加的规范,并且他也是网络传递数据的事实标准,并且他和 Python 中的字典非常类似因此是非常重要的数据格式。
read_json
read_json用于从 JSON 格式文件中读取数据来构造 DataFrame:
Python
def read_json(
path, # 要读取的 json 的文件路径
orient, # 内容格式,可以查看 dict
convent_dates: bool|list[str]=True, # 根据 keep_default_dates 来转换日期,也可以指定
keep_default_dates: bool=True, # 识别以 _at _time timestamp 开始或 modified date 的列为时间列
lines: bool=False, # 针对于 jsonlines 即每行一个 JSON 对象
chunksize: int=None, # 如果 lines=True,则会返回一个 JsonReader 迭代器其中包含 chunksize 行数据,他避免过大的 jsonlines 导致的内存溢出
compression='infer', # 默认根据文件名执行压缩
):
pass
to_json
to_json用的相对少一些,还有就是可以转换为 dict 然后直接用 json.dumps 来实现同样的效果。