Skip to content

jsonlines 格式介绍

jsonlines也称为newline-delimited JSON格式,它实际上是JSON格式的引申。

它每一行都是一个标准的 JSON 格式字符串,而通过行分隔。由于这种机制它保留了 json 优点的同时还能够很好的流式处理文本。

规范

jsonlines 的规范很简单,只包括三条强制的和一条建议:

  1. 要求每一行的 JSON 必须是 utf-8 编码
  2. 每一行都必须是符合标准的 JSON 值
  3. 行分隔符是 \n,这意味着 \r\n 也支持,因为解析 JSON 时会忽略周围空格
  4. (建议)扩展名推荐 .jsonl,如果使用了其他流式压缩器可以添加对应的后缀例如 .jsonl.gz.jsonl.xz