Skip to content

ASCII/SGML

ASCII/SGML 是 EDGAR 提交的标准格式,该格式是 XML 的前身。也是一个标记语言,简单而言他与 XML 最大的区别在于他的元素可以不用包含关闭标签:

Text Only
<SUB>
<DATE>20211110
<LABEL>
</SUB>

上面在 SGML 中是合法的,而在 XML 中就必须写作:

XML
<SUB>
<DATE>20211110</DATE>
<LABEL/>
</SUB>

EDGAR 中要求的标签

一个 EDGAR 文档包括 Submission HeaderConcatenated Documents 两部分内容,其中 Concatenated Documents 又由 Document HeaderDocument Text 两部分组成。每个组成部分能够使用的标签(Tag)的含义也不尽相同,我们解析 SGML 实际上就是针对于不同的标签来提取结果。

  • Submission Header: 整个提交文档的元信息,通常包括提交公司、提交时间等相关内容
  • Concatenated Documents: 他们会以 <DOCUMENT> </DOCUMENT> 标签包围表示一个文档,多个文档会顺序串联,这也是 Concatenated 的含义
    • Documents Header: 针对于当前文档的元数据
    • Documents Text: 针对于当前文档的文本信息

不同的类型具有不同的要求标签。但是所有类型的文档都是基于上面的框架构建的

参考