ASCII/SGML
ASCII/SGML 是 EDGAR 提交的标准格式,该格式是 XML 的前身。也是一个标记语言,简单而言他与 XML 最大的区别在于他的元素可以不用包含关闭标签:
上面在 SGML 中是合法的,而在 XML 中就必须写作:
EDGAR 中要求的标签
一个 EDGAR 文档包括 Submission Header
和 Concatenated Documents
两部分内容,其中 Concatenated Documents
又由 Document Header
和 Document Text
两部分组成。每个组成部分能够使用的标签(Tag)的含义也不尽相同,我们解析 SGML 实际上就是针对于不同的标签来提取结果。
Submission Header
: 整个提交文档的元信息,通常包括提交公司、提交时间等相关内容Concatenated Documents
: 他们会以<DOCUMENT> </DOCUMENT>
标签包围表示一个文档,多个文档会顺序串联,这也是Concatenated
的含义Documents Header
: 针对于当前文档的元数据Documents Text
: 针对于当前文档的文本信息
不同的类型具有不同的要求标签。但是所有类型的文档都是基于上面的框架构建的。