我的要求是解析SEC表格数据。请在下图中找到示例表格数据。

我正在使用Python来实现它。我发现表格数据是以XBRL格式存储的。一开始,我尝试像使用lxml模块解析XML一样解析XBRL数据。后来我意识到这是一个复杂的解析模型,而且我们有很多用于解析XBRL文档的库。我研究过不同的库,比如python-xbrl、xbrl和用于解析raptorXMLXBRL文档的已安装服务器( XBRL服务器)。但没有一个像预期的那样工作。正如我前面提到的,我的目标是从SEC获得表格数据。我们可以在this链接中找到示例文档。您能给我推荐一个解析表格数据的流程/模块吗?提前谢谢。
发布于 2020-03-04 04:56:20
和您一样,我也尝试过使用python中任何可用的工具解析xbrl文档,但都没有成功。因此,解决这个问题的一种方法是进入xbrl文件的底层html文件。
因此,为了使用您的示例链接,前10K的url是
https://www.sec.gov/ix?doc=/Archives/edgar/data/1551152/000155115220000007/abbv-20191231x10k.htm只需从url中去掉/ix?doc=字符串,剩下的就是
https://www.sec.gov/Archives/edgar/data/1551152/000155115220000007/abbv-20191231x10k.htm
这是相同的10k文件,但以html格式。在那里,你可以使用普通的html工具来提取你感兴趣的任何数据。
https://stackoverflow.com/questions/60501747
复制相似问题