文章/答案/技术大牛

发布

社区首页 >问答首页 >使用R从SEC抓取13F个文件

问使用R从SEC抓取13F个文件
EN

Stack Overflow用户

提问于 2021-07-02 23:17:52

回答 2查看 87关注 0票数 0

我正在尝试从以下链接中获取SEC FORM 13-F Information Table中的数据：

https://sec.report/Document/0001567619-21-010281/

我尝试了以下脚本：

library(timetk)
library(tidyverse)
library(rvest)
url <- "https://sec.report/Document/0001567619-21-010281/"
url <- read_html(url)
raw_data <- url %>%
  html_nodes("#table td") %>%
  html_text()

但是，我无法获取数据组件，并且在values下，它显示raw_data为空。任何帮助都将不胜感激。

web-scraping

sec

回答 2

Stack Overflow用户

发布于 2021-07-03 23:43:41

数据出现在响应中。您可以使用CSS attribute = value选择器来确定嵌套表的目标。您需要决定用最初的三行来决定什么，这三行最有可能(也可能不是)转换为单个标题。

library(rvest)
library(magrittr)

page <- read_html("https://sec.report/Document/0001567619-21-010281/")

table <- page %>%
  html_node('[summary="Form 13F-NT Header Information"]') %>%
  html_table(fill = T)

票数 0

Stack Overflow用户

发布于 2022-01-01 21:24:46

从html页面使用13F要简单得多，下面是一个示例

import pandas as pd
import requests
import numpy as np


# Makes a request to the url
url="https://www.sec.gov/Archives/edgar/data/1541617/000154161721000009/xslForm13F_X01/altcap13f3q21infotable.xml"
request = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})

# Pass the html response into read_html
tables = pd.read_html(request.text)
df = tables[3]

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68227653

复制

相似问题

问使用R从SEC抓取13F个文件
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用R从SEC抓取13F个文件EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用R从SEC抓取13F个文件
EN