SEC.GOV对GET请求的响应:
您的请求已被标识为可接受策略之外的自动化工具网络的一部分,并将被管理,直到采取行动声明您的traffic.Please,通过更新您的用户代理来包括公司的特定信息来声明您的流量。
即使在get请求中添加用户代理之后,我也会得到403个错误。我能够从本地和Azure云访问sec.gov,没有任何问题。这是只发生在AWS从过去的4-5天。不知道为什么?任何帮助都很感激!
我正在做的事情是:
import requests
url_1 = 'https://www.sec.gov'
url_2 = 'https://www.sec.gov/Archives/edgar/data/0001781258/000178125821000028/0001781258-21-000028-index.html'
HEADERS = {'User-Agent': 'TEST'}
# Both of the below get requests gives 403 error
print(requests.get(url_1, headers=HEADERS))
print(requests.get(url_2, headers=HEADERS))
发布于 2021-09-29 07:40:53
检查此链接:https://www.sec.gov/os/webmaster-faq#user-agent
在这里,我使用PHP & CURL并使用以下代码解析它:
$curl_headers = array( 'User-Agent: MyDomainName.com info@MyDomainName.com',
'Accept-Encoding: gzip, deflate',
'Host: www.sec.gov');
$ch = curl_init();
curl_setopt($ch, CURLOPT_HTTPHEADER, $curl_headers);
curl_setopt($ch, CURLOPT_HEADER, TRUE);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_USERAGENT, "MyDomainName.com info@MyDomainName.com");
curl_setopt($ch, CURLOPT_ENCODING, '');
curl_setopt($ch, CURLOPT_URL, $url);
$html = curl_exec($ch);
curl_close($ch);https://stackoverflow.com/questions/69349114
复制相似问题