首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我怎么才能从这张桌子上刮出锡克的描述呢?

我怎么才能从这张桌子上刮出锡克的描述呢?
EN

Stack Overflow用户
提问于 2020-07-23 16:02:02
回答 2查看 50关注 0票数 1

我正在努力刮除碳化硅的描述,但我没有成功。我一直在尝试使用请求和漂亮的汤,但我远没有接近。

https://sec.report/CIK/1418076

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-07-23 16:23:55

要获得“SIC”行的值,可以使用以下示例(还需要指定正确的User-Agent ):

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup


url = 'https://sec.report/CIK/1418076'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0'}

soup = BeautifulSoup(requests.get(url, headers=headers).content, 'html.parser')

print( soup.find('td', text="SIC").find_next('td').text )

指纹:

代码语言:javascript
复制
7129: Other Business Financing Companies Investors, Not Elsewhere Classified 6799

编辑:将解析器更改为lxml,以正确解析HTML:

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup

url = 'https://sec.report/CIK/1002771'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0'}

soup = BeautifulSoup(requests.get(url, headers=headers).content, 'lxml')

print( soup.find('td', text="SIC").find_next('td').text )

指纹:

代码语言:javascript
复制
1121: Distillery Products Industry Pharmaceutical Preparations 2834
票数 2
EN

Stack Overflow用户

发布于 2020-07-23 16:25:05

试试下面的代码:

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 '}
r = requests.get('https://sec.report/CIK/1418076', headers=headers)

soup = BeautifulSoup(r.content, 'lxml')

sic = soup.select_one('.table:nth-child(5) tr~ tr+ tr td:nth-child(2)')
print(sic.text)

输出:

7129: Other Business Financing Companies Investors, Not Elsewhere Classified 6799

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63058466

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档