文章/答案/技术大牛

发布

社区首页 >问答首页 >从网页中抓取数据属性

问从网页中抓取数据属性
EN

Stack Overflow用户

提问于 2021-03-10 12:14:30

回答 2查看 143关注 0票数 0

你好，我是一个新的网络刮刮和我有一个问题。我想要从这个html代码中刮取数据：

我希望拥有属于

<tr> .. </tr>

标签。

我的代码如下所示：

from bs4 import BeautifulSoup
import requests

html_text = requests.get('https://www.basketball-reference.com/leagues/').text
soup = BeautifulSoup(html_text, 'lxml')
rows = soup.select('tr[data-row]')

print(rows)

我受到这个thread的启发，但它正在返回一个空数组。有人能帮我吗

python

html

web-scraping

beautifulsoup

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-03-10 12:22:57

如何使用pandas使您的网络抓取生活(有点)更容易？

下面是操作步骤：

import pandas as pd
import requests

df = pd.read_html(requests.get('https://www.basketball-reference.com/leagues/').text, flavor="bs4")
df = pd.concat(df)
df.to_csv("basketball_table.csv", index=False)

输出：

票数 0

Stack Overflow用户

发布于 2021-03-10 12:37:48

正如我在评论中所说的，似乎在客户端添加了属性data-row --我在HTML中找不到它。

解决这个问题的一个简单快捷的方法是更改css选择器。我想出了这样的东西

rows = soup.select('tr')
for row in rows:
    if row.th.attrs['data-stat']=='season' and 'scope' in row.th.attrs:
        print(row)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66564598

复制

相似问题

问从网页中抓取数据属性
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从网页中抓取数据属性EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从网页中抓取数据属性
EN