问抓取WSJ文章并仅检索文本
EN

Stack Overflow用户

提问于 2021-12-14 20:33:20

回答 1查看 108关注 0票数 0

我试图从“华尔街日报”的一篇文章中抓取文本(实际上，我需要多篇文章，但目前我只是试图从这篇WSJ文章中抓取文本)。我使用Python3.x，我使用下面的代码：

import requests
from bs4 import BeautifulSoup

url = 'https://www.wsj.com/articles/SB120584797987545053'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0'}

soup = BeautifulSoup(requests.get(url, headers=headers).content, 'html.parser')

tags = soup('p')
for tag in tags:
    print(tag.get_text() + '\n' + '\n')

我只从文章文本和一些引用WSJ订阅的文本中返回前两段内容。我已经购买了“华尔街日报”的会员资格，所以它可能需要提供我的证书。知道如何增强我现有的代码并检索所有可用的文本吗？

python

web-scraping

回答 1

Stack Overflow用户

发布于 2021-12-14 20:37:16

也许整个网站都是异步加载的，而内容还没有完全加载呢？尝试使用一些时间睡眠或时间睡眠外显，内隐等。

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70355217

复制

相似问题

问抓取WSJ文章并仅检索文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取WSJ文章并仅检索文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取WSJ文章并仅检索文本
EN