首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >抓取WSJ文章并仅检索文本

抓取WSJ文章并仅检索文本
EN

Stack Overflow用户
提问于 2021-12-14 20:33:20
回答 1查看 108关注 0票数 0

我试图从“华尔街日报”的一篇文章中抓取文本(实际上,我需要多篇文章,但目前我只是试图从这篇WSJ文章中抓取文本)。我使用Python3.x,我使用下面的代码:

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup

url = 'https://www.wsj.com/articles/SB120584797987545053'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0'}

soup = BeautifulSoup(requests.get(url, headers=headers).content, 'html.parser')

tags = soup('p')
for tag in tags:
    print(tag.get_text() + '\n' + '\n')

我只从文章文本和一些引用WSJ订阅的文本中返回前两段内容。我已经购买了“华尔街日报”的会员资格,所以它可能需要提供我的证书。知道如何增强我现有的代码并检索所有可用的文本吗?

EN

回答 1

Stack Overflow用户

发布于 2021-12-14 20:37:16

也许整个网站都是异步加载的,而内容还没有完全加载呢?尝试使用一些时间睡眠或时间睡眠外显,内隐等。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70355217

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档