我试图从“华尔街日报”的一篇文章中抓取文本(实际上,我需要多篇文章,但目前我只是试图从这篇WSJ文章中抓取文本)。我使用Python3.x,我使用下面的代码:
import requests
from bs4 import BeautifulSoup
url = 'https://www.wsj.com/articles/SB120584797987545053'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0'}
soup = BeautifulSoup(requests.get(url, headers=headers).content, 'html.parser')
tags = soup('p')
for tag in tags:
print(tag.get_text() + '\n' + '\n')我只从文章文本和一些引用WSJ订阅的文本中返回前两段内容。我已经购买了“华尔街日报”的会员资格,所以它可能需要提供我的证书。知道如何增强我现有的代码并检索所有可用的文本吗?
发布于 2021-12-14 20:37:16
也许整个网站都是异步加载的,而内容还没有完全加载呢?尝试使用一些时间睡眠或时间睡眠外显,内隐等。
https://stackoverflow.com/questions/70355217
复制相似问题