我正在抓取一个页面,在那里我想返回找到的所有字符串。我用的是蟒蛇
我的代码:
import requests
from bs4 import BeautifulSoup as bs
doc = "https://www.kite.com/"
res = requests.get(doc)
soup = bs(res.content, "html.parser")
tag = soup.body
for string in tag.strings:
stringsOut = string
print(stringsOut)我到目前为止是element.navigableString型的。我希望它在一个字符串列表中,其中包含来自页面的所有文本。其中字符串的大小大于8。例如:
result = ['superpowers','languages']发布于 2021-11-24 21:10:11
这个有用吗?
tag = soup.body
my_list = list()
for string in tag.strings:
for word in string.split(' '):
if len(word) > 8:
my_list.append(word)
print(my_list)发布于 2021-11-24 21:42:25
这就是.stripped_strings发挥作用的地方。因为您可能也想去掉空白空间:
tag = soup.body
print([i for i in tag.stripped_strings if len(i) > 8])https://stackoverflow.com/questions/70102792
复制相似问题