我正在抓取一个网站,
标签是:
<div class="content"
<p>
"C Space"
<br>
"802 white avenue"
<br>
"xyz 123"
<br>
"Lima"
</p>当我使用下面的命令来获取文本时:
html=urlopen("something")
bsObj = BeautifulSoup(html,"html5lib")
templist = bsObj.find("div",{"class":"content"})
print(templist.get_text())我得到了以下输出:c Space802 white avenuexyz 123Lima
而我希望输出是:C空间,802,白色大道,xyz 123,Lima。
从后续br标签获取数据时,如何添加额外的空格?
谢谢
发布于 2017-04-27 16:55:53
您可以使用.get_text()参数:
In [4]: elm = soup.select_one(".content")
In [5]: print(elm.get_text(strip=True, separator=" "))
"C Space" "802 white avenue" "xyz 123" "Lima"发布于 2017-04-27 14:09:30
您可以在此处使用split和join:
>>> ' '.join(templist.get_text().split())
'"C Space" "802 white avenue" "xyz 123" "Lima"'https://stackoverflow.com/questions/43644933
复制相似问题