首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python爬行:从<em></em>中选择文本

Python爬行:从<em></em>中选择文本
EN

Stack Overflow用户
提问于 2017-06-08 15:14:16
回答 1查看 74关注 0票数 0

我在学习python爬行时遇到了以下问题:

代码语言:javascript
复制
from bs4 import  BeautifulSoup
import requests

url = 'http://www.zhipin.com/job_detail/1411924978.html'

result = requests.get(url)
soup = BeautifulSoup(result.text,'lxml').select('#main > div.job-banner > div > div > div.info-company > p')

print(soup[1])

print(soup[1].get_text())

结果是:

代码语言:javascript
复制
<p>IT软件<em class="vline"></em>已上市<em class="vline"></em>10000人以上</p>

IT软件已上市10000人以上

但是我想要的print(soup[1].get_text())是这样的:

IT软件 已上市 10000人以上

代码语言:javascript
复制
IT软件
已上市
10000人以上

我该怎么写密码?

太感谢了!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-06-08 15:24:43

你可以试试:

代码语言:javascript
复制
print soup[1].getText(separator=u' ') # space separator
print soup[1].getText(separator=u'\n') # newline separator

产出如下:

代码语言:javascript
复制
>>> print soup[1].getText(separator=u' ')
IT软件 已上市 10000人以上
>>> print soup[1].getText(separator=u'\n')
IT软件
已上市
10000人以上

资料来源:another SO answer =>在问问题之前请先研究一下你的问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44439576

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档