首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >美丽的汤找不到线

美丽的汤找不到线
EN

Stack Overflow用户
提问于 2013-08-30 22:30:59
回答 2查看 2.5K关注 0票数 2

在解析http://en.wikipedia.org/wiki/Israel时,我遇到一个包含文本的H2标记,但Beautiful Soup为它返回了一个None类型:

代码语言:javascript
复制
$ python
Python 2.7.3 (default, Apr 10 2013, 05:13:16)
[GCC 4.7.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import bs4
>>> import requests
>>> from pprint import pprint
>>> response = requests.get('http://en.wikipedia.org/wiki/Israel')
>>> soup = bs4.BeautifulSoup(response.content)
>>> for h in soup.find_all('h2'):
...     pprint(str(type(h)))
...     pprint(h)
...     pprint(str(type(h.string)))
...     pprint(h.string)
...     print('--')
...                     
"<class 'bs4.element.Tag'>"
<h2>Contents</h2>    
"<class 'bs4.element.NavigableString'>"
u'Contents'          
--                   
"<class 'bs4.element.Tag'>"
<h2><span class="mw-headline" id="Etymology"><span id="Etymology"></span> Etymology</span></h2>
"<type 'NoneType'>"  
None                 
--                   
"<class 'bs4.element.Tag'>"
<h2><span class="mw-headline" id="History">History</span></h2>
"<class 'bs4.element.NavigableString'>"
u'History'           
--

请注意,这不是解析问题,Beautiful Soup可以很好地解析文档。为什么第二个H2元素返回None类型?是不是因为字符串中的前导“”(空格)?我该如何解决这个问题呢?这是Python 2.7,Kubuntu Linux 12.10上的Beautiful Soup 4。

EN

回答 2

Stack Overflow用户

发布于 2013-08-30 22:41:58

我先回答前半部分,出了什么问题...

引用documentation of bs4中的话:“如果一个标记包含多个内容,那么就不清楚.string应该引用什么,所以.string被定义为None。”

现在,另一半,如何修复它。

再次引用同一来源:“如果一个标记中有多个东西,您仍然可以只查看字符串。使用.strings生成器。”更好的是,使用.stripped_strings生成器,连接结果,我想你会得到你想要的。

票数 2
EN

Stack Overflow用户

发布于 2013-08-30 22:44:57

我认为这是因为第二个h2没有文本,相反,它有一个span作为孩子(该跨度有另一个孩子作为它的孩子,这使该h2的孙子。

对于这种解析,请使用基于生成器的属性,如.stripped_strings.strings

代码语言:javascript
复制
>>> s.find_all('h2')
[<h2>Contents</h2>, <h2><span class="mw-headline" id="Etymology"><span id="Etymology"></span> Etymology</span></h2>]
>>> list(s.find_all('h2')[-1].stripped_strings)
[u'Etymology']
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18535408

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档