首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >python :提取HTML元素的内容

python :提取HTML元素的内容
EN

Stack Overflow用户
提问于 2014-05-10 22:31:40
回答 2查看 133关注 0票数 0

HTML页面中有如下格式的元素:

代码语言:javascript
复制
<td class="cell1"><b>Dave Mason's Traffic Jam</b></td><td class="cell2">Scottish Rite
Auditorium</td><td class="cell3">$29-$45</td><td class="cell4">On sale now</td><td class="cell5"><a 
href="http://www.ticketmaster.com/dave-masons-traffic-jam-collingswood-new-jersey-11-29-2014/event  
/02004B48C416D202?artistid=1033927&majorcatid=10001&minorcatid=1&tm_link=venue_msg-
1_02004B48C416D202" target="_blank">TIX</a></td><td class="cell6">AA</td><td 
class="cell7">Philadelphia</td>

我想使用python从文本中分别提取"Dave的交通堵塞“部分、”苏格兰礼堂“部分等。使用这个正则表达式'.*‘将从第一个标记返回到下一个换行符之前的最后一个标记。如何更改表达式,使其只返回标记对之间的块?

编辑:@HenryKeiter & @Hakiko,那会很棒,但是这个任务需要我使用python。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-05-10 22:38:13

这里有一个提示,不是一个完整的解决方案:在您的情况下,您需要使用一个非贪婪的regexp。基本上,你需要用

代码语言:javascript
复制
.*?

而不是

代码语言:javascript
复制
.*

非贪婪意味着最小的模式将被匹配。默认情况下-它是最大的。

票数 1
EN

Stack Overflow用户

发布于 2014-05-10 22:53:42

使用美汤

代码语言:javascript
复制
from bs4 import BeautifulSoup

html = '''
<td class="cell1"><b>Dave Mason's Traffic Jam</b></td><td class="cell2">Scottish Rite
Auditorium</td><td class="cell3">$29-$45</td><td class="cell4">On sale now</td><td class="cell5"><a 
href="http://www.ticketmaster.com/dave-masons-traffic-jam-collingswood-new-jersey-11-29-2014/event  
/02004B48C416D202?artistid=1033927&majorcatid=10001&minorcatid=1&tm_link=venue_msg-
1_02004B48C416D202" target="_blank">TIX</a></td><td class="cell6">AA</td><td 
class="cell7">Philadelphia</td>
'''.strip()

soup = BeautifulSoup(html)
tds = soup.find_all('td')
contentList = []
for td in tds:
    contentList.append(td.get_text())
print contentList

返回

代码语言:javascript
复制
[u"Dave Mason's Traffic Jam", u'Scottish Rite\nAuditorium', u'$29-$45', u'On sale now', u'TIX', u'AA', u'Philadelphia']
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23586998

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档