文章/答案/技术大牛

发布

社区首页 >问答首页 >python :提取HTML元素的内容

问python :提取HTML元素的内容
EN

Stack Overflow用户

提问于 2014-05-10 22:31:40

回答 2查看 133关注 0票数 0

HTML页面中有如下格式的元素：

<td class="cell1"><b>Dave Mason's Traffic Jam</b></td><td class="cell2">Scottish Rite
Auditorium</td><td class="cell3">$29-$45</td><td class="cell4">On sale now</td><td class="cell5"><a 
href="http://www.ticketmaster.com/dave-masons-traffic-jam-collingswood-new-jersey-11-29-2014/event  
/02004B48C416D202?artistid=1033927&majorcatid=10001&minorcatid=1&tm_link=venue_msg-
1_02004B48C416D202" target="_blank">TIX</a></td><td class="cell6">AA</td><td 
class="cell7">Philadelphia</td>

我想使用python从文本中分别提取"Dave的交通堵塞“部分、”苏格兰礼堂“部分等。使用这个正则表达式'.*‘将从第一个标记返回到下一个换行符之前的最后一个标记。如何更改表达式，使其只返回标记对之间的块？

编辑：@HenryKeiter & @Hakiko，那会很棒，但是这个任务需要我使用python。

python

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-05-10 22:38:13

这里有一个提示，不是一个完整的解决方案:在您的情况下，您需要使用一个非贪婪的regexp。基本上，你需要用

.*?

而不是

.*

非贪婪意味着最小的模式将被匹配。默认情况下-它是最大的。

票数 1

Stack Overflow用户

发布于 2014-05-10 22:53:42

使用美汤

from bs4 import BeautifulSoup

html = '''
<td class="cell1"><b>Dave Mason's Traffic Jam</b></td><td class="cell2">Scottish Rite
Auditorium</td><td class="cell3">$29-$45</td><td class="cell4">On sale now</td><td class="cell5"><a 
href="http://www.ticketmaster.com/dave-masons-traffic-jam-collingswood-new-jersey-11-29-2014/event  
/02004B48C416D202?artistid=1033927&majorcatid=10001&minorcatid=1&tm_link=venue_msg-
1_02004B48C416D202" target="_blank">TIX</a></td><td class="cell6">AA</td><td 
class="cell7">Philadelphia</td>
'''.strip()

soup = BeautifulSoup(html)
tds = soup.find_all('td')
contentList = []
for td in tds:
    contentList.append(td.get_text())
print contentList

[u"Dave Mason's Traffic Jam", u'Scottish Rite\nAuditorium', u'$29-$45', u'On sale now', u'TIX', u'AA', u'Philadelphia']

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23586998

复制

相似问题

问python :提取HTML元素的内容
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python :提取HTML元素的内容EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python :提取HTML元素的内容
EN