文章/答案/技术大牛

发布

社区首页 >问答首页 >使用美观汤的Python解析

问使用美观汤的Python解析
EN

Stack Overflow用户

提问于 2018-05-30 11:21:31

回答 1查看 142关注 0票数 0

我有下面的xml文件，我想提取所有的href，我知道怎么做，但是我想用----标记每个主‘父’标记的结束

我需要这样的输出：

xxxx yyyy ----- zzzz tttt ------ wwww qqqqq ssss uuuu oooo pppp ----- mmmm nnnnn ----

xml：

<root> <parent id1='1111'> <child herf='xxx'/> <child herf ='yyyy'/> </parent> <parent id1='22222'> <child herf='zzzz'/> <child herf ='tttt'/> </parent> <parent id1='33333'> <child herf='wwww'/> <child herf ='qqqqq'/> <parent id1='4444'> <child herf='ssss'/> <child herf ='uuuu'/> </parent> <parent id1='55555'> <child herf='oooo'/> <child herf ='pppp'/> </parent> <parent id1='6666'> <child herf='mmmm'/> <child herf ='nnnnn'/> </parent>

这是我的密码：

xml= soupTop.findChildren(recursive=False) for tag in xml: s =tag.findAll("child", {"href" : re.compile(r".*")}) print (s)

python

xml

beautifulsoup

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-05-30 14:37:30

一个问题是xml是无效的。<root>标记从不关闭，<child id1='33333'>也不关闭。BS善于接受不正确的输入，但是处理它需要非常谨慎。

这意味着我无法想象有一种方法可以获得你在问题中要求的输出。我能做的是：

假设每个新的打开父标记都会打开一个新的子序列。这意味着查找所有的parent标记，并且在每个进程中只有直接的子进程。 P in soupTop.findAll('parent ')：c in p.children: if c.name == 'child'：print(c‘’herf‘，end =’')打印(‘ 产出如下：
只处理最高级别的父标记，并且在每个父标记中递归地查找所有child标记。 P=soup.find(“父”)，而p不是零:p.findAll(‘p.findAll ')中的c(’child ')：print(c‘’herf‘，end=’‘)打印(’--‘-’‘，end =’)p= p.findNextSibling('parent') 输出是:xxx yyyy - zzzz is qqqqq ssss nnnnn

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50603385

复制

相似问题

问使用美观汤的Python解析
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用美观汤的Python解析EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用美观汤的Python解析
EN