我有一个由<div>组成的<div><head>,其中出现了<div><head>。这些<div><head>后面可能跟着一个<lb>,也可能没有。理想情况下,我想要一个所有<div><head/> ... </div>的列表
<div><div><head facs="#facs_21_TextRegion_1624455438571_399">
<lb facs="#facs_21_line_1624455438683_402" n="N001"/><supplied reason="article_added">7</supplied> Von der Liebe und guten wercken.</head>
<p facs="#facs_21_TextRegion_1624455467191_408">
<lb facs="#facs_21_r3l25" n="N001"/>Die Liebe, die da ist das ende des Gebots und die
<lb facs="#facs_21_r3l26" n="N002"/>volkommenheyt des Gesetzs,<note type="annotation">Vgl. <ref type="biblical" cRef="Rm_13,8-10">Röm 13,8-10</ref>; <ref type="biblical" cRef="Gal_5,14">Gal 5,14</ref>.</note> so bald sie inn der
<lb facs="#facs_21_r3l28" n="N003"/>rechtfertigung eintritt, so ist sie fruchtbar und
<lb facs="#facs_21_r3l29" n="N004"/>beschleüsset inn sich selbs die samen aller guten werck,<note type="annotation">Vgl. <ref type="biblical" cRef="Ps_1,3">Ps 1,3</ref>.</note> <w>wel<pc>-</pc>
<lb/><note place="margin-left" facs="#facs_21_r1">
<lb/>Psalm. 1.</div> <div><head facs="#facs_21_TextRegion_1624455438571_399">
<lb facs="#facs_21_line_1624455438683_402" n="N001"/><supplied reason="article_added">7</supplied> Von der Liebe und guten wercken.</head>
<p facs="#facs_21_TextRegion_1624455467191_408">
<lb facs="#facs_21_r3l25" n="N001"/>Die Liebe, die da ist das ende des Gebots und die
<lb facs="#facs_21_r3l26" n="N002"/>volkommenheyt des Gesetzs,<note type="annotation">Vgl. <ref type="biblical" cRef="Rm_13,8-10">Röm 13,8-10</ref>; <ref type="biblical" cRef="Gal_5,14">Gal 5,14</ref>.</note> so bald sie inn der
<lb facs="#facs_21_r3l28" n="N003"/>rechtfertigung eintritt, so ist sie fruchtbar und
<lb facs="#facs_21_r3l29" n="N004"/>beschleüsset inn sich selbs die samen aller guten werck,<note type="annotation">Vgl. <ref type="biblical" cRef="Ps_1,3">Ps 1,3</ref>.</note> <w>wel<pc>-</pc>
<lb/><note place="margin-left" facs="#facs_21_r1">
<lb/>Psalm. 1.</div></div>所以我做了print(soup.find_all('div')),它返回所有div的列表,但是删除了<head>
<div>
<lb facs="#facs_21_line_1624455438683_402" n="N001"></lb><supplied reason="article_added">7</supplied> Von der Liebe und guten wercken.
<p facs="#facs_21_TextRegion_1624455467191_408">
<lb facs="#facs_21_r3l25" n="N001"></lb>Die Liebe, die da ist das ende des Gebots und die
<lb facs="#facs_21_r3l26" n="N002"></lb>volkommenheyt des Gesetzs,<note type="annotation">Vgl. <ref cref="Rm_13,8-10" type="biblical">Röm 13,8-10</ref>; <ref cref="Gal_5,14" type="biblical">Gal 5,14</ref>.</note> so bald sie inn der
<lb facs="#facs_21_r3l28" n="N003"></lb>rechtfertigung eintritt, so ist sie fruchtbar und
<lb facs="#facs_21_r3l29" n="N004"></lb>beschleüsset inn sich selbs die samen aller guten werck,<note type="annotation">Vgl. <ref cref="Ps_1,3" type="biblical">Ps 1,3</ref>.</note> <w>wel<pc>-</pc>
<lb></lb><note facs="#facs_21_r1" place="margin-left">
<lb></lb>Psalm. 1.</div>我想有些问题出现了:
分组
<head>正在消失?发布于 2022-10-11 11:45:10
在我看来,行为来自于bs4 standard parser lxml,所以如果您切换到html.parser,您应该看到<head>
soup = BeautifulSoup(html,'html.parser')您可以使用css selectors链接您的条件:
soup.select('div:has(>head)')示例
from bs4 import BeautifulSoup
html = '''
<div><div><head facs="#facs_21_TextRegion_1624455438571_399">
<lb facs="#facs_21_line_1624455438683_402" n="N001"/><supplied reason="article_added">7</supplied> Von der Liebe und guten wercken.</head>
<p facs="#facs_21_TextRegion_1624455467191_408">
<lb facs="#facs_21_r3l25" n="N001"/>Die Liebe, die da ist das ende des Gebots und die
<lb facs="#facs_21_r3l26" n="N002"/>volkommenheyt des Gesetzs,<note type="annotation">Vgl. <ref type="biblical" cRef="Rm_13,8-10">Röm 13,8-10</ref>; <ref type="biblical" cRef="Gal_5,14">Gal 5,14</ref>.</note> so bald sie inn der
<lb facs="#facs_21_r3l28" n="N003"/>rechtfertigung eintritt, so ist sie fruchtbar und
<lb facs="#facs_21_r3l29" n="N004"/>beschleüsset inn sich selbs die samen aller guten werck,<note type="annotation">Vgl. <ref type="biblical" cRef="Ps_1,3">Ps 1,3</ref>.</note> <w>wel<pc>-</pc>
<lb/><note place="margin-left" facs="#facs_21_r1">
<lb/>Psalm. 1.</div> <div><head facs="#facs_21_TextRegion_1624455438571_399">
<lb facs="#facs_21_line_1624455438683_402" n="N001"/><supplied reason="article_added">7</supplied> Von der Liebe und guten wercken.</head>
<p facs="#facs_21_TextRegion_1624455467191_408">
<lb facs="#facs_21_r3l25" n="N001"/>Die Liebe, die da ist das ende des Gebots und die
<lb facs="#facs_21_r3l26" n="N002"/>volkommenheyt des Gesetzs,<note type="annotation">Vgl. <ref type="biblical" cRef="Rm_13,8-10">Röm 13,8-10</ref>; <ref type="biblical" cRef="Gal_5,14">Gal 5,14</ref>.</note> so bald sie inn der
<lb facs="#facs_21_r3l28" n="N003"/>rechtfertigung eintritt, so ist sie fruchtbar und
<lb facs="#facs_21_r3l29" n="N004"/>beschleüsset inn sich selbs die samen aller guten werck,<note type="annotation">Vgl. <ref type="biblical" cRef="Ps_1,3">Ps 1,3</ref>.</note> <w>wel<pc>-</pc>
<lb/><note place="margin-left" facs="#facs_21_r1">
<lb/>Psalm. 1.</div></div>
'''
soup = BeautifulSoup(html,'html.parser')
soup.select('div:has(>head)')输出
[<div><head facs="#facs_21_TextRegion_1624455438571_399">
<lb facs="#facs_21_line_1624455438683_402" n="N001"></lb><supplied reason="article_added">7</supplied> Von der Liebe und guten wercken.</head>
<p facs="#facs_21_TextRegion_1624455467191_408">
<lb facs="#facs_21_r3l25" n="N001"></lb>Die Liebe, die da ist das ende des Gebots und die
<lb facs="#facs_21_r3l26" n="N002"></lb>volkommenheyt des Gesetzs,<note type="annotation">Vgl. <ref cref="Rm_13,8-10" type="biblical">Röm 13,8-10</ref>; <ref cref="Gal_5,14" type="biblical">Gal 5,14</ref>.</note> so bald sie inn der
<lb facs="#facs_21_r3l28" n="N003"></lb>rechtfertigung eintritt, so ist sie fruchtbar und
<lb facs="#facs_21_r3l29" n="N004"></lb>beschleüsset inn sich selbs die samen aller guten werck,<note type="annotation">Vgl. <ref cref="Ps_1,3" type="biblical">Ps 1,3</ref>.</note> <w>wel<pc>-</pc>
<lb></lb><note facs="#facs_21_r1" place="margin-left">
<lb></lb>Psalm. 1.</note></w></p></div>,
<div><head facs="#facs_21_TextRegion_1624455438571_399">
<lb facs="#facs_21_line_1624455438683_402" n="N001"></lb><supplied reason="article_added">7</supplied> Von der Liebe und guten wercken.</head>
<p facs="#facs_21_TextRegion_1624455467191_408">
<lb facs="#facs_21_r3l25" n="N001"></lb>Die Liebe, die da ist das ende des Gebots und die
<lb facs="#facs_21_r3l26" n="N002"></lb>volkommenheyt des Gesetzs,<note type="annotation">Vgl. <ref cref="Rm_13,8-10" type="biblical">Röm 13,8-10</ref>; <ref cref="Gal_5,14" type="biblical">Gal 5,14</ref>.</note> so bald sie inn der
<lb facs="#facs_21_r3l28" n="N003"></lb>rechtfertigung eintritt, so ist sie fruchtbar und
<lb facs="#facs_21_r3l29" n="N004"></lb>beschleüsset inn sich selbs die samen aller guten werck,<note type="annotation">Vgl. <ref cref="Ps_1,3" type="biblical">Ps 1,3</ref>.</note> <w>wel<pc>-</pc>
<lb></lb><note facs="#facs_21_r1" place="margin-left">
<lb></lb>Psalm. 1.</note></w></p></div>]https://stackoverflow.com/questions/74027455
复制相似问题