我正在解析一个设计不佳的网页,使用漂亮的汤。
目前,我需要的是选择网页上的注释部分,但是每个评论都被看作是一个DIV,每个注释都有一个ID,类似于"IAMCOMMENT_00001“,但仅此而已。没有课(这会有很大帮助)。
因此,我不得不搜索所有以"IAMCOMMENT“开头的DIVs,但我不知道如何做到这一点。我能找到的最接近的是SoupStrainer,但我甚至不知道如何使用它。
我怎样才能做到这一点?
发布于 2014-11-07 04:43:40
如果要解析表单注释,首先需要找到html的注释。这样做的一种方法是:
import re
from bs4 import BeautifulSoup, Comment
soup = BeautifulSoup(myhtml)
comments = soup.find_all(text=lambda text: isinstance(text, Comment))要在评论中找到div,
for comment in comments:
cmnt_soup = BeautifulSoup(comment)
divs = cmnt_soup.find_all('div', attrs={"id": re.compile(r'IAMCOMMENT_\d+')})
# do things with the divs发布于 2014-11-07 03:20:35
我将使用内置于BeautifulSoup's函数中的find_all:
from bs4 import BeautifulSoup
soup = BeautifulSoup(yourhtml)
soup.find_all('div', id_=re.compile('IAMCOMMENT_'))https://stackoverflow.com/questions/26793393
复制相似问题