在HTML文件中,出现了以下情况:
<span class="finereader"></span>或
<span class="finereader">a</span>我想把这些标签都去掉。第二个例子显示,标签下可能有一个字母(或数字,但只有1)。这个字母不应该被删除,只有<span class="finereader">和下面的</span>。有没有re.sub式能做到这一点?谢谢你的帮助。
发布于 2013-09-01 21:45:07
使用BeautifulSoup的另一种解决方案
from bs4 import BeautifulSoup
soup = BeautifulSoup(open('htmlfile'))
for elem in soup.find_all('span', class_='finereader'):
elem.replace_with(elem.string or '')
print(soup.prettify())https://stackoverflow.com/questions/18563158
复制相似问题