我想从文件夹(保存在本地)中的几个html文件中提取数据,并将信息保存到文本文件中。Python中的大多数html工具箱似乎处理的是在线网页,而不是本地保存的文件。例如,如果我想从所有文件中找到"CAS注册号“并将其写入文本文件,我该怎么办?
包含信息的html行的示例:
<DIV class=detailTitle><SPAN class=title>CAS Registry Number</SPAN> 555-34-0</DIV>发布于 2014-12-16 17:15:41
我建议使用PyQuery,它对于处理html元素非常优雅。
教程是here
代码为:
from pyquery import PyQuery
html = open("index.html", 'r').read() # local html
query = pyquery(html)
query("li").eq(1).text()
......https://stackoverflow.com/questions/27500886
复制相似问题