我有一千个HTML文件的集合,需要对它们进行一些修剪。我需要删除除<div.pg>之外的<body></body>区域内的所有标记,以使它们干净以便打印。多余的是导航链接,这会使打印变得混乱,并使页面占用更多的纸张。内容不一样,所以我无法找到和替换代码摘录,但标签是相同的,例如,有3个<table>标签要删除,每个标签都有特定的类。操作批处理HTML文件中的特定标记?
有没有批处理技术或软件来完成这项工作?在windows上是一个多么简单的解决方案?
发布于 2011-09-28 04:58:18
我将在您拥有的每个html页面上使用xslt转换。Batch不是用于操作html文件的工具。您可以使用batch作为“管理器”来将所需的文件传递给xsl转换。此外,windows还有一个基本的msxml实用程序,您可以下载并安装到您的计算机上:http://www.microsoft.com/download/en/details.aspx?displaylang=en&id=21714
我就是这么做的。我相信还有更多的选择。
发布于 2011-09-28 05:03:20
如果是XHTML,您可以使用XSLT将HTML转换为“另一种”格式。查看此处的示例:http://www.w3schools.com/xsl/或此处:http://help.hannonhill.com/discussions/how-do-i/269-strip-specific-html-tag-in-xslt
https://stackoverflow.com/questions/7575521
复制相似问题