文章/答案/技术大牛

发布

社区首页 >问答首页 >使用CMD或JavaScript批量查找和删除部分HTML文件

问使用CMD或JavaScript批量查找和删除部分HTML文件
EN

Stack Overflow用户

提问于 2017-10-06 18:42:42

回答 1查看 286关注 0票数 1

假设文件夹中有一组文本文件.html。

我需要处理每个文件并删除特定HTML标记的内容，包括标记本身。文件必须在处理后重写。

示例：

删除所有<script>块
删除包括内部内容在内的所有<div class="test-class">块

像sed -i -e 's/REGEX//g' *.html这样的Regex工具对HTML不好。因此，我正在寻找侧重于基于//script、//div[@class="test-class"]等XPATH的HTML解析的解决方案。

实现这一目标的最佳方法是什么？

sed

html-parsing

javascript

html

xpath

回答 1

Stack Overflow用户

发布于 2017-10-06 21:09:28

使用xmlstarlet编辑当前目录中的所有.html文件：

xmlstarlet edit --inplace --omit-decl --delete '//script' --delete '//div[@class="test-class"]' *.html

请参阅：xmlstarlet edit --help

这可能有助于处理一个损坏的html文件：

xmlstarlet format --recover --html file.html |\
  xmlstarlet edit --omit-decl --delete '//script' --delete '//div[@class="test-class"]' > new.html

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46612034

复制

相似问题

问使用CMD或JavaScript批量查找和删除部分HTML文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用CMD或JavaScript批量查找和删除部分HTML文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用CMD或JavaScript批量查找和删除部分HTML文件
EN