首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用CMD或JavaScript批量查找和删除部分HTML文件

使用CMD或JavaScript批量查找和删除部分HTML文件
EN

Stack Overflow用户
提问于 2017-10-06 18:42:42
回答 1查看 286关注 0票数 1

假设文件夹中有一组文本文件.html。

我需要处理每个文件并删除特定HTML标记的内容,包括标记本身。文件必须在处理后重写。

示例:

  1. 删除所有<script>
  2. 删除包括内部内容在内的所有<div class="test-class">

sed -i -e 's/REGEX//g' *.html这样的Regex工具对HTML不好。因此,我正在寻找侧重于基于//script//div[@class="test-class"]等XPATH的HTML解析的解决方案。

实现这一目标的最佳方法是什么?

EN

回答 1

Stack Overflow用户

发布于 2017-10-06 21:09:28

使用xmlstarlet编辑当前目录中的所有.html文件:

代码语言:javascript
复制
xmlstarlet edit --inplace --omit-decl --delete '//script' --delete '//div[@class="test-class"]' *.html

请参阅:xmlstarlet edit --help

这可能有助于处理一个损坏的html文件:

代码语言:javascript
复制
xmlstarlet format --recover --html file.html |\
  xmlstarlet edit --omit-decl --delete '//script' --delete '//div[@class="test-class"]' > new.html
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46612034

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档