假设文件夹中有一组文本文件.html。
我需要处理每个文件并删除特定HTML标记的内容,包括标记本身。文件必须在处理后重写。
示例:
<script>块<div class="test-class">块像sed -i -e 's/REGEX//g' *.html这样的Regex工具对HTML不好。因此,我正在寻找侧重于基于//script、//div[@class="test-class"]等XPATH的HTML解析的解决方案。
实现这一目标的最佳方法是什么?
发布于 2017-10-06 21:09:28
使用xmlstarlet编辑当前目录中的所有.html文件:
xmlstarlet edit --inplace --omit-decl --delete '//script' --delete '//div[@class="test-class"]' *.html请参阅:xmlstarlet edit --help
这可能有助于处理一个损坏的html文件:
xmlstarlet format --recover --html file.html |\
xmlstarlet edit --omit-decl --delete '//script' --delete '//div[@class="test-class"]' > new.htmlhttps://stackoverflow.com/questions/46612034
复制相似问题