我希望使用regex从html中获取一些内容,并将该内容写入新的html中。示例HTML如下所示:
<html>
<script src='.....'>
</script>
<style>
...
</style>
<div class='header-outer'>
<div class='header-title'>
<div class='post-content'>
<noscript>
<p>content we want</p>
</noscript>
</div>
</div></div>
<div class='footer'>
</div>
</html>我可以使用grep在<div class='post-content'>和</div>之间选择内容并将内容写入新的html吗?所以新的html应该是这样的:
<div class='post-content'>
<noscript>
<p>content we want</p>
</noscript>
</div>我对堆栈溢出进行了一些研究,发现了一些可能对我的问题有帮助的代码,例如
grep -L -Z -r "<div class='post-content'>.*?<\/noscript><\/dive>" .| xargs -0 -I{} mv {} DIR
这是正确的吗?如果是的话,xargs部分是什么意思?谢谢你,我期待着你的回复!
发布于 2016-02-09 19:06:33
您可以使用这个GNU sed
sed -n "/<div class='post-content'>/,/<\/div>/p" file.html > output.html -n没有打印
P是在范围内打印那些行。
https://stackoverflow.com/questions/35299728
复制相似问题