我有这样的HTML文件:
<HTML>
<HEAD>
<style>
.secret {
background-color: black;
color: black;
}
</style>
</HEAD>
<BODY>
<p>This text is VISIBLE</p>
<p id="hidden-1" style="color: white;">This text is hidden (white text background)</p>
<p id="hidden-2" class="secret">This text is hidden (black text/background)</p>
</BODY>
<HTML>我想写一个小的Python应用程序,它将HTML文件作为输入,并检测实现此功能的HTML元素。在上面的例子中,输出应该是“hidden 1”+ "hidden-2“。
除了上面的例子之外,还有更多的选择来隐藏HTML中的文本。我正在寻找一个成功率最高的解决方案。
这个是可能的吗?
谢谢
发布于 2019-11-13 15:29:59
一般的解决方案可以是使用bs4从html中剥离所有的ids /文本。然后使用imgkit将.html转换为.png,并使用诸如pytesseract之类的光学字符识别来读取其中的可见文本,然后进行比较以找到“隐藏”文本。
https://stackoverflow.com/questions/58831640
复制相似问题