首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >检测HTML文件上的白色文本

检测HTML文件上的白色文本
EN

Stack Overflow用户
提问于 2019-11-13 14:44:58
回答 1查看 68关注 0票数 0

我有这样的HTML文件:

代码语言:javascript
复制
<HTML>
    <HEAD>
        <style>
            .secret {
                background-color: black;
                color: black;
            }
        </style>
    </HEAD>
    <BODY>
        <p>This text is VISIBLE</p>
        <p id="hidden-1" style="color: white;">This text is hidden (white text background)</p>
        <p id="hidden-2" class="secret">This text is hidden (black text/background)</p>
    </BODY>
<HTML>

我想写一个小的Python应用程序,它将HTML文件作为输入,并检测实现此功能的HTML元素。在上面的例子中,输出应该是“hidden 1”+ "hidden-2“。

除了上面的例子之外,还有更多的选择来隐藏HTML中的文本。我正在寻找一个成功率最高的解决方案。

这个是可能的吗?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2019-11-13 15:29:59

一般的解决方案可以是使用bs4从html中剥离所有的ids /文本。然后使用imgkit将.html转换为.png,并使用诸如pytesseract之类的光学字符识别来读取其中的可见文本,然后进行比较以找到“隐藏”文本。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58831640

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档