文章/答案/技术大牛

发布

社区首页 >问答首页 >评估文本可能是胡说八道的Python模块？

问评估文本可能是胡说八道的Python模块？
EN

Stack Overflow用户

提问于 2016-06-05 16:24:32

回答 2查看 3.6K关注 0票数 0

我想检查文本中的单词或段落是否可能包含有效的“单词”，而不是对照字典检查单个单词。基本上，用例是测试一个网站的用户是否输入了一堆胡言乱语作为输入。

就我的目的而言，只要有一个插件就足够了，它可以检查没有太多的顺序辅音或元音，或者“单词”包含合理的音节组合。例如，在以下情况下，如果插件以下列方式工作将是可以的：

像"Lekreauclig“或"Prostrebaughi”这样的东西可以被看作是一个词，因为这封信看起来合情合理。
像"twumczsarn“或"aeigou”这样的词会被标记为“可能不是一个词”，因为它有奇怪的顺序辅音或元音组合。
"mqbadtxjtc“将被标记为”不是一个词“。

我对模块的工作机制漠不关心(也许它可以是一些基于机器学习的模块，在英语词典上接受了预培训)，只要模块很小(所以nltk不是一个选项)，适合在web应用程序中使用，并且经过预先培训，并且可以使用，如果它是通过需要培训的方法工作的话。如果它能够检查文本段落，以检测其组成字符串包含胡言乱语的可能性，并给出段落有效性的总体度量，而不仅仅是评估单个单词，甚至更好。有人能推荐一些非常适合这个用途的模块吗？

python

nlp

回答 2

Stack Overflow用户

发布于 2016-06-05 16:33:22

这应该是一个好的开始：gibberishclassifier.py

票数 2

Stack Overflow用户

发布于 2016-06-05 18:22:02

这只是一个简单的解决方案，但是您考虑过使用基于n克字符的语言检测工具吗？

如果输入以很高的概率被检测为英语，那么它应该是很好的，并且不包含乱七八糟的内容。如果它是机密的话，它有其他的语言或英语，而不是你所认为的那样，这是胡言乱语。

当然，此解决方案只有在您始终期望英语文本作为输入时才有效。

一些开箱即用，准备使用基于n克字符的语言检测实现：

兰吉德

语言检测

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37644155

复制

相似问题

问评估文本可能是胡说八道的Python模块？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问评估文本可能是胡说八道的Python模块？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问评估文本可能是胡说八道的Python模块？
EN