首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >评估文本可能是胡说八道的Python模块?

评估文本可能是胡说八道的Python模块?
EN

Stack Overflow用户
提问于 2016-06-05 16:24:32
回答 2查看 3.6K关注 0票数 0

我想检查文本中的单词或段落是否可能包含有效的“单词”,而不是对照字典检查单个单词。基本上,用例是测试一个网站的用户是否输入了一堆胡言乱语作为输入。

就我的目的而言,只要有一个插件就足够了,它可以检查没有太多的顺序辅音或元音,或者“单词”包含合理的音节组合。例如,在以下情况下,如果插件以下列方式工作将是可以的:

  • "Lekreauclig“或"Prostrebaughi”这样的东西可以被看作是一个词,因为这封信看起来合情合理。
  • 像"twumczsarn“或"aeigou”这样的词会被标记为“可能不是一个词”,因为它有奇怪的顺序辅音或元音组合。
  • "mqbadtxjtc“将被标记为”不是一个词“。

我对模块的工作机制漠不关心(也许它可以是一些基于机器学习的模块,在英语词典上接受了预培训),只要模块很小(所以nltk不是一个选项),适合在web应用程序中使用,并且经过预先培训,并且可以使用,如果它是通过需要培训的方法工作的话。如果它能够检查文本段落,以检测其组成字符串包含胡言乱语的可能性,并给出段落有效性的总体度量,而不仅仅是评估单个单词,甚至更好。有人能推荐一些非常适合这个用途的模块吗?

EN

回答 2

Stack Overflow用户

发布于 2016-06-05 16:33:22

这应该是一个好的开始:gibberishclassifier.py

票数 2
EN

Stack Overflow用户

发布于 2016-06-05 18:22:02

这只是一个简单的解决方案,但是您考虑过使用基于n克字符的语言检测工具吗?

如果输入以很高的概率被检测为英语,那么它应该是很好的,并且不包含乱七八糟的内容。如果它是机密的话,它有其他的语言或英语,而不是你所认为的那样,这是胡言乱语。

当然,此解决方案只有在您始终期望英语文本作为输入时才有效。

一些开箱即用,准备使用基于n克字符的语言检测实现:

兰吉德

语言检测

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37644155

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档