我想检查文本中的单词或段落是否可能包含有效的“单词”,而不是对照字典检查单个单词。基本上,用例是测试一个网站的用户是否输入了一堆胡言乱语作为输入。
就我的目的而言,只要有一个插件就足够了,它可以检查没有太多的顺序辅音或元音,或者“单词”包含合理的音节组合。例如,在以下情况下,如果插件以下列方式工作将是可以的:
我对模块的工作机制漠不关心(也许它可以是一些基于机器学习的模块,在英语词典上接受了预培训),只要模块很小(所以nltk不是一个选项),适合在web应用程序中使用,并且经过预先培训,并且可以使用,如果它是通过需要培训的方法工作的话。如果它能够检查文本段落,以检测其组成字符串包含胡言乱语的可能性,并给出段落有效性的总体度量,而不仅仅是评估单个单词,甚至更好。有人能推荐一些非常适合这个用途的模块吗?
发布于 2016-06-05 16:33:22
这应该是一个好的开始:gibberishclassifier.py
https://stackoverflow.com/questions/37644155
复制相似问题