用于识别可能由机器人生成的用户名。
假设您有一个用户名,如"bilbomoothof“这可能是无稽之谈,但它仍然包含可宣布的声音,因此似乎是人为产生的。
我承认,它可能是随机产生的音节字典,或单词部分,但让我们假设一下,有问题的机器人是有点垃圾。
适用于PHP/MySQL的解决方案最受欢迎。
发布于 2009-07-22 09:59:35
我想,如果你能限制自己的发音,在英语中,你可能会想到类似的事情。对我来说(我是法国人),像szczepan或wawrzyniec这样的词是无法发音的,当然也有一定的随机性。
但他们实际上是波兰名 (意思是史蒂文和劳伦斯).
发布于 2009-07-22 10:03:02
我同意麦克的看法。但更重要的是,人们有时会有一些无法宣布的用户名,比如qwerty或rtfmorleave。
为什么要费心呢?
<过时和错误,但我不删除,因为评论>
更重要的是,没有机器人使用'zetztzgsd‘作为用户名,它们没有真实名称、可能的昵称等等,所以我认为这对你来说是浪费时间的。
发布于 2009-07-22 11:20:07
查一查n格分析。它被成功地用于自动检测文本语言,甚至在非常短的文本上也能很好地工作。
该在线演示(不再在线)承认‘双语点’为英语和'sdfgbhm342r3f‘为尼泊尔语。即使这是一场非常糟糕的比赛,它也可能总是返回最好的比赛。我想你可以把它训练成区分“可发音”和“随机”。
https://stackoverflow.com/questions/1164186
复制相似问题