首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何检查字符串是否看起来是随机的,还是人为生成的和可发音的?

如何检查字符串是否看起来是随机的,还是人为生成的和可发音的?
EN

Stack Overflow用户
提问于 2009-07-22 09:48:14
回答 11查看 4.5K关注 0票数 55

用于识别可能由机器人生成的用户名。

假设您有一个用户名,如"bilbomoothof“这可能是无稽之谈,但它仍然包含可宣布的声音,因此似乎是人为产生的。

我承认,它可能是随机产生的音节字典,或单词部分,但让我们假设一下,有问题的机器人是有点垃圾。

  1. 假设您有一个类似于"sdfgbhm342r3f“的用户名,对于一个人来说,这显然是一个随机字符串。但这是否可以通过程序来确定呢?
  2. 是否有可用的算法(类似于Soundex等)在这样的字符串中能识别可发音的声音吗?

适用于PHP/MySQL的解决方案最受欢迎。

EN

回答 11

Stack Overflow用户

发布于 2009-07-22 09:59:35

我想,如果你能限制自己的发音,在英语中,你可能会想到类似的事情。对我来说(我是法国人),像szczepan或wawrzyniec这样的词是无法发音的,当然也有一定的随机性。

但他们实际上是波兰名 (意思是史蒂文和劳伦斯).

票数 16
EN

Stack Overflow用户

发布于 2009-07-22 10:03:02

我同意麦克的看法。但更重要的是,人们有时会有一些无法宣布的用户名,比如qwerty或rtfmorleave。

为什么要费心呢?

<过时和错误,但我不删除,因为评论>

更重要的是,没有机器人使用'zetztzgsd‘作为用户名,它们没有真实名称、可能的昵称等等,所以我认为这对你来说是浪费时间的。

票数 8
EN

Stack Overflow用户

发布于 2009-07-22 11:20:07

查一查n格分析。它被成功地用于自动检测文本语言,甚至在非常短的文本上也能很好地工作。

该在线演示(不再在线)承认‘双语点’为英语和'sdfgbhm342r3f‘为尼泊尔语。即使这是一场非常糟糕的比赛,它也可能总是返回最好的比赛。我想你可以把它训练成区分“可发音”和“随机”。

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1164186

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档