作为联系管理系统的一部分,我有一个很大的姓名数据库。人们经常对此进行编辑,因此我们会遇到同一人以不同形式存在的问题(John Smith和Jonathan Smith)。我研究了单词的相似性,但很容易想到根本不相似的名字变体(Richard vs Dick)。我想知道是否有一个常见的英文名字变体列表,我可以用来检测和纠正这样的错误。
发布于 2010-10-13 00:29:07
我会抓取所有的维基百科页面(维基百科上有一个可用的维基百科数据转储),比如http://en.wikipedia.org/wiki/Teresa (来自http://en.wikipedia.org/wiki/Category:English_given_names),并创建一个索引,你可以用它来建议人们改正表单(你将根据数据库中名字变体的数量对它们进行排名)。不幸的是,我不知道。这样的数据库。
发布于 2015-07-25 03:24:16
This thread指出了人口普查中的昵称/名字映射列表:
http://deron.meranda.us/data/nicknames.txt
https://stackoverflow.com/questions/3809257
复制相似问题