问拼写检查的机器学习算法
EN

Stack Overflow用户

提问于 2013-08-22 07:59:53

回答 1查看 4.1K关注 0票数 1

我有一个药物名称列表( regular_list )和一个新名称列表( new_list ).I希望检查new_list中的名称是否已经存在于regular_list或not.The问题中，即名称new_list可能存在一些错误，我希望这些名称被视为与常规列表匹配。我知道使用字符串可以解决这个问题，但是我需要一个机器学习算法。

text

machine-learning

stringdist

回答 1

Stack Overflow用户

发布于 2013-08-22 08:36:09

正如这里已经提到的machine learning to overcome typo errors，机器学习工具对于这样的任务来说太多了，但是最简单的可能是合并这些方法。

一方面，您可以计算给定单词x和每个字典单词d_i之间的d_i。此外，您还可以训练每个单词的分类器。

c(d_i, distance(x,d_i))

返回True (类1)，如果已经知道给定的编辑距离足以将x视为拼写错误的d_i版本。这可以为您提供更一般的模型，而不是使用机器学习，因为每个字典单词都有不同的阈值(有些单词比其他单词拼写错误)，但是很明显，您必须准备一个(misspelled_word, correct_one)形式的培训集(并添加(correct_one, correct_one)。

您可以使用任何类型的二进制分类器来完成这类任务，它可以处理“真实”输入数据。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18374749

复制

相似问题

问拼写检查的机器学习算法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问拼写检查的机器学习算法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问拼写检查的机器学习算法
EN