我有一个药物名称列表( regular_list )和一个新名称列表( new_list ).I希望检查new_list中的名称是否已经存在于regular_list或not.The问题中,即名称new_list可能存在一些错误,我希望这些名称被视为与常规列表匹配。我知道使用字符串可以解决这个问题,但是我需要一个机器学习算法。
发布于 2013-08-22 08:36:09
正如这里已经提到的machine learning to overcome typo errors,机器学习工具对于这样的任务来说太多了,但是最简单的可能是合并这些方法。
一方面,您可以计算给定单词x和每个字典单词d_i之间的d_i。此外,您还可以训练每个单词的分类器。
c(d_i, distance(x,d_i)) 返回True (类1),如果已经知道给定的编辑距离足以将x视为拼写错误的d_i版本。这可以为您提供更一般的模型,而不是使用机器学习,因为每个字典单词都有不同的阈值(有些单词比其他单词拼写错误),但是很明显,您必须准备一个(misspelled_word, correct_one)形式的培训集(并添加(correct_one, correct_one)。
您可以使用任何类型的二进制分类器来完成这类任务,它可以处理“真实”输入数据。
https://stackoverflow.com/questions/18374749
复制相似问题