首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >拼写检查的机器学习算法

拼写检查的机器学习算法
EN

Stack Overflow用户
提问于 2013-08-22 07:59:53
回答 1查看 4.1K关注 0票数 1

我有一个药物名称列表( regular_list )和一个新名称列表( new_list ).I希望检查new_list中的名称是否已经存在于regular_list或not.The问题中,即名称new_list可能存在一些错误,我希望这些名称被视为与常规列表匹配。我知道使用字符串可以解决这个问题,但是我需要一个机器学习算法

EN

回答 1

Stack Overflow用户

发布于 2013-08-22 08:36:09

正如这里已经提到的machine learning to overcome typo errors,机器学习工具对于这样的任务来说太多了,但是最简单的可能是合并这些方法。

一方面,您可以计算给定单词x和每个字典单词d_i之间的d_i。此外,您还可以训练每个单词的分类器。

代码语言:javascript
复制
c(d_i, distance(x,d_i)) 

返回True (类1),如果已经知道给定的编辑距离足以将x视为拼写错误的d_i版本。这可以为您提供更一般的模型,而不是使用机器学习,因为每个字典单词都有不同的阈值(有些单词比其他单词拼写错误),但是很明显,您必须准备一个(misspelled_word, correct_one)形式的培训集(并添加(correct_one, correct_one)。

您可以使用任何类型的二进制分类器来完成这类任务,它可以处理“真实”输入数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18374749

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档