首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本映射-医学名称

文本映射-医学名称
EN

Data Science用户
提问于 2020-05-01 04:57:50
回答 1查看 66关注 0票数 0

我们有一个问题,我们有一个标准化的医学名称数据库。另一方面,也有一些医学名称可能有拼写错误、不同结构或下划线、缺失词等,还有一些可用的元数据,如制造商名称、单位大小等。

人类可以很容易地相互映射这两个数据库。我们使用了一些字符串比较,并创建了一些概率评分,在某些情况下,它达到了目的。

但很多时候,我们遇到了很多微妙的问题,条件也在不断堆积。有没有任何机器学习类型的算法可以帮助?我对所有的主要算法都有基本的理解,但是我对这个问题却一无所知。简单的例子是映射Epilex 300 is标签和Epilex 300片剂。如果需要的话,我可以举更多的例子。

EN

回答 1

Data Science用户

发布于 2020-05-01 07:49:43

我认为没有必要在这个问题上使用ML。我们可以通过一个简单的查找表/映射表来解决这个问题。问题是,每当遇到新的类别时,我们都必须更新查找表。

将ML应用于此问题。您应该拥有一组预处理的、经过处理的响应的数据,如Epilex 300 (预处理),Epilex 300(已加工)。如果有这些数据,则可以应用决策树(不需要剪枝)模型来预测给定未处理文本的已处理文本。请记住,您将得到预测,只有在培训类别中的类别。您可以做的是,如果出现了一个新的类别,您可以手动添加该响应来训练数据。再次训练你的数据。如果下次遇到该类别,它将正确预测。这样你就可以提高你的模型预测能力。过了一段时间,你就能正确地预测每一个反应。示例代码的屏幕短片附在这里。

要有实际的代码,请考虑以下链接。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/73325

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档