首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习中的ICD-10码

机器学习中的ICD-10码
EN

Data Science用户
提问于 2017-06-07 20:41:44
回答 3查看 3K关注 0票数 5

有人能在机器学习中使用ICD-10代码来提供特定的技术吗?我通常使用一种简单的方法来创建表示ICD-10代码…的多个二进制列。可能会持续很长时间。或者我用过散列功能。在ML中是否有其他技术或方法来使用ICD-10码?任何人都可以提供一个有用的链接来查看对这些特性建模的各种方法?

EN

回答 3

Data Science用户

回答已采纳

发布于 2017-06-07 21:16:53

大多数关于ICD代码的机器学习都涉及自动编码文档或NLP,以便从文档中自动提取ICD代码。一旦你拥有了它们,我见过的大多数应用程序都会按原样使用它们。

一个简单的备选办法是将守则分配给有关类别,以减少级别数目,使之更易于解释。例如

  • 伤害类型(如精神障碍的F00-F99)
  • 身体部分(如S10-S19和.颈部受伤)
  • 伤害严重程度等

取决于你的申请。当然,如果您不想事先定义类别,可以使用一些聚类或嵌入方法等来完成。

票数 4
EN

Data Science用户

发布于 2017-10-22 17:06:00

我使用了ICD-10代码,使用了一个热编码/虚拟变量,正如您在Q中所描述的那样,这创建了一个非常稀疏的二进制设计矩阵,正如您所说的,它具有大量的特性。有些方法可以使RAM变得更易于管理:(出于兴趣,您的唯一代码列和行示例数量有多长时间?)

  1. 我发现这是通过使用父代码(例如省略“。在ICD代码之后:"G12.21“改为"G12"),列数减少。
  2. 由于设计矩阵是二进制的和非常稀疏的,除非您对罕见的诊断感兴趣,否则您可以根据诊断的罕见程度省略许多共患疾病。放弃对每个病人的一些罕见的诊断(在我的例子中,200 k行,列从大约7,500减少到~6,500)
票数 3
EN

Data Science用户

发布于 2018-03-14 08:53:48

我打算试一下A12.3表格的代码;取第一个字母,在字母表中的一个位置,加10,然后乘以10,给出在100到360之间的26个数值,在这个数字后面加上第二个两位数,即从上面的例子中添加12,得到10012。然后追加最后的数字,即100123。

这应该给出从将ICD10代码作为树分析得到的数字可比距离,也就是说,在一个分支上彼此接近的所有代码都在另一个分支上相互接近,并且不应该溢出太多。我的意思是,在一个字母代码的高端的数字不应该比其他成员更接近另一个字母代码的较低的数字。

如果有人有意见,我会感兴趣的?

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/19538

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档