有人能在机器学习中使用ICD-10代码来提供特定的技术吗?我通常使用一种简单的方法来创建表示ICD-10代码…的多个二进制列。可能会持续很长时间。或者我用过散列功能。在ML中是否有其他技术或方法来使用ICD-10码?任何人都可以提供一个有用的链接来查看对这些特性建模的各种方法?
发布于 2017-06-07 21:16:53
大多数关于ICD代码的机器学习都涉及自动编码文档或NLP,以便从文档中自动提取ICD代码。一旦你拥有了它们,我见过的大多数应用程序都会按原样使用它们。
一个简单的备选办法是将守则分配给有关类别,以减少级别数目,使之更易于解释。例如
取决于你的申请。当然,如果您不想事先定义类别,可以使用一些聚类或嵌入方法等来完成。
发布于 2017-10-22 17:06:00
我使用了ICD-10代码,使用了一个热编码/虚拟变量,正如您在Q中所描述的那样,这创建了一个非常稀疏的二进制设计矩阵,正如您所说的,它具有大量的特性。有些方法可以使RAM变得更易于管理:(出于兴趣,您的唯一代码列和行示例数量有多长时间?)
发布于 2018-03-14 08:53:48
我打算试一下A12.3表格的代码;取第一个字母,在字母表中的一个位置,加10,然后乘以10,给出在100到360之间的26个数值,在这个数字后面加上第二个两位数,即从上面的例子中添加12,得到10012。然后追加最后的数字,即100123。
这应该给出从将ICD10代码作为树分析得到的数字可比距离,也就是说,在一个分支上彼此接近的所有代码都在另一个分支上相互接近,并且不应该溢出太多。我的意思是,在一个字母代码的高端的数字不应该比其他成员更接近另一个字母代码的较低的数字。
如果有人有意见,我会感兴趣的?
https://datascience.stackexchange.com/questions/19538
复制相似问题