我不太清楚该怎么说,如果格式不对,我很抱歉,但我想找个基础,以便能够自己解决这个问题。
我正试图为一组“髋关节手术患者”的数据开发一种预测算法,这些数据看起来如下:
Readmission Time | Symptom Code | Symptom Note | Related
6 | 2334 | swelling in hip | Yes
12 | 1324 | anxiety | Maybe
8 | 2334 | swelling in hip | Yes
30 | 1111 | Headaches | No
3 | 7934 | easily bruising | Yes 就上下文而言,医生可以确定某一“症状代码”是否与X天前发生的“髋关节置换手术”有关。我的数据集中大约有200个条目与这种格式相匹配,我的目标是能够根据新的输入来匹配给定集中的结果,并在“相关”列(具有预测结果的确切统计信息)中预测新的结果。例如:
Input: 20 | 2334 | swelling in hip
Output: Yes (90% confidence)我对数据分析和机器学习非常陌生,所以我真的很想找到一些东西的指点来查找,或者从哪里开始我的研究。我想有一个最优的函数/模型能最好地处理这个问题,但是正如我说的,我对这个话题非常陌生,所以我不知道从哪里开始。因为我有一个相对较小的数据集,所以我正在寻找一种技术,如果可能的话,这种技术不容易被过度训练
我真的很感激任何关于从哪里开始的帮助和建议。
发布于 2015-10-14 16:24:55
基于您的数据片段,它看起来像是一个多类分类问题(3类是“是”、“可能”或“否”)。
您的列( related)将是您的特性,可以简化为数字表示。例如:
对于症状说明功能,您可以进行如下所示的映射:
Swelling in hip = 1
Anxiety = 2
Swelling = 3
Easily Bruised = 4显然,如果您在本专栏中有一定数量的症状,这是可以工作的。机器学习算法通常与数字一起工作,因此您的特征将从原始数据中提取为数字形式。一旦完成,您可以将数据输入到分类算法中。朴素贝叶斯算法是一个很好的起点。
Scikit学习(如果您可以使用python)有一个关于3类分类任务的很好的介绍性示例,其中所有的特性都是数字。它试图根据萼片长度、萼片宽度、花瓣长度和花瓣宽度对不同类型的虹膜花进行分类。
完整的教程可以在这里找到:监督学习:从高维观测中预测输出变量
获得更多的数据是否可行?如果是的话,我建议你多拿点。200个实例非常小,可能无法正确地表示特征空间。此外,将数据拆分为训练和测试集将非常有用,从而进一步减少培训时的使用量。您还可以选择K Folds 交叉验证。
概括地说:导航到那个科学知识学习页面,尝试花分类的例子。一旦您熟悉了环境,您的数据就需要进行一些清理和特征提取。你需要回答一些问题,比如Readmission Time和Symptom Code的含义是什么?这些值是在具有special内部含义的指定范围内的值,还是只是像id一样分配的随机数。
发布于 2015-10-14 16:25:46
我建议将您的数据转录成ARFF格式,然后与Weka一起使用。韦卡是一个有很多机器学习算法的程序,你可以尝试它,它也有一个非常简单的用户界面,所以对初学者是好的!一旦您找到了一个运行良好的算法,您就可以保存您经过训练的模型,并使用它来预测新的实例!
https://stackoverflow.com/questions/33130284
复制相似问题