首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >个人项目的最佳数据分析技术/模型

个人项目的最佳数据分析技术/模型
EN

Stack Overflow用户
提问于 2015-10-14 16:05:51
回答 2查看 98关注 0票数 0

我不太清楚该怎么说,如果格式不对,我很抱歉,但我想找个基础,以便能够自己解决这个问题。

我正试图为一组“髋关节手术患者”的数据开发一种预测算法,这些数据看起来如下:

代码语言:javascript
复制
Readmission Time | Symptom Code | Symptom Note    |  Related
               6 |         2334 | swelling in hip |     Yes       
              12 |         1324 | anxiety         |     Maybe       
               8 |         2334 | swelling in hip |     Yes       
              30 |         1111 | Headaches       |     No
               3 |         7934 | easily bruising |     Yes  

就上下文而言,医生可以确定某一“症状代码”是否与X天前发生的“髋关节置换手术”有关。我的数据集中大约有200个条目与这种格式相匹配,我的目标是能够根据新的输入来匹配给定集中的结果,并在“相关”列(具有预测结果的确切统计信息)中预测新的结果。例如:

代码语言:javascript
复制
Input:  20 | 2334 | swelling in hip
Output: Yes (90% confidence)

我对数据分析和机器学习非常陌生,所以我真的很想找到一些东西的指点来查找,或者从哪里开始我的研究。我想有一个最优的函数/模型能最好地处理这个问题,但是正如我说的,我对这个话题非常陌生,所以我不知道从哪里开始。因为我有一个相对较小的数据集,所以我正在寻找一种技术,如果可能的话,这种技术不容易被过度训练

我真的很感激任何关于从哪里开始的帮助和建议。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-10-14 16:24:55

基于您的数据片段,它看起来像是一个多类分类问题(3类是“是”、“可能”或“否”)。

您的列( related)将是您的特性,可以简化为数字表示。例如:

对于症状说明功能,您可以进行如下所示的映射:

代码语言:javascript
复制
Swelling in hip = 1
Anxiety = 2
Swelling = 3
Easily Bruised = 4

显然,如果您在本专栏中有一定数量的症状,这是可以工作的。机器学习算法通常与数字一起工作,因此您的特征将从原始数据中提取为数字形式。一旦完成,您可以将数据输入到分类算法中。朴素贝叶斯算法是一个很好的起点。

Scikit学习(如果您可以使用python)有一个关于3类分类任务的很好的介绍性示例,其中所有的特性都是数字。它试图根据萼片长度、萼片宽度、花瓣长度和花瓣宽度对不同类型的虹膜花进行分类。

完整的教程可以在这里找到:监督学习:从高维观测中预测输出变量

获得更多的数据是否可行?如果是的话,我建议你多拿点。200个实例非常小,可能无法正确地表示特征空间。此外,将数据拆分为训练和测试集将非常有用,从而进一步减少培训时的使用量。您还可以选择K Folds 交叉验证

概括地说:导航到那个科学知识学习页面,尝试花分类的例子。一旦您熟悉了环境,您的数据就需要进行一些清理和特征提取。你需要回答一些问题,比如Readmission TimeSymptom Code的含义是什么?这些值是在具有special内部含义的指定范围内的值,还是只是像id一样分配的随机数。

票数 2
EN

Stack Overflow用户

发布于 2015-10-14 16:25:46

我建议将您的数据转录成ARFF格式,然后与Weka一起使用。韦卡是一个有很多机器学习算法的程序,你可以尝试它,它也有一个非常简单的用户界面,所以对初学者是好的!一旦您找到了一个运行良好的算法,您就可以保存您经过训练的模型,并使用它来预测新的实例!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33130284

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档