文章/答案/技术大牛

发布

社区首页 >问答首页 >个人项目的最佳数据分析技术/模型

问个人项目的最佳数据分析技术/模型
EN

Stack Overflow用户

提问于 2015-10-14 16:05:51

回答 2查看 98关注 0票数 0

我不太清楚该怎么说，如果格式不对，我很抱歉，但我想找个基础，以便能够自己解决这个问题。

我正试图为一组“髋关节手术患者”的数据开发一种预测算法，这些数据看起来如下：

Readmission Time | Symptom Code | Symptom Note    |  Related
               6 |         2334 | swelling in hip |     Yes       
              12 |         1324 | anxiety         |     Maybe       
               8 |         2334 | swelling in hip |     Yes       
              30 |         1111 | Headaches       |     No
               3 |         7934 | easily bruising |     Yes

就上下文而言，医生可以确定某一“症状代码”是否与X天前发生的“髋关节置换手术”有关。我的数据集中大约有200个条目与这种格式相匹配，我的目标是能够根据新的输入来匹配给定集中的结果，并在“相关”列(具有预测结果的确切统计信息)中预测新的结果。例如：

Input:  20 | 2334 | swelling in hip
Output: Yes (90% confidence)

我对数据分析和机器学习非常陌生，所以我真的很想找到一些东西的指点来查找，或者从哪里开始我的研究。我想有一个最优的函数/模型能最好地处理这个问题，但是正如我说的，我对这个话题非常陌生，所以我不知道从哪里开始。因为我有一个相对较小的数据集，所以我正在寻找一种技术，如果可能的话，这种技术不容易被过度训练

我真的很感激任何关于从哪里开始的帮助和建议。

machine-learning

analytics

data-analysis

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-10-14 16:24:55

基于您的数据片段，它看起来像是一个多类分类问题(3类是“是”、“可能”或“否”)。

您的列( related)将是您的特性，可以简化为数字表示。例如：

对于症状说明功能，您可以进行如下所示的映射：

Swelling in hip = 1
Anxiety = 2
Swelling = 3
Easily Bruised = 4

显然，如果您在本专栏中有一定数量的症状，这是可以工作的。机器学习算法通常与数字一起工作，因此您的特征将从原始数据中提取为数字形式。一旦完成，您可以将数据输入到分类算法中。朴素贝叶斯算法是一个很好的起点。

Scikit学习(如果您可以使用python)有一个关于3类分类任务的很好的介绍性示例，其中所有的特性都是数字。它试图根据萼片长度、萼片宽度、花瓣长度和花瓣宽度对不同类型的虹膜花进行分类。

完整的教程可以在这里找到：监督学习:从高维观测中预测输出变量

获得更多的数据是否可行？如果是的话，我建议你多拿点。200个实例非常小，可能无法正确地表示特征空间。此外，将数据拆分为训练和测试集将非常有用，从而进一步减少培训时的使用量。您还可以选择K Folds 交叉验证。

概括地说:导航到那个科学知识学习页面，尝试花分类的例子。一旦您熟悉了环境，您的数据就需要进行一些清理和特征提取。你需要回答一些问题，比如Readmission Time和Symptom Code的含义是什么？这些值是在具有special内部含义的指定范围内的值，还是只是像id一样分配的随机数。

票数 2

Stack Overflow用户

发布于 2015-10-14 16:25:46

我建议将您的数据转录成ARFF格式，然后与Weka一起使用。韦卡是一个有很多机器学习算法的程序，你可以尝试它，它也有一个非常简单的用户界面，所以对初学者是好的！一旦您找到了一个运行良好的算法，您就可以保存您经过训练的模型，并使用它来预测新的实例！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33130284

复制

相似问题

问个人项目的最佳数据分析技术/模型
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问个人项目的最佳数据分析技术/模型EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问个人项目的最佳数据分析技术/模型
EN