我使用WEKA工具对数据进行聚类分析,但是在我的一些属性中,域中有许多值。具体来说,我需要代表一些关于蛋白质的信息,我需要包含的信息是与它们的功能相关的术语。
例如,这些值包含在相同的属性“Function”上:
"RNA -结合蛋白“,”ribosomerRNA结合的结构成分“,”翻译“,”细胞内核糖体核糖核蛋白复合物“。
而这些术语的多样化程度也很大。
有人能帮我吗?
发布于 2013-05-20 22:27:44
一种常见的方法是将具有n不同类别的分类变量拆分为n二进制虚拟变量。
例如:
gender = {male, female}可以用2个虚拟变量重写,如下所示:
male = [0, 1]female = [1, 0]在您的例子中,一个函数似乎可以包含几个不同的值(例如,具有多个功能的1种蛋白质)。这也很容易将模型塑造成虚拟变量。
https://stackoverflow.com/questions/16657663
复制相似问题