不太确定这里是不是对的地方。但这是我的问题。因此,对于本质上是数字的特性,表示它们、绘制它们等都是很自然的,但是words呢?
如何处理以单词为特征的数据?因此,假设我有一个具有以下特性的数据集:
InventoryVal, Number of Units, Avg Price, Category of Event and so on..如果我用id替换类别(例如)“图书”.(比方说1)但这也是我指定的东西,这不是数据的固有内容。
什么是一个很好的指标来代表一个产品属于“艺术”范畴,而不人为地分配任何东西?恩..。问题太含糊或过于松散?/
发布于 2011-12-16 01:43:36
因此,正如您可能已经猜到的,有针对这个问题的整个ML库,但是如果您只想开始,最简单的(也可能是最常见的)是字频。换句话说,您将每个单词表示为一个功能,其值是每个文档中单词发生次数的函数。
但最常见的词(a,and,the,this等)是最常见的(在普通的文本文档中(例如,电子邮件),但并不是最重要的,所以通常将一个词的特征表示为,与它的频率相反。
因此,这也是最简单的方法(通常指的是一包单词);更复杂的分析(并不总是必需的)对单个单词进行预处理,以便将它们分类为例如词性分析。
如果您喜欢python,我建议NLTK (自然语言工具包)是一个成熟且文档丰富的python库。有相当多的“入门”教程,但可能从NLTK贡献者创建的教程开始,这些教程在NLTK主页上引用;这些教程通常依赖于基本NLTK安装中包含的语料库(数据集)。
发布于 2011-12-16 05:39:18
如果您使用的是现有的机器学习包,或者是打包的机器学习算法,那么可能有一种方法可以告诉它,某个特定的字段包含例如要作为标识符处理的整数,其中只有对等式和不等式的比较才有意义。如果不是,如果只有少量不同的类别,则用10个二进制字段替换一个类别字段可能是有意义的,如果对象在该特定类别中,则保留1个;如果不是,则保留1个字段(如果所有字段都为0),则用第10个类别中的对象替换9个字段。
https://stackoverflow.com/questions/8528832
复制相似问题