文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习:表示单词特征的好方法

问机器学习:表示单词特征的好方法
EN

Stack Overflow用户

提问于 2011-12-16 01:31:38

回答 2查看 382关注 0票数 1

不太确定这里是不是对的地方。但这是我的问题。因此，对于本质上是数字的特性，表示它们、绘制它们等都是很自然的，但是words呢？

如何处理以单词为特征的数据？因此，假设我有一个具有以下特性的数据集：

InventoryVal, Number of Units, Avg Price, Category of Event and so on..

InventoryVal是一个数字
单位数是一个数字
平均价格是一个数字
事件的类别是一个由人类指定的词。

如果我用id替换类别(例如)“图书”.(比方说1)但这也是我指定的东西，这不是数据的固有内容。

什么是一个很好的指标来代表一个产品属于“艺术”范畴，而不人为地分配任何东西？恩..。问题太含糊或过于松散?/

algorithm

machine-learning

回答 2

Stack Overflow用户

发布于 2011-12-16 01:43:36

因此，正如您可能已经猜到的，有针对这个问题的整个ML库，但是如果您只想开始，最简单的(也可能是最常见的)是字频。换句话说，您将每个单词表示为一个功能，其值是每个文档中单词发生次数的函数。

但最常见的词(a，and，the，this等)是最常见的(在普通的文本文档中(例如，电子邮件)，但并不是最重要的，所以通常将一个词的特征表示为，与它的频率相反。

因此，这也是最简单的方法(通常指的是一包单词)；更复杂的分析(并不总是必需的)对单个单词进行预处理，以便将它们分类为例如词性分析。

如果您喜欢python，我建议NLTK (自然语言工具包)是一个成熟且文档丰富的python库。有相当多的“入门”教程，但可能从NLTK贡献者创建的教程开始，这些教程在NLTK主页上引用；这些教程通常依赖于基本NLTK安装中包含的语料库(数据集)。

票数 0

Stack Overflow用户

发布于 2011-12-16 05:39:18

如果您使用的是现有的机器学习包，或者是打包的机器学习算法，那么可能有一种方法可以告诉它，某个特定的字段包含例如要作为标识符处理的整数，其中只有对等式和不等式的比较才有意义。如果不是，如果只有少量不同的类别，则用10个二进制字段替换一个类别字段可能是有意义的，如果对象在该特定类别中，则保留1个；如果不是，则保留1个字段(如果所有字段都为0)，则用第10个类别中的对象替换9个字段。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8528832

复制

相似问题

问机器学习:表示单词特征的好方法
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习:表示单词特征的好方法EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习:表示单词特征的好方法
EN