假设我想创建一个二进制分类器来检测垃圾邮件。我有10亿的训练例子和大约20个特色。我希望我经过训练的分类器能够适应内存(我将在云和磁盘操作上运行它,这实际上是rpc-调用将是非常昂贵的)。
我的问题是:我如何估计我需要的内存量?假设我的分类器是随机森林,而我对训练集中垃圾邮件的分布一无所知。
只有数字:两个类,十亿个例子,20个特性。
这样的估计有可能吗?怎么做呢?
发布于 2012-01-31 18:51:39
对于垃圾邮件分类,您可能应该运行一个线性分类器,对单词出现的特征+bigram+域名或ip地址发生在链接+从标头和SMTP上下文中提取的内容中。
在这种情况下,您可以将这些特性散列到2 ** 18维(例如,使用元音wabbit )乘以每个特性8字节,从而使您成为内存中的2MB模型。
https://stackoverflow.com/questions/9074140
复制相似问题