现在我只是在一个数据集上训练一个DynamicLMClassifier,并将我的文本分类。我如何添加一个特征,以便分类器给某些单词更多的权重,例如,如果这句话包含“专业”,它很可能属于A类?或者如何根据段落而不是ngram进行分类?
我注意到有一个特征提取器,但它似乎不接受参数。
发布于 2014-12-12 05:56:39
我会以评论的形式这样做,但我还没有这个特权。
DynamicLMClassifier is不允许任意功能。其中之一就是我们的LogisticRegression分类器,但它的使用起来更加复杂。一个好的起点是位于以下位置的教程:
http://alias-i.com/lingpipe/demos/tutorial/logistic-regression/read-me.html
你的第二个问题是如何根据段落而不是ngram进行分类,这有点不清楚。使用整个段落作为单个特征可能会创建非常稀疏的数据。
Breck
https://stackoverflow.com/questions/24482163
复制相似问题