我正在尝试使用不同的NLP功能进行一些KNN学习。例如,我想使用bag-of-words和本地POS标签。
另外,我对如何计算单个特征的相似度有一些想法。比如对计数使用余弦相似度(对于词袋向量),或者对POS标签使用可能的汉明距离。
然而,我不知道如何将两者结合起来。这个地区的人通常是怎么做的?有人能帮我吗?
提前谢谢。
发布于 2012-08-17 19:25:04
我将使用这两个功能的简单线性组合。因此,您可以使用余弦相似度和词性标签的汉明距离分别比较词袋向量,然后取这两个结果的平均值。因此,如果余弦比较和汉明距离的结果如下:
rank score cosine Hamming
-------------------------------
1 red blue
2 blue yellow
3 yellow orange
4 orange red那么最终的排名(给定排名分数,如果你想更多地强调排名较高的标签,当然可以将其更改为指数级)将如下所示(分数越低越好):
label total score
--------------------
blue 3
red 5
yellow 5
orange 7因此,输出标签将是blue。在这种情况下,线性组合将50%的权重放在余弦相似性输出上,并将50%的权重放在汉明距离输出上。您可以使用不同的权重(例如,70%余弦,30%汉明)执行测试,以找到这两个度量之间的最佳平衡。
https://stackoverflow.com/questions/12003250
复制相似问题