问题是:当给出一个文本块时,我想提出一些可能的主题。例如,一篇关于科比·布莱恩特的新闻文章会建议贴上这样的标签:“篮球”、“nba”、“体育”。
我有一个相当大的训练数据集(350k+),其中包括用户分配给文本的文本和标记体。有大约40k,预先存在的主题;但是,许多主题中没有太多的条目。我想说的是,只有大约5k的主题中有10多个条目。用户不能分配系统中不存在的主题。我也想把它包括进去
有人对使用算法有什么建议吗?
如果有人对python库也有任何建议的话,那就太棒了。
发布于 2015-06-12 21:58:37
在类似的问题上也出现了类似的问题--这里就是一个例子--堆叠溢出。当你写你的问题时,堆栈溢出本身建议了一些没有你干预的标签,尽管你可以手动添加或删除它们。
开箱即用的分类会失败,因为标签的数量是巨大的。你可以从两个方向着手解决这个问题。
如果你把这个问题作为长期学术项目或研究的一部分,研究方法2会更好。但是,如果您需要现成的解决方案,请使用方法1。Lucene是一个很好的索引工具,即使在生产中也使用过。它最初是用Java编写的,但是您可以轻松地找到Python的包装器。另一种选择是Elastic ,Katta等。
附注:在玩标签分数时,需要进行大量的实验。
https://stackoverflow.com/questions/30812466
复制相似问题