我有用户的问题,我想要自动分类,而不是手动标记他们。什么样的深度学习方法才能更好地从文本中进行文本分类(如此无监督)。
这些算法必须依赖于字嵌入吗?
发布于 2018-07-05 01:55:48
由于你专门问的是深度学习技术,除了自动编码器之外,没有什么能让我感到意外。
您可以尝试使用自动编码器进行聚类,基本上,您需要坚持使用集群。因为你没有标签。
要回答您的问题,它们是否依赖于存在的嵌入,这取决于您的数据,如果您有一个特定于域的数据,或者您有一种奇怪的语言中的数据,那么您应该创建您自己的嵌入。
我发现这篇文章很有帮助,尽管它已经在图像上完成了,但是您可以使用Conv1D在文本上进行尝试。当然,您也可以尝试像word2vec或快速文本这样的word嵌入。有一个很好的文章,他们使用gensim来附加嵌入,以防您的数据只是普通英语。
还有一个来自keras的文章,作者在这里使用了经过预先训练的GloVe嵌入。
希望这能有所帮助。
https://datascience.stackexchange.com/questions/34003
复制相似问题