我想在推特数据集上执行Doc2Vec。由于每条推文都包含一个特殊字符、数字、urls、提到和标签、非英语单词的数字,我应该为Doc2Vec输入什么?我应该如何处理最初的推文?
我看了很多教程,但都使用了纯文本。我是数据科学的新手。
发布于 2017-12-04 16:49:01
有很多不同的方法可以使用,而且没有一个是通用的最佳解决方案。但是,一般来说,twitter数据的预处理,特别是对Doc2Vec的预处理,如下所示:
事实上,doc2vec并不期望任何东西,它使用您提供的词汇表。所以你决定你想要什么。一个好的实践是尝试不同的标记器和训练阶段,如果你有时间看看什么是最好的。还可以使用在您的应用领域中已经完成的操作。
不要忘记,Doc2Vec的输入是TaggedDocument列表上的迭代器。有关更多信息,请参见此教程。
祝你好运!
https://datascience.stackexchange.com/questions/25376
复制相似问题