首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >更好的Doc2Vec输入

更好的Doc2Vec输入
EN

Data Science用户
提问于 2017-12-04 12:56:11
回答 1查看 3.2K关注 0票数 0

我想在推特数据集上执行Doc2Vec。由于每条推文都包含一个特殊字符、数字、urls、提到和标签、非英语单词的数字,我应该为Doc2Vec输入什么?我应该如何处理最初的推文?

我看了很多教程,但都使用了纯文本。我是数据科学的新手。

EN

回答 1

Data Science用户

回答已采纳

发布于 2017-12-04 16:49:01

有很多不同的方法可以使用,而且没有一个是通用的最佳解决方案。但是,一般来说,twitter数据的预处理,特别是对Doc2Vec的预处理,如下所示:

  1. 标记化(nltk记号器,自定义regex记号器)以识别单词。根据应用程序的不同,您可以处理特殊情况,如英语缩略语、否定句(特别是情感分析)和其他情况。
  2. 规范urls和/或提到,将每个urls转换为相同的版本,以减少音量大小(http://someurl,@ size )或完全删除它们。
  3. 移除数字、标点符号或其他。请注意,这是高度依赖域的,例如"!“在情感分析中表现得很好。

事实上,doc2vec并不期望任何东西,它使用您提供的词汇表。所以你决定你想要什么。一个好的实践是尝试不同的标记器和训练阶段,如果你有时间看看什么是最好的。还可以使用在您的应用领域中已经完成的操作。

不要忘记,Doc2Vec的输入是TaggedDocument列表上的迭代器。有关更多信息,请参见此教程

祝你好运!

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/25376

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档