文章/答案/技术大牛

发布

社区首页 >问答首页 >如何过滤掉并以最简单的方式丢弃无关的tweet

问如何过滤掉并以最简单的方式丢弃无关的tweet
EN

Data Science用户

提问于 2021-09-20 17:16:33

回答 1查看 179关注 0票数 0

我有很多推文，我需要从中过滤和丢弃无关的推文。推文不相关的标准非常简单。如果一条推文所包含的只有表情符号、单个哈斯塔格或多个哈斯塔格等等，简单地说，如果一条推文中没有需要提取的实际信息，那就无关紧要了。有现成的包吗？

我不想构建分类器，因为这将在NLP模型的数据预处理管道中使用。此外，在推特上贴上标签将是额外的开销。所以，我想知道是否有任何方法或经过预先训练的模型来做到这一点。我希望这件事尽可能简单。

发布于 2021-09-20 19:06:17

我认为简单的正则匹配是你所需要的。

将tweet传递到一系列与表情符号和标签匹配的正则表达式中，如果没有保留，则丢弃。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/102258

复制

相似问题

问如何过滤掉并以最简单的方式丢弃无关的tweetEN