首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何过滤掉并以最简单的方式丢弃无关的tweet

如何过滤掉并以最简单的方式丢弃无关的tweet
EN

Data Science用户
提问于 2021-09-20 17:16:33
回答 1查看 179关注 0票数 0

我有很多推文,我需要从中过滤和丢弃无关的推文。推文不相关的标准非常简单。如果一条推文所包含的只有表情符号、单个哈斯塔格或多个哈斯塔格等等,简单地说,如果一条推文中没有需要提取的实际信息,那就无关紧要了。有现成的包吗?

我不想构建分类器,因为这将在NLP模型的数据预处理管道中使用。此外,在推特上贴上标签将是额外的开销。所以,我想知道是否有任何方法或经过预先训练的模型来做到这一点。我希望这件事尽可能简单。

EN

回答 1

Data Science用户

发布于 2021-09-20 19:06:17

我认为简单的正则匹配是你所需要的。

将tweet传递到一系列与表情符号和标签匹配的正则表达式中,如果没有保留,则丢弃。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/102258

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档