我有很多推文,我需要从中过滤和丢弃无关的推文。推文不相关的标准非常简单。如果一条推文所包含的只有表情符号、单个哈斯塔格或多个哈斯塔格等等,简单地说,如果一条推文中没有需要提取的实际信息,那就无关紧要了。有现成的包吗?
我不想构建分类器,因为这将在NLP模型的数据预处理管道中使用。此外,在推特上贴上标签将是额外的开销。所以,我想知道是否有任何方法或经过预先训练的模型来做到这一点。我希望这件事尽可能简单。
发布于 2021-09-20 19:06:17
我认为简单的正则匹配是你所需要的。
将tweet传递到一系列与表情符号和标签匹配的正则表达式中,如果没有保留,则丢弃。
https://datascience.stackexchange.com/questions/102258
复制相似问题