目前,我有一堆摘录的新闻文章。我想确定一篇特定的新闻文章是否与某一家公司有关。例如,“苹果股价下跌了15%”应该与苹果公司有关。此外,“蒂姆·库克卷入性骚扰案”也应与苹果公司有关。能给我推荐一些策略来完成这个任务吗?
发布于 2016-08-12 06:57:16
查看20 at数据集及其分类技术。这是一个新闻文章的集合,分为20个类别。它和你的不完全一样,但也很相似。你提到的关于Tim的第二行可能是分类困难的句子,所以我建议你在开始之前有一个很好的训练数据集。
对于简单的开始,您可以尝试文本清理和标记。参考这,一个先前的答案已经提供了相关的链接和进一步的信息。
对于主题的分类技术,我发现这 one在20 one上提供了非常好的性能。
发布于 2018-04-03 18:34:49
我向您提供一些执行此任务的步骤:
执行这项任务的关键是使用TfidfVectorizer,它会使只出现在少数注意事项中的令牌更多,比如"Apple“和"Tim”。使用简单的计数向量器是没有用的。
https://datascience.stackexchange.com/questions/13385
复制相似问题