首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >新闻分类

新闻分类
EN

Data Science用户
提问于 2016-08-12 06:48:33
回答 2查看 1.1K关注 0票数 1

目前,我有一堆摘录的新闻文章。我想确定一篇特定的新闻文章是否与某一家公司有关。例如,“苹果股价下跌了15%”应该与苹果公司有关。此外,“蒂姆·库克卷入性骚扰案”也应与苹果公司有关。能给我推荐一些策略来完成这个任务吗?

EN

回答 2

Data Science用户

发布于 2016-08-12 06:57:16

查看20 at数据集及其分类技术。这是一个新闻文章的集合,分为20个类别。它和你的不完全一样,但也很相似。你提到的关于Tim的第二行可能是分类困难的句子,所以我建议你在开始之前有一个很好的训练数据集。

对于简单的开始,您可以尝试文本清理和标记。参考,一个先前的答案已经提供了相关的链接和进一步的信息。

对于主题的分类技术,我发现 one在20 one上提供了非常好的性能。

票数 1
EN

Data Science用户

发布于 2018-04-03 18:34:49

我向您提供一些执行此任务的步骤:

  1. 从新闻中提取普通内容,例如使用拖网
  2. 标记每一个文本,并用文字的袋子技术用向量表示它们。执行此操作的一个简单方法是使用sklearn中的TfidfVectorizer
  3. 使用k-NN(k最近邻)等分类技术对它们进行聚类。你会发现k-NN滑雪板实现非常有用。

执行这项任务的关键是使用TfidfVectorizer,它会使只出现在少数注意事项中的令牌更多,比如"Apple“和"Tim”。使用简单的计数向量器是没有用的。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/13385

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档