首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何创建“经过培训”的新闻文章分类数据集?

如何创建“经过培训”的新闻文章分类数据集?
EN

Data Science用户
提问于 2018-03-01 15:04:19
回答 1查看 355关注 0票数 1

我试图根据新闻文章的主要主题,如政治、娱乐、体育、商业、科技、健康等,自动分类。

有一些标记的数据集,但理想情况下,我想要创建自己的(为以后的潜在商业用途)。我正在使用python,但是对于任何语言来说,一个足够清晰的答案就足够了。

那么,完成这项任务的最佳方式是什么呢?

我现在的想法是:

  • 为每个类别确定最流行的关键字,然后将每个关键字/关键字集与每个类别关联起来,然后使用算法将“类别”标签应用于基于预定义关键字集的大量刮取的工件。
  • 另一种选择是从已经指定类别的新闻站点的特定部分中刮取文章,并将它们应用于每个单独的组成项目。

在有了经过训练的数据集之后,我计划实现朴素贝叶斯分类方法来自动对未来的文章进行分类。

..。

正如你所看到的,我有一些想法,但因为网络是一个巨大而神奇的地方,我认为有这样的经验的人可能能够通过引导我找到最可行的解决方案来减少我的努力开支。

EN

回答 1

Data Science用户

发布于 2021-08-08 16:09:16

由于新闻文章分类是一项相对常见的任务,所以使用已经标注的培训数据将是最快和最容易的。

备选方案包括:

没有什么可以阻止您在这些数据集上培训模型,然后将该模型用于商业目的。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/28464

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档