我试图根据新闻文章的主要主题,如政治、娱乐、体育、商业、科技、健康等,自动分类。
有一些标记的数据集,但理想情况下,我想要创建自己的(为以后的潜在商业用途)。我正在使用python,但是对于任何语言来说,一个足够清晰的答案就足够了。
那么,完成这项任务的最佳方式是什么呢?
我现在的想法是:
在有了经过训练的数据集之后,我计划实现朴素贝叶斯分类方法来自动对未来的文章进行分类。
..。
正如你所看到的,我有一些想法,但因为网络是一个巨大而神奇的地方,我认为有这样的经验的人可能能够通过引导我找到最可行的解决方案来减少我的努力开支。
发布于 2021-08-08 16:09:16
由于新闻文章分类是一项相对常见的任务,所以使用已经标注的培训数据将是最快和最容易的。
备选方案包括:
没有什么可以阻止您在这些数据集上培训模型,然后将该模型用于商业目的。
https://datascience.stackexchange.com/questions/28464
复制相似问题