文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用newspaper3k重读网站上的新闻

问如何使用newspaper3k重读网站上的新闻
EN

Stack Overflow用户

提问于 2018-06-15 11:49:45

回答 1查看 361关注 0票数 2

我正在尝试创建一个数据集来对新闻文章进行情感分析。我正在使用Newspaper3k从网站上抓取文章。我抓取了一些网站，但没有正确存储文章，因此我不能使用它们。当我再次尝试抓取相同的网站时，它只抓取新的文章，而不是已经抓取的文章。有没有办法把已经刮过的文章再刮一遍？

发布于 2018-06-22 05:03:16

默认情况下，报纸缓存所有以前提取的文章，并删除它已经提取的任何文章。

此功能的存在是为了防止重复文章并提高提取速度。

您可以使用memoize_articles参数选择退出此功能。

例如，在您的示例中，将其设置为False：

newspaper.build('http://cbs.com', memoize_articles=False)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50868855

复制

相似问题

问如何使用newspaper3k重读网站上的新闻EN