我正在尝试创建一个数据集来对新闻文章进行情感分析。我正在使用Newspaper3k从网站上抓取文章。我抓取了一些网站,但没有正确存储文章,因此我不能使用它们。当我再次尝试抓取相同的网站时,它只抓取新的文章,而不是已经抓取的文章。有没有办法把已经刮过的文章再刮一遍?
发布于 2018-06-22 05:03:16
默认情况下,报纸缓存所有以前提取的文章,并删除它已经提取的任何文章。
此功能的存在是为了防止重复文章并提高提取速度。
您可以使用memoize_articles参数选择退出此功能。
例如,在您的示例中,将其设置为False:
newspaper.build('http://cbs.com', memoize_articles=False)
https://stackoverflow.com/questions/50868855
复制相似问题