文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在newspaper3k中访问缓存项目

问如何在newspaper3k中访问缓存项目
EN

Stack Overflow用户

提问于 2018-07-24 19:09:39

回答 2查看 1.1K关注 0票数 4

报纸是一个很棒的库，它允许抓取web数据，但是我对文章缓存有点困惑。它缓存文章以加速操作，但是我如何访问这些文章呢？

我有这样的东西。现在，当我对同一组文章运行该命令两次时，第二次得到的返回类型是None。如何访问这些以前缓存的文章进行处理？

newspaper_articles = [Article(url) for url in links]

python

python-3.x

web-scraping

python-newspaper

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-08-10 21:52:21

看一下这个：https://github.com/codelucas/newspaper/issues/481看起来https://github.com/codelucas/newspaper/blob/master/newspaper/utils.py中的缓存方法'cache_disk‘可能有一个bug。它确实会将结果缓存到磁盘(搜索文件夹'.newspaper_scraper')，但之后不会加载它们。

一种解决方法是在构建报纸时或使用Config类时设置memoize_articles=False。

newspaper.build(url, memoize_articles=False)

票数 1

Stack Overflow用户

发布于 2019-10-21 23:43:50

在从源代码中检查之后，这取决于。

https://github.com/codelucas/newspaper/blob/beacce0e167349374ce0b37012b01c7c07a26890/newspaper/settings.py#L35

DATA_DIRECTORY = '.newspaper_scraper'

TOP_DIRECTORY = os.path.join(tempfile.gettempdir(), DATA_DIRECTORY)

因此，在python解释器中运行此命令以获取缓存的位置

import tempfile
tempfile.gettempdir()

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51497107

复制

相似问题

问如何在newspaper3k中访问缓存项目
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在newspaper3k中访问缓存项目EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在newspaper3k中访问缓存项目
EN