首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在newspaper3k中访问缓存项目

如何在newspaper3k中访问缓存项目
EN

Stack Overflow用户
提问于 2018-07-24 19:09:39
回答 2查看 1.1K关注 0票数 4

报纸是一个很棒的库,它允许抓取web数据,但是我对文章缓存有点困惑。它缓存文章以加速操作,但是我如何访问这些文章呢?

我有这样的东西。现在,当我对同一组文章运行该命令两次时,第二次得到的返回类型是None。如何访问这些以前缓存的文章进行处理?

newspaper_articles = [Article(url) for url in links]

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-08-10 21:52:21

看一下这个:https://github.com/codelucas/newspaper/issues/481看起来https://github.com/codelucas/newspaper/blob/master/newspaper/utils.py中的缓存方法'cache_disk‘可能有一个bug。它确实会将结果缓存到磁盘(搜索文件夹'.newspaper_scraper'),但之后不会加载它们。

一种解决方法是在构建报纸时或使用Config类时设置memoize_articles=False。

代码语言:javascript
复制
newspaper.build(url, memoize_articles=False)
票数 1
EN

Stack Overflow用户

发布于 2019-10-21 23:43:50

在从源代码中检查之后,这取决于。

https://github.com/codelucas/newspaper/blob/beacce0e167349374ce0b37012b01c7c07a26890/newspaper/settings.py#L35

代码语言:javascript
复制
DATA_DIRECTORY = '.newspaper_scraper'

TOP_DIRECTORY = os.path.join(tempfile.gettempdir(), DATA_DIRECTORY)

因此,在python解释器中运行此命令以获取缓存的位置

代码语言:javascript
复制
import tempfile
tempfile.gettempdir()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51497107

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档