报纸是一个很棒的库,它允许抓取web数据,但是我对文章缓存有点困惑。它缓存文章以加速操作,但是我如何访问这些文章呢?
我有这样的东西。现在,当我对同一组文章运行该命令两次时,第二次得到的返回类型是None。如何访问这些以前缓存的文章进行处理?
newspaper_articles = [Article(url) for url in links]
发布于 2018-08-10 21:52:21
看一下这个:https://github.com/codelucas/newspaper/issues/481看起来https://github.com/codelucas/newspaper/blob/master/newspaper/utils.py中的缓存方法'cache_disk‘可能有一个bug。它确实会将结果缓存到磁盘(搜索文件夹'.newspaper_scraper'),但之后不会加载它们。
一种解决方法是在构建报纸时或使用Config类时设置memoize_articles=False。
newspaper.build(url, memoize_articles=False)发布于 2019-10-21 23:43:50
在从源代码中检查之后,这取决于。
DATA_DIRECTORY = '.newspaper_scraper'
TOP_DIRECTORY = os.path.join(tempfile.gettempdir(), DATA_DIRECTORY)因此,在python解释器中运行此命令以获取缓存的位置
import tempfile
tempfile.gettempdir()https://stackoverflow.com/questions/51497107
复制相似问题