文章/答案/技术大牛

发布

问报纸图书馆
EN

Stack Overflow用户

提问于 2018-11-13 21:02:20

回答 2查看 314关注 0票数 3

作为一个关于使用python这个话题的新手，我在使用报纸库扩展时遇到了一些困难。我的目标是定期使用报纸扩展，下载一个名为"tagesschau“的德国新闻网站的所有新文章，以及CNN的所有文章，以建立一个我可以在几年内分析的数据堆栈。如果我做对了，我可以使用以下命令将所有文章下载并刮到python库中。

import newspaper
from newspaper import news_pool

tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')

papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2) # (3*2) = 6 threads total
news_pool.join()`

如果这是下载所有文章的正确方式，那么我如何提取和保存python之外的文章呢？还是将这些文章保存在python中以便在重新启动python时可以重用它们？

谢谢你的帮助。

python

python-newspaper

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-11-16 08:49:07

以下代码将以HTML格式保存下载的文章。在文件夹里你会发现。tagesschau_paper0.html, tagesschau_paper1.html, tagesschau_paper2.html, .....

import newspaper
from newspaper import news_pool

tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')

papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2)
news_pool.join()

for i in range (tagesschau_paper.size()): 
    with open("tagesschau_paper{}.html".format(i), "w") as file:
    file.write(tagesschau_paper.articles[i].html)

注意：news_pool没有从CNN那里得到任何信息，所以我跳过为它编写代码。如果您检查cnn_paper.size()，则结果为0。您必须导入并使用来源。

以上代码也可以作为示例来保存其他格式的文章，例如txt，还可以从文章(如作者、正文、publish_date )中只保存您需要的部分。

票数 1

Stack Overflow用户

发布于 2018-11-13 22:41:39

您可以使用泡菜将对象保存在python之外，然后重新打开它们：

file_Name = "testfile"
# open the file for writing
fileObject = open(file_Name,'wb') 

# this writes the object news_pool to the
# file named 'testfile'
pickle.dump(news_pool,fileObject)   

# here we close the fileObject
fileObject.close()
# we open the file for reading
fileObject = open(file_Name,'r')  
# load the object from the file into var news_pool_reopen
news_pool_reopen = pickle.load(fileObject)

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53289440

复制

相似问题

问报纸图书馆
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问报纸图书馆EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问报纸图书馆
EN