文章/答案/技术大牛

发布

社区首页 >问答首页 >用报纸从多个网址下载文章

问用报纸从多个网址下载文章
EN

Stack Overflow用户

提问于 2015-01-15 11:32:54

回答 1查看 1.8K关注 0票数 1

我一直试图从一个网页(zeit online，德国报纸)中提取多篇文章，为此我有一个我想从其中下载文章的urls列表，所以我不需要为urls爬行页面。

python的报纸包在解析单个页面的内容方面做得很棒。在下载所有文章之前，我需要做的是自动更改urls。不幸的是，我的编码知识是有限的，而且我还没有找到一种方法来做到这一点。如果有人能帮我，我会非常感激的。

我试过的一件事是：

import newspaper
from newspaper import Article

lista = ['url','url']


for list in lista:

 first_article = Article(url="%s", language='de') % list

 first_article.download()

 first_article.parse()

 print(first_article.text)

it returned the following error: unsupported operand type for %:'article' and 'str'

这似乎做了工作，虽然我希望有一个更容易的方法，包括更少的苹果和香蕉。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import newspaper
from newspaper import Article

lista = ['http://www.zeit.de/1946/01/unsere-aufgabe', 'http://www.zeit.de/1946/04/amerika-baut-auf', 'http://www.zeit.de/1946/04/bedingung', 'http://www.zeit.de/1946/04/bodenrecht']

apple = 0
banana = lista[apple]


while apple <4 :

 first_article = Article(url= banana , language='de') 

 first_article.download()

 first_article.parse()

 print(first_article.text).encode('cp850', errors='replace')

 apple += 1
 banana = lista[apple]

python

python-2.7

parsing

web-scraping

python-newspaper

回答 1

Stack Overflow用户

发布于 2018-03-10 09:30:38

你得到了例外

它返回以下错误：%不支持的操作数类型：‘article’和'str‘

因为您填充了错误的变量，所以在第9行中，您应该拥有：

first_article = Article(url="%s" % list, language='de')

这是完整的代码：

import newspaper
from newspaper import Article

lista = ['url','url']


for list in lista:

   first_article = Article(url="%s" % list, language='de')

   first_article.download()

   first_article.parse()

   print(first_article.text)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27962458

复制

相似问题

问用报纸从多个网址下载文章
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用报纸从多个网址下载文章EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用报纸从多个网址下载文章
EN