我一直试图从一个网页(zeit online,德国报纸)中提取多篇文章,为此我有一个我想从其中下载文章的urls列表,所以我不需要为urls爬行页面。
python的报纸包在解析单个页面的内容方面做得很棒。在下载所有文章之前,我需要做的是自动更改urls。不幸的是,我的编码知识是有限的,而且我还没有找到一种方法来做到这一点。如果有人能帮我,我会非常感激的。
我试过的一件事是:
import newspaper
from newspaper import Article
lista = ['url','url']
for list in lista:
first_article = Article(url="%s", language='de') % list
first_article.download()
first_article.parse()
print(first_article.text)
it returned the following error: unsupported operand type for %:'article' and 'str'这似乎做了工作,虽然我希望有一个更容易的方法,包括更少的苹果和香蕉。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import newspaper
from newspaper import Article
lista = ['http://www.zeit.de/1946/01/unsere-aufgabe', 'http://www.zeit.de/1946/04/amerika-baut-auf', 'http://www.zeit.de/1946/04/bedingung', 'http://www.zeit.de/1946/04/bodenrecht']
apple = 0
banana = lista[apple]
while apple <4 :
first_article = Article(url= banana , language='de')
first_article.download()
first_article.parse()
print(first_article.text).encode('cp850', errors='replace')
apple += 1
banana = lista[apple]发布于 2018-03-10 09:30:38
你得到了例外
它返回以下错误:%不支持的操作数类型:‘article’和'str‘
因为您填充了错误的变量,所以在第9行中,您应该拥有:
first_article = Article(url="%s" % list, language='de')
这是完整的代码:
import newspaper
from newspaper import Article
lista = ['url','url']
for list in lista:
first_article = Article(url="%s" % list, language='de')
first_article.download()
first_article.parse()
print(first_article.text)https://stackoverflow.com/questions/27962458
复制相似问题