这是一个关于是否可能以及如何自动下载scribd.com搜索结果文档的一般性问题。
场景:
我有一个Scribd帐户,找到了我想要的文档。通常情况下,我必须单击download按钮才能开始下载。
有什么自动化的想法吗?我使用scribd api和python根据自动查询自动提取文档id,但是一旦获得doc _id,我就必须物理地转到每个文档页面并单击download按钮来获取物理txt/pdf文件。我也想自动执行这一步。
有什么想法吗?
发布于 2013-01-25 06:11:00
查看python-scribd documentation或scribd API reference,任何可以提供文档ID或网站URL的对象都可以提供下载URL。或者,如果您已经有了文档ID,那么您可以只调用get来获取一个对象,该对象可以提供一个下载URL。
最有可能的是,您有一个Document对象,该对象具有以下方法:
原始类型(
,
get_download_url_get_download_url=‘原始’)
返回可用于下载文档的静态版本的链接。
所以,无论您在哪里调用get_scribd_url,只需调用get_download_url即可。
然后,为了下载结果,Python在标准库中内置了urllib2 (2.x)或urllib.request (3.x),或者您可以使用requests或任何其他第三方库。
将所有这些放在一起作为一个例子:
# do all the stuff to set up the api_key, get a `User` object, etc.
def is_document_i_want(document):
return document.author == "Me"
urls = [document.get_download_url() for document in user.all()
if is_document_i_want(document)]
for url in urls:
path = urllib.parse.urlparse(url).path
name = os.path.basename(path)
u = urllib.request.urlopen(url)
with open(name, 'w') as f:
f.write(u.read())
print('Wrote {} as {}'.format(url, name))想必你会想要用user.find而不是user.all。或者,如果您已经编写了获取文档ID的代码,并且不想更改它,则可以对每个ID使用user.get。
如果希望对结果进行后过滤,则可能需要使用基本属性以外的属性(或者直接将它们传递给查询),这意味着需要在访问每个文档之前调用load (因此在is_document_i_want函数的顶部添加document.load() )。但实际上,这里没有什么复杂的东西。
https://stackoverflow.com/questions/14511548
复制相似问题