首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何自动从Scribd.com下载.txt文件

如何自动从Scribd.com下载.txt文件
EN

Stack Overflow用户
提问于 2013-01-25 05:57:05
回答 1查看 1.8K关注 0票数 0

这是一个关于是否可能以及如何自动下载scribd.com搜索结果文档的一般性问题。

场景:

我有一个Scribd帐户,找到了我想要的文档。通常情况下,我必须单击download按钮才能开始下载。

有什么自动化的想法吗?我使用scribd api和python根据自动查询自动提取文档id,但是一旦获得doc _id,我就必须物理地转到每个文档页面并单击download按钮来获取物理txt/pdf文件。我也想自动执行这一步。

有什么想法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-01-25 06:11:00

查看python-scribd documentationscribd API reference,任何可以提供文档ID或网站URL的对象都可以提供下载URL。或者,如果您已经有了文档ID,那么您可以只调用get来获取一个对象,该对象可以提供一个下载URL。

最有可能的是,您有一个Document对象,该对象具有以下方法:

原始类型(

get_download_url_get_download_url=‘原始’)

返回可用于下载文档的静态版本的链接。

所以,无论您在哪里调用get_scribd_url,只需调用get_download_url即可。

然后,为了下载结果,Python在标准库中内置了urllib2 (2.x)或urllib.request (3.x),或者您可以使用requests或任何其他第三方库。

将所有这些放在一起作为一个例子:

代码语言:javascript
复制
# do all the stuff to set up the api_key, get a `User` object, etc.

def is_document_i_want(document):
    return document.author == "Me"

urls = [document.get_download_url() for document in user.all()
        if is_document_i_want(document)]

for url in urls:
    path = urllib.parse.urlparse(url).path
    name = os.path.basename(path)
    u = urllib.request.urlopen(url)
    with open(name, 'w') as f:
        f.write(u.read())
    print('Wrote {} as {}'.format(url, name))

想必你会想要用user.find而不是user.all。或者,如果您已经编写了获取文档ID的代码,并且不想更改它,则可以对每个ID使用user.get

如果希望对结果进行后过滤,则可能需要使用基本属性以外的属性(或者直接将它们传递给查询),这意味着需要在访问每个文档之前调用load (因此在is_document_i_want函数的顶部添加document.load() )。但实际上,这里没有什么复杂的东西。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14511548

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档