文章/答案/技术大牛

发布

社区首页 >问答首页 >如何自动从Scribd.com下载.txt文件

问如何自动从Scribd.com下载.txt文件
EN

Stack Overflow用户

提问于 2013-01-25 05:57:05

回答 1查看 1.8K关注 0票数 0

这是一个关于是否可能以及如何自动下载scribd.com搜索结果文档的一般性问题。

场景：

我有一个Scribd帐户，找到了我想要的文档。通常情况下，我必须单击download按钮才能开始下载。

有什么自动化的想法吗？我使用scribd api和python根据自动查询自动提取文档id，但是一旦获得doc _id，我就必须物理地转到每个文档页面并单击download按钮来获取物理txt/pdf文件。我也想自动执行这一步。

有什么想法吗？

python

download

scribd

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-01-25 06:11:00

查看python-scribd documentation或scribd API reference，任何可以提供文档ID或网站URL的对象都可以提供下载URL。或者，如果您已经有了文档ID，那么您可以只调用get来获取一个对象，该对象可以提供一个下载URL。

最有可能的是，您有一个Document对象，该对象具有以下方法：

原始类型(

，get_download_url_get_download_url=‘原始’)

返回可用于下载文档的静态版本的链接。

所以，无论您在哪里调用get_scribd_url，只需调用get_download_url即可。

然后，为了下载结果，Python在标准库中内置了urllib2 (2.x)或urllib.request (3.x)，或者您可以使用requests或任何其他第三方库。

将所有这些放在一起作为一个例子：

# do all the stuff to set up the api_key, get a `User` object, etc.

def is_document_i_want(document):
    return document.author == "Me"

urls = [document.get_download_url() for document in user.all()
        if is_document_i_want(document)]

for url in urls:
    path = urllib.parse.urlparse(url).path
    name = os.path.basename(path)
    u = urllib.request.urlopen(url)
    with open(name, 'w') as f:
        f.write(u.read())
    print('Wrote {} as {}'.format(url, name))

想必你会想要用user.find而不是user.all。或者，如果您已经编写了获取文档ID的代码，并且不想更改它，则可以对每个ID使用user.get。

如果希望对结果进行后过滤，则可能需要使用基本属性以外的属性(或者直接将它们传递给查询)，这意味着需要在访问每个文档之前调用load (因此在is_document_i_want函数的顶部添加document.load() )。但实际上，这里没有什么复杂的东西。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/14511548

复制

相似问题

问如何自动从Scribd.com下载.txt文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何自动从Scribd.com下载.txt文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何自动从Scribd.com下载.txt文件
EN