首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从ScrapingHub中提取文件?

如何从ScrapingHub中提取文件?
EN

Stack Overflow用户
提问于 2017-06-15 11:46:33
回答 1查看 731关注 0票数 0

我部署了一些抓取蜘蛛来抓取数据,我可以从ScrapingHub下载.csv格式的数据。

其中一些爬虫有FilePipeline,我用它来下载文件(pdf)到特定的文件夹。有没有什么方法可以通过平台或应用程序接口从ScrapingHub检索这些文件?

EN

回答 1

Stack Overflow用户

发布于 2017-06-15 13:42:16

虽然我必须查看集线器的文档,但我非常确定,尽管有一个文件资源管理器,但没有实际生成的文件,或者在爬行和支撑过程中它被忽略了……我假设是这样的,因为如果你试图使用任何文件来部署你的项目,而不是与一个杂乱无章的项目()相对应的文件(),除非你对你的设置和设置文件做了一些修改,然后抓取then来接受你额外的参数(孤立的)……例如,如果您尝试在一个文件中包含大量的起始URL,然后使用一个实数and函数将所有这些URL解析为您的爬行器……工作起来很有魅力,但是构建scrapinghub时并没有考虑到这一点。

我假设您知道您可以直接从web界面下载CSV或所需格式的文件……我个人在Python中使用抓取集线器客户端API ...我认为这三个库在这一点上都被弃用了,但你必须混合搭配才能获得功能齐全的脚,例如……

我有一个相当著名的色情网站的副业,我为他们做的是内容聚合我花了很多时间看很多放荡的东西,但对像我这样的人来说,这只是一件有趣的事情……希望你正在读这篇文章,不要想太多的变态LOL必须赚到钱,对吗?不管怎样..。通过使用scraping hugs API client for python,我能够使用API密钥连接到我的帐户,并随心所欲地移动;我个人认为有一些限制,而不是太多的限制只是真正困扰我的一件事是,用于获取项目名称的函数在there client Library的第一个版本中被弃用了……我希望看到,当我解析我的项目的名称,其中蜘蛛是运行不同的作业Ergo的爬虫…所以当我第一次开始摆弄客户的时候,它看起来很乱,

更棒的是,我的生活是如此甜蜜,当你创建一个项目时,运行你的爬行器,收集你所有的项目,可以直接从我提到的web界面下载这些文件,但我可以做的是针对我的输出来给我想要的效果。

我正在抓取一个网站,我得到了一个像视频这样的媒体项目,有三个东西你总是需要的。媒体的名称或视频的标题,视频可以到达的URL源,或者视频嵌入的URL,然后您可以请求所需的每个实例...当然还有什么是与视频媒体相关联的标签和类别的元数据。

我认为现在输出最多物品的最大爬虫是15万条,这是国外的爬虫,大约是15%或17%的dupla Fire案例。然后,我使用API客户端通过给定的字典或键值(而不是字典btw)调用每个视频...当然,在我的情况下,我将始终使用所有三个键值,但我可以针对RN或其相应位置的键值下的类别或标签,并仅输出项目及其总体(意味着仍输出所有三个项目),仅打印出满足或匹配我想要的特定字符串或表达式的项目,从而使我能够非常有效地通过我的内容进行部分。在这个特别的scrapy项目中,我只是简单地打印出或者创建一个.m3u播放列表从所有这些'pronz'!

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44558183

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档