我有一个问题,不确定这是否可能,所以如果有人能给我指出正确的方向。
我需要从网页打开一个文件,在excel中打开它,然后保存该文件。
我遇到的问题是网站上的文件名有一个文件名(不是活动链接),然后它会有一个“下载”按钮,而不是我需要下载的文件的特定按钮。因此,不是下载按钮是"file1todaysdate",而是我每天都不能使用它们。
有没有办法可以找到文件名,然后从下载图标中抓取文件?然后保存到excel中?如果不是因为浪费时间而感到抱歉。
发布于 2012-04-05 14:12:02
我认为你所问的是如何在网页中搜索一些不是链接的文本,请求该链接,保存文件。
BeautifulSoup通常用于此目的。
但是,requests是另一个库,您可以使用它来获取页面,然后获取内容以供以后分析。
发布于 2012-04-05 14:21:33
当你按Download时,文件实际上来自哪里?首先获取下载链接。如果很难从浏览器中检测到,可以使用firebug之类的工具来获取下载链接。一旦你得到了它。您可以使用Python通过urllib.urlretrieve进行下载
filename, msg = urllib.urlretrieve('http://yourlinktodownload/file.xls')文件名将指向已下载的文件。如果它是xls格式,它应该在excell中打开。
发布于 2012-04-05 14:07:33
检查响应的Content-Disposition标头,以发现服务器希望您将该文件命名为什么。
https://stackoverflow.com/questions/10023418
复制相似问题