我是个屏幕抓取新手。当我使用代理服务器时,当我跟踪HTTP事务时,我会得到我的post数据。所以我的疑问/问题是,1)它会存储在服务器端,还是只对客户端显示?2)我们有在屏幕抓取中加密post数据的选项吗?3)对银行应用程序使用屏幕抓取是可取的吗?我使用的是从http://www.screen-scraper.com/download/choose_version.php下载的屏幕抓取工具。(企业版)
提前谢谢。
发布于 2013-07-02 04:14:30
我的抓取经验是,如果你没有做任何非常复杂的事情(比如登录一个安全的网站,比如网上银行网站,等等)。然后Python有一些很棒的库,它们会给你很大的帮助。
回答您的问题:
1)您可能需要更清楚,但这实际上取决于您的服务器/客户端架构。
2)事实上你是这样做的。Urllib和Urllib2 (内置Python库)都有一些函数,可以让您在发布帖子之前加密数据。就这种加密的安全性而言,对于大多数应用程序来说,这就足够了。
3)我实际上已经在网上银行网站上做了抓取!我对这个工具不是很熟悉,但我建议您使用与刮刀稍有不同的工具。Selenium是一个“web驱动程序”,它允许您模拟浏览器的使用,这意味着浏览器为了验证会话而在后台执行的任何操作都会自动处理。我在尝试抓取银行网站时遇到的主要问题是丢失了重要的会话数据。
Selenium - https://pypi.python.org/pypi/selenium
您可能会发现其他有用的库有: urllib、urllib2和Mechanize
我希望我能帮上忙!
发布于 2013-07-02 03:53:28
1)您所说的服务器端是什么意思?您的代理服务器或屏幕抓取软件?它们中的任何一个都可以读取/存储您的信息。
2)如果你是通过HTTPS连接,那么你的软件应该警告你恶意的代理服务器:https://security.stackexchange.com/questions/8145/does-https-prevent-man-in-the-middle-attacks-by-proxy-server
3)我不认为他们有能读懂的记录器。但是如果你担心,你可以试着写你自己的。有一些jQuery sintax:https://pypi.python.org/pypi/pyquery或XPath:http://net.tutsplus.com/tutorials/javascript-ajax/web-scraping-with-node-js/可以很容易地阅读HTML
发布于 2013-07-02 06:06:28
我以前也用过屏幕刮板来抓取银行网站。它会像浏览器一样影响站点--如果站点使用加密,那么从屏幕抓取器到站点的连接也会受到影响。
如果你有一个客户端页面向screen-scraper发送数据,你可能应该对其进行加密。我通常只通过SSH建立连接。
https://stackoverflow.com/questions/17399421
复制相似问题