Google的金融API是不完整的--页面上的许多数字,例如:
http://www.google.com/finance?fstype=ii&q=NYSE:GE
不能通过API使用。
我需要这些数据来根据Greenblatt的公式对加拿大证券交易所的公司进行排名,该公式可以通过谷歌搜索"greenblatt index scans“获得。
我的问题是:访问和处理这些网页上的数据的最智能/最干净/最有效的方式是什么?在这种情况下,单调乏味的方法真的有必要吗?如果是,那么最好的方法是什么?我目前正在学习与此相关的项目的Python。
发布于 2009-06-17 23:56:00
您可以尝试要求Google提供缺少的API。否则,你会被screen scraping卡住,它从来都不好玩,容易在没有通知的情况下崩溃,而很可能违反了谷歌的服务条款。
但是,如果你还想写一个屏幕抓取器,那么很难击败mechanize和BeautifulSoup的组合。BeautifulSoup是一个超文本标记语言解析器,mechanize是一个基于Python的web浏览器,它可以让您像其他web浏览器一样登录、存储cookies和浏览。
发布于 2009-06-17 21:42:25
BeautifulSoup将是使用Python解析的首选方法
除了Google之外,你有没有考虑过其他选择(例如Yahoo Finance API)?
发布于 2009-06-17 21:20:18
抓取网页总是很糟糕,但我建议将它们转换成xml (通过tidy或其他的HTML -> XML程序),然后使用xpath遍历您感兴趣的节点。
https://stackoverflow.com/questions/1009524
复制相似问题