我正在寻找一种从这个网站抓取数据的方法:http://www.dectech.org/football/index.php,最好使用Python语言。我似乎遇到的困难是,数据并没有硬编码到网站的超文本标记语言中,而且看起来像是被包装在一个叫做mochi-kit ( http://mochi.github.com/mochikit/ )的东西中。
我做了一些研究,似乎像BeautifulSoup这样的东西可能对我有用,但我想我可能没有正确使用它。我也试过用urllib解析网站,没有用到joy。
我的最终目标是有一个监控dectech网站的程序,当发布新的预测时,自动使用Betfair API挑选价值赌注。
发布于 2012-10-15 21:02:10
看起来数据是由javascript从这个url加载的。
http://www.dectech.org/cgi-bin/new_site/GetUpcomingGames.pl?divID=0
它会返回
{
"games" : [
{
"apct" : 0.377838,
"dpct" : 0.263445,
"expGoalDiff" : -0.04086,
"awayID" : "6",
"homeID" : "17",
"date" : "20/10/2012",
"away" : "Chelsea",
"home" : "Tottenham",
"hpct" : 0.358717
},
{
"apct" : 0.237829,
"dpct" : 0.250146,
"expGoalDiff" : 0.594234,
"awayID" : "1",
"homeID" : "8",
"date" : "20/10/2012",
"away" : "Aston Villa",
"home" : "Fulham",
"hpct" : 0.512025
}, /* shortened for brevity */所以你非常幸运,你不需要抓取数据(这很棘手),你只需要检索并解析它,就像他们对mochi所做的那样。
Python的simplejson模块将能够解析它...
https://stackoverflow.com/questions/12896075
复制相似问题