我刚开始浏览页面,我不知道从哪里开始。做页面抓取最简单的方法是什么?你对此有什么看法,什么是最好的web技术?有人能帮我吗,谢谢。
发布于 2012-12-02 05:28:02
嗯,也许最好也是最简单的方法是使用yahoo查询语言YQL。它使用起来很简单。你也可以在yql中使用yahoo pipes。用谷歌搜索一下。你可以从这里开始:http://ijaar.com/basic-yql-tutorials/
此外,在堆栈上也有一些关于屏幕掠过的问题,所以请查看它。
是的,yql不是唯一能做到这一点的技术,你也可以使用php,xquery,甚至python来实现这一点,但在我看来,它是最简单的--而且它真的很好用。
发布于 2012-12-02 05:35:44
调查一下html aglity pack;
示例:
好吧,这要看情况。例如,如果一个标签有一个类并且它是唯一的-它是一个函数,但是如果有多个标签,你需要根据标签的位置来思考和创建你的函数,另一种情况是没有标签,你必须计算html元素;例如,你可能还需要遍历tabe行。
下面的例子做了你需要的类似的事情。(不确定它是否仍然有效,因为如果页面布局发生更改,它可能会失败。)但它给出了一个想法,你可以从那里开始。
当提出问题时,请给出确切的问题,而不是模糊的问题。
C#示例:
String openUrl = @"http://www.ebay.com/sch/-/11724/i.html?_nkw=" + some_part_number + "&_armrs=1&LH_Complete=1";
HtmlWeb hw = new HtmlWeb();
hw.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)";
HtmlAgilityPack.HtmlDocument doc = hw.Load(openUrl);
foreach (HtmlNode nd in doc.DocumentNode.SelectNodes("//tr[@itemprop='offers']"))
{
String title = "";
title = Regex.Split(nd.InnerHtml.ToString(), ("title='"))[1].Trim();
title = Regex.Split(title, "'")[0].Trim();
}https://stackoverflow.com/questions/13663863
复制相似问题