首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何启动页面抓取技术

如何启动页面抓取技术
EN

Stack Overflow用户
提问于 2012-12-02 05:21:10
回答 2查看 90关注 0票数 0

我刚开始浏览页面,我不知道从哪里开始。做页面抓取最简单的方法是什么?你对此有什么看法,什么是最好的web技术?有人能帮我吗,谢谢。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-12-02 05:28:02

嗯,也许最好也是最简单的方法是使用yahoo查询语言YQL。它使用起来很简单。你也可以在yql中使用yahoo pipes。用谷歌搜索一下。你可以从这里开始:http://ijaar.com/basic-yql-tutorials/

此外,在堆栈上也有一些关于屏幕掠过的问题,所以请查看它。

是的,yql不是唯一能做到这一点的技术,你也可以使用php,xquery,甚至python来实现这一点,但在我看来,它是最简单的--而且它真的很好用。

票数 -1
EN

Stack Overflow用户

发布于 2012-12-02 05:35:44

调查一下html aglity pack

示例:

好吧,这要看情况。例如,如果一个标签有一个类并且它是唯一的-它是一个函数,但是如果有多个标签,你需要根据标签的位置来思考和创建你的函数,另一种情况是没有标签,你必须计算html元素;例如,你可能还需要遍历tabe行。

下面的例子做了你需要的类似的事情。(不确定它是否仍然有效,因为如果页面布局发生更改,它可能会失败。)但它给出了一个想法,你可以从那里开始。

当提出问题时,请给出确切的问题,而不是模糊的问题。

C#示例:

代码语言:javascript
复制
                String openUrl = @"http://www.ebay.com/sch/-/11724/i.html?_nkw=" + some_part_number + "&_armrs=1&LH_Complete=1";

                HtmlWeb hw = new HtmlWeb();
                hw.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)";
                HtmlAgilityPack.HtmlDocument doc = hw.Load(openUrl);

                foreach (HtmlNode nd in doc.DocumentNode.SelectNodes("//tr[@itemprop='offers']"))
                {
                    String title = "";
                    title = Regex.Split(nd.InnerHtml.ToString(), ("title='"))[1].Trim();
                    title = Regex.Split(title, "'")[0].Trim();
                }
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13663863

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档