文章/答案/技术大牛

发布

社区首页 >问答首页 >如何启动页面抓取技术

问如何启动页面抓取技术
EN

Stack Overflow用户

提问于 2012-12-02 05:21:10

回答 2查看 90关注 0票数 0

我刚开始浏览页面，我不知道从哪里开始。做页面抓取最简单的方法是什么？你对此有什么看法，什么是最好的web技术？有人能帮我吗，谢谢。

xml

rss

html

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-12-02 05:28:02

嗯，也许最好也是最简单的方法是使用yahoo查询语言YQL。它使用起来很简单。你也可以在yql中使用yahoo pipes。用谷歌搜索一下。你可以从这里开始：http://ijaar.com/basic-yql-tutorials/

此外，在堆栈上也有一些关于屏幕掠过的问题，所以请查看它。

是的，yql不是唯一能做到这一点的技术，你也可以使用php，xquery，甚至python来实现这一点，但在我看来，它是最简单的--而且它真的很好用。

票数 -1

Stack Overflow用户

发布于 2012-12-02 05:35:44

调查一下html aglity pack；

示例：

好吧，这要看情况。例如，如果一个标签有一个类并且它是唯一的-它是一个函数，但是如果有多个标签，你需要根据标签的位置来思考和创建你的函数，另一种情况是没有标签，你必须计算html元素；例如，你可能还需要遍历tabe行。

下面的例子做了你需要的类似的事情。(不确定它是否仍然有效，因为如果页面布局发生更改，它可能会失败。)但它给出了一个想法，你可以从那里开始。

当提出问题时，请给出确切的问题，而不是模糊的问题。

C#示例：

                String openUrl = @"http://www.ebay.com/sch/-/11724/i.html?_nkw=" + some_part_number + "&_armrs=1&LH_Complete=1";

                HtmlWeb hw = new HtmlWeb();
                hw.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)";
                HtmlAgilityPack.HtmlDocument doc = hw.Load(openUrl);

                foreach (HtmlNode nd in doc.DocumentNode.SelectNodes("//tr[@itemprop='offers']"))
                {
                    String title = "";
                    title = Regex.Split(nd.InnerHtml.ToString(), ("title='"))[1].Trim();
                    title = Regex.Split(title, "'")[0].Trim();
                }

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/13663863

复制

相似问题

问如何启动页面抓取技术
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何启动页面抓取技术EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何启动页面抓取技术
EN