我想知道如何在php中构建一个网站爬虫,它可以检测网站的每个页面,并在xml文件中生成一个条目。我见过很多这样的网站,所以我很好奇如何从头开始做,或者有任何脚本或教程可以教你。
发布于 2011-05-10 14:49:36
不要使用正则表达式。解析html的正确方法是使用DOMDocument对象。
http://www.php.net/manual/en/class.domdocument.php
发布于 2011-05-10 11:44:54
下面是算法
步骤1->获取站点的地址,验证地址的格式是否正确,并以不同于(www.xyz.com/)的页面(www.xyz.com/page.html)结尾。
步骤2->获取文件内容,使用正则表达式尝试获取页面列表。
步骤3->在数据库中收集它们以供将来使用,并在这些文件上执行步骤2。
https://stackoverflow.com/questions/5944877
复制相似问题