我下载了最新版本的phpcrawler,并且可以访问自己的测试网站。
我只有一个图片和一些文本在这个网站上,我运行爬虫和我收到的文本减去图像,因为我做了正确的$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");
我无法获得它来保存tmp文件。它不会在我运行爬虫的文件夹中保存唯一的tmp文件,我已经尝试保存一个命名的文件没有运气。
在所有php文件中的不同行中,我确实遇到了许多折旧错误,例如:@fopen,@在不同区域引起问题。我使用PHP,也可以执行Regex。大卫。
发布于 2012-04-05 11:03:23
我回答了我自己的问题,因为我看到PHPCrawler的问题真的没有得到回答;我看到了去年的一个问题没有得到回答。我也会回答的,尽管现在做任何好事都太晚了。这就是答案。
我添加了一个修改后的phpcrawler,我根据我的需要进行了调整:
$fp = fopen('c:/test/poopoo.txt','w');
fwrite($fp,($page_data['source']));
fclose($fp);在刷新文件之前将其放入其中,并创建类实例。
我发现使用来自这个项目的这个项目很好。如果您需要更多的控制使用RegExp,但这确实有一个陡峭的学习曲线。
https://stackoverflow.com/questions/9971593
复制相似问题