文章/答案/技术大牛

发布

社区首页 >问答首页 >有没有使用Curl而不是file_get_contents的(PHP)网络抓取框架？

问有没有使用Curl而不是file_get_contents的(PHP)网络抓取框架？
EN

Stack Overflow用户

提问于 2012-01-14 00:00:03

回答 3查看 4.3K关注 0票数 2

我正要尝试使用简单的HTML DOM Framework：http://simplehtmldom.sourceforge.net/进行抓取，但由于安全原因，在服务器配置中禁用了file_get_contents。

我现在需要找到一个使用Curl的类似框架--有人知道什么吗？

尝试运行点斜杠示例时，我得到的错误消息是：

Warning: file_get_contents() [function.file-get-contents]: URL file-access is disabled in the server configuration in /var/www/vhosts/domain.com/httpdocs/crawlfeed/simple_html_dom.php on line 70

php

web-scraping

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-01-14 00:05:12

只需使用cURL下拉页面，然后将字符串加载到SimpleHTMLDOM中：

$ch = curl_init('http://theurl.com');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$htmlStr = curl_exec($ch);
curl_close($ch);

$html = new simple_html_dom();

// Load HTML from a string
$html->load($htmlStr);

票数 6

Stack Overflow用户

发布于 2012-01-14 00:14:47

如果你有PHP5.3(你应该有，因为PHP5.2不再被支持)，我建议你使用Goutte。

这是一种新的东西，它只是一个包含在你的项目中的.phar。HTTP部分由Http Zend和一个套接字负责。并且您拥有强大的BrowserKit和HTML组件来帮助您从DomCrawler中提取信息(不使用正则表达式，不使用xpath)。

票数 4

Stack Overflow用户

发布于 2012-01-14 00:11:44

只需使用cURL获取HTML代码，然后使用XPATH或正则表达式解析html代码。使用XPATH是一个好主意，因为它是一种专门用于解析XML或(X)HTML的语言。

这里有一个很好的例子：http://www.2basetechnologies.com/screen-scraping-with-xpath-in-php

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8853401

复制

相似问题

问有没有使用Curl而不是file_get_contents的(PHP)网络抓取框架？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有使用Curl而不是file_get_contents的(PHP)网络抓取框架？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有使用Curl而不是file_get_contents的(PHP)网络抓取框架？
EN