我正在尝试使用一个名为Goutte (php scraper/web-crawler)的包,如下所示:
<?php
// Init
require_once 'vendor/autoload.php';
use Goutte\Client;
$client = new Client();
$reviews = array();
// Parse Review Site
$crawler = $client->request('GET', 'http://review-site-url-here');
$crawler->filter('div.review')->each(function($node) use ($reviews)
{
// Parse Data
$player_name = $node->filter('tr.switch > td > a')->first()->text();
// other fields
// Build Reviews
array_push($reviews, [
'player_name' => $player_name,
// other fields
]);
});
// Debug
echo "<pre>";
print_r($reviews);当此脚本运行时,$reviews数组始终为空。但是,如果我在匿名函数中使用print_r,它似乎只显示每个循环中的当前元素。例如,如果有4条评论,我这样做:
// Parse Review Site
$crawler = $client->request('GET', 'http://review-site-url-here');
$crawler->filter('div.review-BL-mid')->each(function($node) use ($reviews)
{
// Parse Data
$player_name = $node->filter('tr.switch > td > a')->first()->text();
// other fields
// Build Reviews
array_push($reviews, [
'player_name' => $player_name,
// other fields
]);
// Debug
print_r($reviews);
});它的输出如下:
Array
(
[0] => Array
(
[player_name] => aaaa
)
)
Array
(
[0] => Array
(
[player_name] => bbb
)
)
Array
(
[0] => Array
(
[player_name] => ccc
)
)
Array
(
[0] => Array
(
[player_name] => ddd
)
)就像匿名函数中的数组永远不会被更新一样。你知道怎么解决这个问题吗?
发布于 2016-07-17 02:33:44
好吧..。在发布了这篇文章并尝试了一些东西后,我很快就意识到了这个问题。似乎我需要通过引用传递数组变量$reviews,这样才能正常工作;
$crawler->filter('div.review')->each(function($node) use (&$reviews) {
// ...
});希望这对其他人有帮助。
https://stackoverflow.com/questions/38414321
复制相似问题