我正在尝试使用WWW::Mechanize从数据库中获取一个xml文件。我知道这个文件相当大(比我的内存还要大),它经常崩溃,要么我试图在浏览器中查看它,要么尝试使用get()存储在一个文件中。我计划在将来使用XML::Twig,但我永远无法将结果存储在文件中。
有没有人知道如何将机械化的对象分割成小块,一个接一个地得到,然后一个接一个地存储在一个文件中,一个接一个,而不耗尽内存?
以下是查询api:ArrayExpress程序访问。
谢谢。
#!/usr/bin/perl
use strict;
use warnings;
use WWW::Mechanize;
my $base = 'http://www.ebi.ac.uk/arrayexpress/xml/v2/experiments';
#Parameters
my $query ='?species="homo sapiens"' ;
my $url = $base . $query;
# Create a new mechanize object
my $mech = WWW::Mechanize->new(stack_depth=>0);
# Associate the mechanize object with a URL
$mech->get($url);
#store xml content
my $content = $mech->content;
#open output file for writing
unlink("ArrayExpress_Human_Final.txt");
open( $fh, '>>:encoding(UTF-8)','ArrayExpress_Human_Final.txt') || die "Can't open file!\n";
print $fh $content;
close $fh;发布于 2015-05-14 14:15:15
听起来,您想要做的是直接将文件保存到磁盘,而不是将其加载到内存中。
从机械常见问题的问题“我如何保存一个图像?我如何保存一个大的tarball?”
您还可以使用:content_file标志get()将任何内容直接保存到磁盘,这是LWP::UserAgent的一部分。
$mech->get( 'http://www.cpan.org/src/stable.tar.gz',
':content_file' => 'stable.tar.gz' );还请注意,如果您所做的只是下载文件,那么使用WWW::Mechanize和直接使用底层LWP::UserAgent可能是没有意义的。
https://stackoverflow.com/questions/30239055
复制相似问题