我需要下载一个离线使用的在线印地语词典。字典中的每个单词都有一个php生成的页面。这些页面的网址如下:http://pustak.org/home.php?mean=X,其中X表示一个数字。
因此,可以通过转到http://pustak.org/home.php?mean=1找到字典中的第一个单词,第二个单词是http://pustak.org/home.php?mean=2,依此类推。
如何以编程方式下载所有这些页面并将其保存为单独的html文件?
PS:如果你想知道,我这样做是因为我需要一本印地语字典,以便在旅行时在我的iPod触摸屏上引用离线(因为触摸屏没有蜂窝数据)。我试过一大堆印地语词典应用程序,没有一个能与这个免费在线词典的质量和释义数量相提并论。所以我的计划是以html文件的形式下载整个文件,将它们全部存储在支持全文搜索的iOS文件系统应用程序中,并且我有自己的脱机字典……
感谢您的帮助!
发布于 2012-12-12 20:04:50
略有不同的方法,我个人会使用HTTrack
在主页上:
HTTrack是一个免费的(GPL,libre/免费软件)和易于使用的离线浏览器实用程序。
它允许您从Internet下载万维网站点到本地目录,递归地构建所有目录,从服务器获取HTML、图像和其他文件到您的计算机。HTTrack会安排原始站点的相对链接结构。只需在您的浏览器中打开“镜像”网站的一个页面,您就可以从一个链接浏览到另一个链接,就像您在线查看它一样。HTTrack还可以更新现有的镜像站点,并恢复中断的下载。HTTrack是完全可配置的,并且有一个集成的帮助系统。
据该网站介绍,它支持Windows2000/ XP / Vista / Seven和几种风格的Linux。
我假设您可以将下载的文件导入到您提到的iOS应用程序中。
发布于 2012-12-12 20:04:15
您可以使用file_get_contents进行尝试
$max = 100000 //total num of words to get
for($cont=1; $cont<$max; $cont++){
$sourceCode = file_get_contents('http://pustak.org/home.php?mean=$cont');
if(!file_put_contents('/path/word'.$cont.'.html',$sourceCode)){
echo "error with word number".$cont;
die();
}
}https://stackoverflow.com/questions/13839149
复制相似问题