文章/答案/技术大牛

发布

社区首页 >问答首页 >如何存储从网页抓取的数据

问如何存储从网页抓取的数据
EN

Stack Overflow用户

提问于 2011-05-07 09:56:31

回答 2查看 1.6K关注 0票数 1

我想在我的web应用上建立一个教育搜索引擎，所以我决定使用PHP从我的网页上抓取大约10个网站，并将数据存储到我的数据库中以供以后搜索。如何检索此数据并将其存储在数据库中？

web-crawler

php

回答 2

Stack Overflow用户

发布于 2011-05-07 10:01:34

你可以用file_get_contents()函数抓取它们。所以你就会有

$homepage = file_get_contents('http://www.example.com/homepage');

此函数用于将页面返回为字符串。

希望这能有所帮助。干杯

票数 0

Stack Overflow用户

发布于 2011-05-07 10:06:20

建立一个爬虫，我会使URL列表，以获取，并最终获得它们

A.让列表成为

定义要爬网的URL列表
将此URL添加到要爬网的URL列表(作业列表)
定义最大深度
解析第一页，获取所有查找href，获取链接。对于每个链接，
：如果它来自相同的域或相对链接，则将其添加到作业列表。
从作业列表中删除当前URL，
如果不为空，则从下一个URL作业列表重新启动。

为此，您可以使用这个类，它使得解析html非常容易：http://simplehtmldom.sourceforge.net/

B.获取content

对生成的数组进行循环，并获取内容。file_get_contents将为您做这件事：http://www.php.net/manual/fr/function.file-get-contents.php

这对于一个开始来说基本上是有效的，在步骤A中，你应该保留一个已经解析的URL的列表，以便只检查一个URL。查询字符串也可以是您关注的东西，以避免使用不同的查询字符串扫描多个页面。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5918646

复制

相似问题

问如何存储从网页抓取的数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何存储从网页抓取的数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何存储从网页抓取的数据
EN