首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何存储从网页抓取的数据

如何存储从网页抓取的数据
EN

Stack Overflow用户
提问于 2011-05-07 09:56:31
回答 2查看 1.6K关注 0票数 1

我想在我的web应用上建立一个教育搜索引擎,所以我决定使用PHP从我的网页上抓取大约10个网站,并将数据存储到我的数据库中以供以后搜索。如何检索此数据并将其存储在数据库中?

EN

回答 2

Stack Overflow用户

发布于 2011-05-07 10:01:34

你可以用file_get_contents()函数抓取它们。所以你就会有

代码语言:javascript
复制
$homepage = file_get_contents('http://www.example.com/homepage');

此函数用于将页面返回为字符串。

希望这能有所帮助。干杯

票数 0
EN

Stack Overflow用户

发布于 2011-05-07 10:06:20

建立一个爬虫,我会使URL列表,以获取,并最终获得它们

A.让列表成为

  1. 定义要爬网的URL列表
  2. 将此URL添加到要爬网的URL列表(作业列表)
  3. 定义最大深度
  4. 解析第一页,获取所有查找href,获取链接。对于每个链接,
  5. :如果它来自相同的域或相对链接,则将其添加到作业列表。
  6. 从作业列表中删除当前URL,
  7. 如果不为空,则从下一个URL作业列表重新启动。

为此,您可以使用这个类,它使得解析html非常容易:http://simplehtmldom.sourceforge.net/

B.获取content

对生成的数组进行循环,并获取内容。file_get_contents将为您做这件事:http://www.php.net/manual/fr/function.file-get-contents.php

这对于一个开始来说基本上是有效的,在步骤A中,你应该保留一个已经解析的URL的列表,以便只检查一个URL。查询字符串也可以是您关注的东西,以避免使用不同的查询字符串扫描多个页面。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5918646

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档