首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >php页面抓取任务

php页面抓取任务
EN

Stack Overflow用户
提问于 2012-08-26 23:53:28
回答 1查看 117关注 0票数 0

我在我的Drupal定制模块中使用简单的HTML DOM库在我的项目中执行任务。

这个任务就是模仿Facebook的动作,当我们粘贴一篇文章的url时,FB会删除该url,然后返回文章的一部分作为描述和图片。

我的问题是,从大量<p>标签中选择文章的第一部分,以及在页面中的所有图片中选择正确的图片所使用的算法是什么!

我知道FB使用:OG标签,但我需要开发一个算法,如果OG标签不在那里,它就会挑选这些信息。

感谢你们的支持,祝你们今天过得愉快。

致以问候。

EN

回答 1

Stack Overflow用户

发布于 2012-08-27 00:13:46

我认为对于图像,它是图像的尺寸。这会拍摄第一张超过100x100像素左右的图像。

对于文本,可能是类似的东西。去掉内联HTML标签,获得第一个块元素文本(或者可能只是段落),就可以了。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12131536

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档