我正在创建一个PHP应用程序,它将显示一些基于用户位置的分类/列表。例如:
我们的分类资料来自芝加哥
现在,我也想显示“分类”从其他分类网站到我自己的网页。如下所示:
芝加哥的更多经典(XYZ.com的宫廷)
F 221
芝加哥的更多经典(ABC.com的宫廷)
这样,用户就可以看到托管在我的服务器上的分类器,以及来自其他常见分类站点的分类器。
这有可能吗?注意,1)没有"RSS“提要可用于导入这些分类器;2)如果可能的话,我想以小部件格式显示这些列表。也就是说,显示一个iframe/小部件框(不确定技术术语是什么),并在该框中显示所有外部分类。在这里看到一个粗略的模型:http://i.imgur.com/O19MR.jpg
我想我可以把其他的分类站点加载到"iframes“中,但是我会得到整个站点(包括它们的页眉/页脚、徽标等)。我只想要一些相关的“机密”部分从他们的网站。
发布于 2011-09-14 15:02:54
您希望了解如何在蜘蛛和解析器设置中执行一些屏幕抓取操作。您可以使用CURL或file_get_contents导入网页,然后使用正则表达式和字符串运算符筛选出您想要的数据,然后构建一个页面来显示它。这是一个过于简化的完整答案的版本,但如果我给你100行代码来完成这一点,那将是作弊!
发布于 2011-09-14 15:03:09
考虑到API或feed的缺乏,我唯一能想到的就是提取相关的URL并从它们中刮取数据。只要标记是整洁的,使用file_get_contents和DOMDocument组合来解析数据应该是非常简单的。
发布于 2011-09-14 15:04:34
我认为最好的选择是设置一个web爬虫异步,从这些站点获取数据。
您可以将其设置为每天00:00爬行并将内容存储在数据库中,如下所示:
external_classified
id
site_source
city_id
extra_data在此之后,您可以从PHP应用程序中获得它,没有任何问题。
编辑:注意,我正在考虑的解决方案是异步的!其他答案使用同步操作获取数据。我觉得一遍又一遍地取同样的分类是浪费时间的。尽管公平地说,这些解决方案更易于实施。
https://stackoverflow.com/questions/7418305
复制相似问题