实际上我要做的是弄清楚BEEMP3.COM是如何工作的。
由于网站的速度,我怀疑他们在现场抓取了其他网站/资源。他们可能使用某种类型的数据库(PostgreSQL或MySQL)来存储“结果”,然后只查询搜索条件。
我的问题是,你们认为他们是如何抓取或抓取mp3文件/内容的?他们必须有一些算法,以蜘蛛的互联网或使用谷歌的索引mp3技巧找到主机与原始的mp3文件。
如有任何意见、建议或想法,欢迎使用:)
发布于 2011-02-19 00:01:53
QueryPath是一个很棒的构建网络蜘蛛的工具。
我猜他们是通过一种组合的方法找到MP3s的--他们有一个“种子站点”列表(从Google,Usenet或手动插入的),他们将其作为搜索的起点,然后让蜘蛛对其运行。
您需要编写一个脚本,该脚本将:
您还需要定期重新检查您的MP3链接,以清除任何坏链接。
发布于 2013-10-09 16:32:10
或者,您可以抓取像beemp3.com这样的MP3爬虫,提取所有直接下载链接,并将它们保存到数据库中。您只需要两个文件。简单的html Dom。II.一个可以将提取的链接带到数据库的应用程序。
检查我在http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php中做了什么
如果有任何矛盾,你就一直问下去。
https://stackoverflow.com/questions/4447513
复制相似问题