文章/答案/技术大牛

发布

社区首页 >问答首页 >关于从互联网上抓取/抓取/收集音频内容的最佳方法的建议/提示

问关于从互联网上抓取/抓取/收集音频内容的最佳方法的建议/提示
EN

Stack Overflow用户

提问于 2010-12-15 15:07:21

回答 2查看 571关注 0票数 2

实际上我要做的是弄清楚BEEMP3.COM是如何工作的。

由于网站的速度，我怀疑他们在现场抓取了其他网站/资源。他们可能使用某种类型的数据库(PostgreSQL或MySQL)来存储“结果”，然后只查询搜索条件。

我的问题是，你们认为他们是如何抓取或抓取mp3文件/内容的？他们必须有一些算法，以蜘蛛的互联网或使用谷歌的索引mp3技巧找到主机与原始的mp3文件。

如有任何意见、建议或想法，欢迎使用:)

web-crawler

php

mysql

indexing

mp3

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-02-19 00:01:53

QueryPath是一个很棒的构建网络蜘蛛的工具。

我猜他们是通过一种组合的方法找到MP3s的--他们有一个“种子站点”列表(从Google，Usenet或手动插入的)，他们将其作为搜索的起点，然后让蜘蛛对其运行。

您需要编写一个脚本，该脚本将：

将网页作为起点
获取网页数据(使用cURL)
使用正则表达式提取(a)任何链接(b)任何指向mp3文件的链接
将任何MP3链接放入数据库
通过上述方法将指向其他网页的链接列表添加到队列中进行处理

您还需要定期重新检查您的MP3链接，以清除任何坏链接。

票数 0

Stack Overflow用户

发布于 2013-10-09 16:32:10

或者，您可以抓取像beemp3.com这样的MP3爬虫，提取所有直接下载链接，并将它们保存到数据库中。您只需要两个文件。简单的html Dom。II.一个可以将提取的链接带到数据库的应用程序。

检查我在http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php中做了什么

如果有任何矛盾，你就一直问下去。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4447513

复制

相似问题

问关于从互联网上抓取/抓取/收集音频内容的最佳方法的建议/提示
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于从互联网上抓取/抓取/收集音频内容的最佳方法的建议/提示EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于从互联网上抓取/抓取/收集音频内容的最佳方法的建议/提示
EN