首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >关于从互联网上抓取/抓取/收集音频内容的最佳方法的建议/提示

关于从互联网上抓取/抓取/收集音频内容的最佳方法的建议/提示
EN

Stack Overflow用户
提问于 2010-12-15 15:07:21
回答 2查看 571关注 0票数 2

实际上我要做的是弄清楚BEEMP3.COM是如何工作的。

由于网站的速度,我怀疑他们在现场抓取了其他网站/资源。他们可能使用某种类型的数据库(PostgreSQL或MySQL)来存储“结果”,然后只查询搜索条件。

我的问题是,你们认为他们是如何抓取或抓取mp3文件/内容的?他们必须有一些算法,以蜘蛛的互联网或使用谷歌的索引mp3技巧找到主机与原始的mp3文件。

如有任何意见、建议或想法,欢迎使用:)

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-02-19 00:01:53

QueryPath是一个很棒的构建网络蜘蛛的工具。

我猜他们是通过一种组合的方法找到MP3s的--他们有一个“种子站点”列表(从Google,Usenet或手动插入的),他们将其作为搜索的起点,然后让蜘蛛对其运行。

您需要编写一个脚本,该脚本将:

  • 将网页作为起点
  • 获取网页数据(使用cURL)
  • 使用正则表达式提取(a)任何链接(b)任何指向mp3文件的链接
  • 将任何MP3链接放入数据库
  • 通过上述方法将指向其他网页的链接列表添加到队列中进行处理

您还需要定期重新检查您的MP3链接,以清除任何坏链接。

票数 0
EN

Stack Overflow用户

发布于 2013-10-09 16:32:10

或者,您可以抓取像beemp3.com这样的MP3爬虫,提取所有直接下载链接,并将它们保存到数据库中。您只需要两个文件。简单的html Dom。II.一个可以将提取的链接带到数据库的应用程序。

检查我在http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php中做了什么

如果有任何矛盾,你就一直问下去。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4447513

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档