我正在寻找从各种网站提取各种数据的方法。我知道有一些程序你可以买到,但我正在努力学习,我想自己去做。有没有人对一般结构有什么建议?如果有,你会用什么语言写?我的第一个想法是java,但我非常愿意并感激地听取其他人的意见。
发布于 2010-05-17 21:31:45
您试图从网站中提取哪些类型的数据?什么网站?等等。更多关于你的想法/项目的细节会有所帮助
最近,我需要研究并尝试一些html解析器,以便以更统一的格式获得一些我需要的数据。
我尝试了JTidy (http://jtidy.sourceforge.net/),并查看了网络收获(http://web-harvest.sourceforge.net/)。JTidy并不能完全满足我的需求,而且网络收获器也太过杀伤力了。
我最终决定使用Java + htmlparser (http://htmlparser.sourceforge.net/)
它只用了很少的开发时间就得到了我需要的东西,并且htmlparser允许你形成“过滤器”,在DOM中搜索特定的东西。
发布于 2010-05-17 21:42:24
看看hadoop (网格)和solr (爬虫和索引器)。它们分别支持繁重的处理和高效的索引(以实现高效的搜索)。
https://stackoverflow.com/questions/2849327
复制相似问题