文章/答案/技术大牛

发布

社区首页 >问答首页 >数据提取？

问数据提取？
EN

Stack Overflow用户

提问于 2010-05-17 21:21:23

回答 2查看 1.2K关注 0票数 1

我正在寻找从各种网站提取各种数据的方法。我知道有一些程序你可以买到，但我正在努力学习，我想自己去做。有没有人对一般结构有什么建议?如果有，你会用什么语言写？我的第一个想法是java，但我非常愿意并感激地听取其他人的意见。

java

web-scraping

回答 2

Stack Overflow用户

发布于 2010-05-17 21:31:45

您试图从网站中提取哪些类型的数据？什么网站？等等。更多关于你的想法/项目的细节会有所帮助

最近，我需要研究并尝试一些html解析器，以便以更统一的格式获得一些我需要的数据。

我尝试了JTidy (http://jtidy.sourceforge.net/)，并查看了网络收获(http://web-harvest.sourceforge.net/)。JTidy并不能完全满足我的需求，而且网络收获器也太过杀伤力了。

我最终决定使用Java + htmlparser (http://htmlparser.sourceforge.net/)

它只用了很少的开发时间就得到了我需要的东西，并且htmlparser允许你形成“过滤器”，在DOM中搜索特定的东西。

票数 1

Stack Overflow用户

发布于 2010-05-17 21:42:24

看看hadoop (网格)和solr (爬虫和索引器)。它们分别支持繁重的处理和高效的索引(以实现高效的搜索)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2849327

复制

相似问题

问数据提取？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据提取？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据提取？
EN