首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据提取?

数据提取?
EN

Stack Overflow用户
提问于 2010-05-17 21:21:23
回答 2查看 1.2K关注 0票数 1

我正在寻找从各种网站提取各种数据的方法。我知道有一些程序你可以买到,但我正在努力学习,我想自己去做。有没有人对一般结构有什么建议?如果有,你会用什么语言写?我的第一个想法是java,但我非常愿意并感激地听取其他人的意见。

EN

回答 2

Stack Overflow用户

发布于 2010-05-17 21:31:45

您试图从网站中提取哪些类型的数据?什么网站?等等。更多关于你的想法/项目的细节会有所帮助

最近,我需要研究并尝试一些html解析器,以便以更统一的格式获得一些我需要的数据。

我尝试了JTidy (http://jtidy.sourceforge.net/),并查看了网络收获(http://web-harvest.sourceforge.net/)。JTidy并不能完全满足我的需求,而且网络收获器也太过杀伤力了。

我最终决定使用Java + htmlparser (http://htmlparser.sourceforge.net/)

它只用了很少的开发时间就得到了我需要的东西,并且htmlparser允许你形成“过滤器”,在DOM中搜索特定的东西。

票数 1
EN

Stack Overflow用户

发布于 2010-05-17 21:42:24

看看hadoop (网格)和solr (爬虫和索引器)。它们分别支持繁重的处理和高效的索引(以实现高效的搜索)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2849327

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档