开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >网站智能数据提取算法

问网站智能数据提取算法
EN

Stack Overflow用户

提问于 2012-06-14 08:35:32

回答 1查看 372关注 0票数 0

我正在构建一个交易聚合，所以我需要一个爬虫，将从一些网站提取数据:价格，折扣，图像，坐标和交易程序的名称。

你知道有什么教程，电子书或什么东西能帮到我吗？对于图像、坐标和折扣，我有一个解决方案和模式：

形象:最大的形象总是交易的主要形象。
折扣:折扣总是一个介于50到99之间的数字，并且总是有"%“符号。
坐标:总是以十进制数表示，所以我用regex表示。

我如何得到下列项目？

交易名称？
价格？

你知道有什么数据提取算法是有用的吗？

data-extraction

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-06-14 08:44:47

我建议你使用基于XPath的刮板机。例如，网络-收获

或者，如果您想分析原始文本，我建议使用状态机解析器来识别文本的模板部分。

看这个主题：Java中是否有用于文本分析/挖掘的API？

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11029456

复制

相似问题