首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >网站智能数据提取算法

网站智能数据提取算法
EN

Stack Overflow用户
提问于 2012-06-14 08:35:32
回答 1查看 372关注 0票数 0

我正在构建一个交易聚合,所以我需要一个爬虫,将从一些网站提取数据:价格,折扣,图像,坐标和交易程序的名称。

你知道有什么教程,电子书或什么东西能帮到我吗?对于图像、坐标和折扣,我有一个解决方案和模式:

  • 形象:最大的形象总是交易的主要形象。
  • 折扣:折扣总是一个介于50到99之间的数字,并且总是有"%“符号。
  • 坐标:总是以十进制数表示,所以我用regex表示。

我如何得到下列项目?

  • 交易名称?
  • 价格?

你知道有什么数据提取算法是有用的吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-06-14 08:44:47

我建议你使用基于XPath的刮板机。例如,网络-收获

或者,如果您想分析原始文本,我建议使用状态机解析器来识别文本的模板部分。

看这个主题:Java中是否有用于文本分析/挖掘的API?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11029456

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档