我正在构建一个交易聚合,所以我需要一个爬虫,将从一些网站提取数据:价格,折扣,图像,坐标和交易程序的名称。
你知道有什么教程,电子书或什么东西能帮到我吗?对于图像、坐标和折扣,我有一个解决方案和模式:
我如何得到下列项目?
你知道有什么数据提取算法是有用的吗?
发布于 2012-06-14 08:44:47
我建议你使用基于XPath的刮板机。例如,网络-收获
或者,如果您想分析原始文本,我建议使用状态机解析器来识别文本的模板部分。
看这个主题:Java中是否有用于文本分析/挖掘的API?
https://stackoverflow.com/questions/11029456
相似问题