文章/答案/技术大牛

发布

社区首页 >问答首页 >基于机器学习的智能网络爬虫

问基于机器学习的智能网络爬虫
EN

Stack Overflow用户

提问于 2016-07-20 07:13:55

回答 1查看 1.5K关注 0票数 2

我正在建设电子商务网站

问题陈述

我想抓取网页到get product name, images and product specifications/features并将其存储在我的database中。

输入到机器学习算法

包含html内容的网页

机器学习的输出-- algo

它应该自动检测它的产品详细信息页面
如果是“产品详细信息”页面，那么就应该识别产品类别
然后应该解析产品名称、规格说明。

问题

哪种算法适合这个问题陈述？

有人能提出适当的方法来遵循吗？

text-mining

named-entity-recognition

回答 1

Stack Overflow用户

发布于 2016-07-20 09:16:15

我不是机器学习/自然语言处理方面的专家，但我的直觉是，很难把它完全实现为ML产品。因此，首先看看您的目标eCommercise站点是否提供了某种类型的API来提取数据。如果这些API是可用的，那么使用这些API比使用ML容易得多。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38474651

复制

相似问题

问基于机器学习的智能网络爬虫
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于机器学习的智能网络爬虫EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于机器学习的智能网络爬虫
EN