首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于机器学习的智能网络爬虫

基于机器学习的智能网络爬虫
EN

Stack Overflow用户
提问于 2016-07-20 07:13:55
回答 1查看 1.5K关注 0票数 2

我正在建设电子商务网站

问题陈述

我想抓取网页到get product name, images and product specifications/features并将其存储在我的database中。

输入到机器学习算法

包含html内容的网页

机器学习的输出-- algo

  • 它应该自动检测它的产品详细信息页面
  • 如果是“产品详细信息”页面,那么就应该识别产品类别
  • 然后应该解析产品名称、规格说明。

问题

哪种算法适合这个问题陈述?

有人能提出适当的方法来遵循吗?

EN

回答 1

Stack Overflow用户

发布于 2016-07-20 09:16:15

我不是机器学习/自然语言处理方面的专家,但我的直觉是,很难把它完全实现为ML产品。因此,首先看看您的目标eCommercise站点是否提供了某种类型的API来提取数据。如果这些API是可用的,那么使用这些API比使用ML容易得多。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38474651

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档