腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
产品
信息
分析及产品
评论
我正在创建一个
爬虫
来获取产品
信息
和产品
评论
,并从一个特定的类别导出到csv文件。例如,我需要从裤子类别中获取所有
信息
,所以我的爬行从那里开始。 yield {"product_url": item.css('.category-good-na
浏览 0
提问于2020-03-11
得票数 1
回答已采纳
1
回答
使用导入IO搜索数据
如何在importIO中的
爬虫
中使用crawler?我需要抓取一个公司的详细
信息
,以及每个公司的“所有”
评论
。
浏览 0
修改于2016-01-28
得票数 0
1
回答
python爬行以提取
评论
计数
我试着用python让
评论
成为
爬虫
。in bsObj.findAll(attrs={'class': 'product-reviews-count'}) 但是我不能得到标签enter image description here之间的
评论
计数实际上,由于我不是开发人员,这将是一个棘手的问题 如果你需要更多的
信息
来解决这个问题,请发表
评论
。
浏览 10
提问于2020-07-19
得票数 0
回答已采纳
1
回答
为什么Google索引管理不适用于实时版本?
我有一个任务,防止谷歌的
爬虫
索引一些内容。我读过,如果我有这样的html:然后googleoff告诉Google的
爬虫
不要索引内容,而googleon告诉Google的
爬虫
要索引内容。到现在为止还好。因此,不应该被Google的
爬虫
索引的内容应该在这些
评论
之间。我已经使用googleoff和googleon功能将应该排除在Google索引之外的所有内容打包到这些
评论
中
浏览 5
修改于2013-08-10
得票数 0
回答已采纳
2
回答
注释不使用Api进行刮擦
我正在使用刮除从一个网站上对书籍的
评论
。到目前为止,我已经做了一个
爬虫
和刮
评论
的单一的一本书,把它的网址作为启动网址由我自己,我甚至不得不给标签的
评论
,由我自己从页面的源代码找到它。它起作用了。也就是说,我想要某种方式,
爬虫
应该能够找到书的网页在网站上,并刮它的
评论
。我从goodreads中提取
评论
,它没有为url提供统一的方法,甚至对于不同的书籍,标签也是不同的。而且我不想用Api。
浏览 10
提问于2014-05-02
得票数 0
回答已采纳
1
回答
更改Apify-ready模板中的.tld
我们的目标不仅是获得英语
评论
,还包括德语、法语等
评论
。如何在不编写新
爬虫
的情况下调整脚本?
浏览 8
提问于2019-12-31
得票数 0
1
回答
用Scrapy创建站点地图
站点地图的格式不一定是XML,它只是关于
信息
。此外,我希望保存爬行页面的完整HTML源代码,以供进一步分析,而不是只从其中抓取某些元素。对有经验的网络
爬虫
者的
评论
:考虑到这是可能的,你认为Scrapy甚至是正确的工具吗?或者用请求之类的库来编写自己的
爬虫
会更容易吗?
浏览 0
提问于2017-11-07
得票数 5
3
回答
Facebook Graph API SEO
评论
和脏话过滤器
我正在考虑尝试整合Facebook在我们网站上留下的
评论
,这样内容就可以被搜索引擎抓取,也可以供那些没有在浏览器上启用Javascript的人使用(尽管我非常怀疑会有很多人)。目前,我们的Facebook
评论
是通过Facebook
评论
社交插件(使用<fb:comments href="MY_URL" num_posts="50" width="665"></fb:comments这最终会呈现一个iFrame (搜索引擎
爬虫
通常会忽略它)
浏览 0
修改于2011-10-21
得票数 4
回答已采纳
2
回答
我可以使用python3从https://www.rt.com/中提取任何页面的
评论
吗?
我正在写一个网络
爬虫
。我提取了这个的标题和主要讨论,但我找不到任何一个
评论
(Ctrl+u -> Ctrl+f。注释文本)。我想
评论
是用JavaScript写的。我能把它提取出来吗?
浏览 18
提问于2016-07-27
得票数 0
2
回答
网络
爬虫
是如何影响网站统计的?
网络
爬虫
(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如,在进行AB测试不同页面的变化时)?解决这些问题的方法是什么?例如: 什么是启发式来识别某物是一个机器人?为了澄清,基于以下
评论
:我也感兴趣的情况下,我的网站是具体的目标(可能是非法
爬虫
)。
浏览 3
修改于2010-04-12
得票数 1
回答已采纳
1
回答
向
爬虫
提供数据库内容的最佳方式是什么
我的网站的内容是由用户提供的问题和
评论
定义的,并且是动态的,本质上是不断增长的。本质上,这些内容对于搜索引擎
爬虫
是不可见的。使这些内容可供
爬虫
使用的最佳方式是什么?我是否应该定期运行批处理操作,创建静态网页,并通过站点地图将其提供给
爬虫
?请提个建议。谢谢。
浏览 1
提问于2014-11-08
得票数 0
1
回答
disqus SEO google
爬虫
不加载
评论
而不是
评论
。正如我所理解的那样,“我们无法装载.”谷歌不得不加载js脚本,但由于某种原因,无法从争议中得到
评论
。 怎么啦?怎么解决这个问题?
浏览 4
提问于2015-06-04
得票数 0
回答已采纳
2
回答
Drupal首页和facebook
爬虫
但我希望facebook上的clawler能看到我的og: data,发布带有当前标题的
评论
。脸书
爬虫
获得了302的正面,并采取标题从头版。我怎样才能(也许)做一个白名单给facebook
爬虫
获取og:来自受限区域的数据?
浏览 0
修改于2018-07-21
得票数 0
回答已采纳
2
回答
Crawler4j和Tripadvisor
我正在使用crawler4j为Tripadvisor编写一个
爬虫
。我需要收集一个项目的所有
评论
,但是指向“下一个”
评论
的链接(那些带有数字的
评论
)不是一个链接,而是一个javascript函数。
浏览 2
提问于2012-06-27
得票数 0
2
回答
带有最佳可定制
爬虫
和抓取器的建议
我有一个网站,这是相当好,但与非常少的
信息
。所以我想添加一些
信息
,比如关于特定领域的新闻(比如政治、好莱坞等)。我相信
爬虫
是最好的方法吗?如果我的理解是正确的,请建议您是否有任何其他方法来获取
信息
,而不使用来自各种来源的
爬虫
。因为这非常耗费资源和时间。在选择
爬虫
之前,我应该考虑哪些因素。任何提
浏览 0
修改于2013-02-04
得票数 0
1
回答
什么是爬行延迟:1意味着如果它被解释为是?
我很难理解crawl-delay: 1的含义,如果它没有被忽略,并且实际上被一个给定的网络
爬虫
所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示:爬行A页爬行B页60 crawlings还是at most 30
爬虫
?什么是爬行延迟:1表示如果它被解释为是?
浏览 0
修改于2020-03-04
得票数 1
3
回答
从Amazon抓取客户
评论
我想知道是否有任何方法,我可以抓取客户
评论
的特定产品从亚马逊,而不被封锁。现在,我的
爬虫
几次就被堵住了。任何想法都会感激的。
浏览 0
提问于2017-05-25
得票数 2
1
回答
如何从同一网站的多个网页中发现公共
信息
块?
这是网络
爬虫
中的一个模式识别任务。传统的
爬虫
获取整个页面的数据。如果有任何方法可以让
爬虫
变得有点智能,就像只是识别和捕获
信息
部分。
浏览 0
提问于2015-05-29
得票数 0
1
回答
Python-Selenium
爬虫
冻结,特别是在无头模式下(不可复制的bug)
我构建了一个
爬虫
,它获取用户输入的产品列表的产品
信息
。有时,
爬虫
会结冰,特别是如果产品列表很长,如果
爬虫
在无头模式下运行的话。因为这是一个不可复制的错误,我不认为我能修复它,但有没有办法检测
爬虫
已经冻结,然后再试一次?
爬虫
是使用Selenium和Python构建的。
浏览 2
提问于2019-05-21
得票数 1
1
回答
使用Nutch 2.1从某个页面获取facebook点赞数量
我想问,有没有什么方法可以让我使用Nutch 2.1
爬虫
在facebook的公共页面上发布URL的次数/发布的URL和
评论
在Facebook上被点赞的次数?
浏览 2
修改于2013-01-17
得票数 4
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券