腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
为什么Google索引管理不适用于实时版本?
我有一个任务,防止谷歌的
爬虫
索引一些内容。我读过,如果我有这样的html:然后googleoff告诉Google的
爬虫
不要索引内容,而googleon告诉Google的
爬虫
要索引内容。到现在为止还好。因此,不应该被Google的
爬虫
索引的内容应该在这些
评论
之间。我已经使用googleoff和googleon功能将应该排除在Google索引之外的所有内容打包到这些
评论
中
浏览 5
修改于2013-08-10
得票数 0
回答已采纳
2
回答
注释不使用Api进行刮擦
我正在使用刮除从一个网站上对书籍的
评论
。到目前为止,我已经做了一个
爬虫
和刮
评论
的单一的一本书,把它的网址作为启动网址由我自己,我甚至不得不给标签的
评论
,由我自己从页面的源代码找到它。它起作用了。也就是说,我想要某种方式,
爬虫
应该能够找到书的网页在网站上,并刮它的
评论
。我从goodreads中提取
评论
,它没有为url提供统一的方法,甚至对于不同的书籍,标签也是不同的。而且我不想用Api。
浏览 10
提问于2014-05-02
得票数 0
回答已采纳
1
回答
如何在ponyorm中使用实体进行get()查询
我在用
马蜂窝
。如何将此查询转换为只返回一个结果的查询?我希望它在有多个结果时抛出一个错误,类似于entity.get()查询。
浏览 2
修改于2017-03-24
得票数 1
1
回答
更改Apify-ready模板中的.tld
我们的目标不仅是获得英语
评论
,还包括德语、法语等
评论
。如何在不编写新
爬虫
的情况下调整脚本?
浏览 8
提问于2019-12-31
得票数 0
1
回答
产品信息分析及产品
评论
我正在创建一个
爬虫
来获取产品信息和产品
评论
,并从一个特定的类别导出到csv文件。例如,我需要从裤子类别中获取所有信息,所以我的爬行从那里开始。我知道如何解析目录列表中的
浏览 0
提问于2020-03-11
得票数 1
回答已采纳
2
回答
我可以使用python3从https://www.rt.com/中提取任何页面的
评论
吗?
我正在写一个网络
爬虫
。我提取了这个的标题和主要讨论,但我找不到任何一个
评论
(Ctrl+u -> Ctrl+f。注释文本)。我想
评论
是用JavaScript写的。我能把它提取出来吗?
浏览 18
提问于2016-07-27
得票数 0
2
回答
网络
爬虫
是如何影响网站统计的?
网络
爬虫
(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如,在进行AB测试不同页面的变化时)?解决这些问题的方法是什么?例如: 什么是启发式来识别某物是一个机器人?为了澄清,基于以下
评论
:我也感兴趣的情况下,我的网站是具体的目标(可能是非法
爬虫
)。
浏览 3
修改于2010-04-12
得票数 1
回答已采纳
1
回答
disqus SEO google
爬虫
不加载
评论
而不是
评论
。正如我所理解的那样,“我们无法装载.”谷歌不得不加载js脚本,但由于某种原因,无法从争议中得到
评论
。 怎么啦?怎么解决这个问题?
浏览 4
提问于2015-06-04
得票数 0
回答已采纳
2
回答
Drupal首页和facebook
爬虫
但我希望facebook上的clawler能看到我的og: data,发布带有当前标题的
评论
。脸书
爬虫
获得了302的正面,并采取标题从头版。我怎样才能(也许)做一个白名单给facebook
爬虫
获取og:来自受限区域的数据?
浏览 0
修改于2018-07-21
得票数 0
回答已采纳
1
回答
向
爬虫
提供数据库内容的最佳方式是什么
我的网站的内容是由用户提供的问题和
评论
定义的,并且是动态的,本质上是不断增长的。本质上,这些内容对于搜索引擎
爬虫
是不可见的。使这些内容可供
爬虫
使用的最佳方式是什么?我是否应该定期运行批处理操作,创建静态网页,并通过站点地图将其提供给
爬虫
?请提个建议。谢谢。
浏览 1
提问于2014-11-08
得票数 0
2
回答
Crawler4j和Tripadvisor
我正在使用crawler4j为Tripadvisor编写一个
爬虫
。我需要收集一个项目的所有
评论
,但是指向“下一个”
评论
的链接(那些带有数字的
评论
)不是一个链接,而是一个javascript函数。
浏览 2
提问于2012-06-27
得票数 0
1
回答
什么是爬行延迟:1意味着如果它被解释为是?
我很难理解crawl-delay: 1的含义,如果它没有被忽略,并且实际上被一个给定的网络
爬虫
所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示:爬行A页爬行B页60 crawlings还是at most 30
爬虫
?什么是爬行延迟:1表示如果它被解释为是?
浏览 0
修改于2020-03-04
得票数 1
3
回答
从Amazon抓取客户
评论
我想知道是否有任何方法,我可以抓取客户
评论
的特定产品从亚马逊,而不被封锁。现在,我的
爬虫
几次就被堵住了。任何想法都会感激的。
浏览 0
提问于2017-05-25
得票数 2
1
回答
使用Nutch 2.1从某个页面获取facebook点赞数量
我想问,有没有什么方法可以让我使用Nutch 2.1
爬虫
在facebook的公共页面上发布URL的次数/发布的URL和
评论
在Facebook上被点赞的次数?
浏览 2
修改于2013-01-17
得票数 4
1
回答
python爬行以提取
评论
计数
我试着用python让
评论
成为
爬虫
。in bsObj.findAll(attrs={'class': 'product-reviews-count'}) 但是我不能得到标签enter image description here之间的
评论
计数实际上,由于我不是开发人员,这将是一个棘手的问题 如果你需要更多的信息来解决这个问题,请发表
评论
。
浏览 10
提问于2020-07-19
得票数 0
回答已采纳
3
回答
使用动态生成的内容爬行页面
我一直在使用java.net crawler进行定制的
爬虫
。问题出在动态生成的内容上,比如博客上的
评论
。考虑下面的页面。如果爬行页面并获取源代码,则无法查看页面的全部内容。我已经看过apache的httpclient,然而,这与上面的
爬虫
程序一样,只是返回源代码。我认为这个特定的页面有一个javascript片段,它返回来自另一个域的
评论
,所以我想我需要的是在下载它之后解析源代码,然后获得文本。任何帮助都是非常感谢的。相同的
浏览 2
提问于2010-09-13
得票数 1
3
回答
如何让HTMLParser在出现解析错误后继续解析?
我正在创建一个网络
爬虫
,我使用HTMLParser模块来解析超文本标记语言文档中的链接。如果解析器遇到错误的标记,它会引发解析错误并终止应用程序。由于
爬虫
遍历了整个web,所以这个错误经常会被抛出。这样做的问题是,我真的不知道如何使用提供的“补丁”,我也不理解
评论
。 我希望覆盖HTMLParser模块的默认行为,以允许它在出现解析错误后继续解析。
浏览 0
提问于2011-04-20
得票数 1
回答已采纳
1
回答
使用导入IO搜索数据
如何在importIO中的
爬虫
中使用crawler?我需要抓取一个公司的详细信息,以及每个公司的“所有”
评论
。
浏览 0
修改于2016-01-28
得票数 0
2
回答
导入IO-使用XPath显示“更多”内容
我正在使用Import.io crawler从TripAdvisor中提取
评论
。然而,当我训练
爬虫
的时候,“更多”按钮是不活动的。下面是该页面的一个示例:更多按钮: //*@id="review_288083139"/div1
浏览 3
提问于2015-07-13
得票数 3
3
回答
Facebook Graph API SEO
评论
和脏话过滤器
我正在考虑尝试整合Facebook在我们网站上留下的
评论
,这样内容就可以被搜索引擎抓取,也可以供那些没有在浏览器上启用Javascript的人使用(尽管我非常怀疑会有很多人)。目前,我们的Facebook
评论
是通过Facebook
评论
社交插件(使用<fb:comments href="MY_URL" num_posts="50" width="665"></fb:comments这最终会呈现一个iFrame (搜索引擎
爬虫
通常会忽略它)
浏览 0
修改于2011-10-21
得票数 4
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券