搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

为什么Google索引管理不适用于实时版本？

我有一个任务，防止谷歌的爬虫索引一些内容。我读过，如果我有这样的html：然后googleoff告诉Google的爬虫不要索引内容，而googleon告诉Google的爬虫要索引内容。到现在为止还好。因此，不应该被Google的爬虫索引的内容应该在这些评论之间。我已经使用googleoff和googleon功能将应该排除在Google索引之外的所有内容打包到这些评论中

浏览 5修改于2013-08-10得票数 0

回答已采纳

2回答

注释不使用Api进行刮擦

我正在使用刮除从一个网站上对书籍的评论。到目前为止，我已经做了一个爬虫和刮评论的单一的一本书，把它的网址作为启动网址由我自己，我甚至不得不给标签的评论，由我自己从页面的源代码找到它。它起作用了。也就是说，我想要某种方式，爬虫应该能够找到书的网页在网站上，并刮它的评论。我从goodreads中提取评论，它没有为url提供统一的方法，甚至对于不同的书籍，标签也是不同的。而且我不想用Api。

浏览 10提问于2014-05-02得票数 0

回答已采纳

1回答

如何在ponyorm中使用实体进行get()查询

我在用马蜂窝。如何将此查询转换为只返回一个结果的查询？我希望它在有多个结果时抛出一个错误，类似于entity.get()查询。

浏览 2修改于2017-03-24得票数 1

1回答

更改Apify-ready模板中的.tld

我们的目标不仅是获得英语评论，还包括德语、法语等评论。如何在不编写新爬虫的情况下调整脚本？

浏览 8提问于2019-12-31得票数 0

1回答

产品信息分析及产品评论

我正在创建一个爬虫来获取产品信息和产品评论，并从一个特定的类别导出到csv文件。例如，我需要从裤子类别中获取所有信息，所以我的爬行从那里开始。我知道如何解析目录列表中的

浏览 0提问于2020-03-11得票数 1

回答已采纳

2回答

我可以使用python3从https://www.rt.com/中提取任何页面的评论吗？

我正在写一个网络爬虫。我提取了这个的标题和主要讨论，但我找不到任何一个评论(Ctrl+u -> Ctrl+f。注释文本)。我想评论是用JavaScript写的。我能把它提取出来吗？

浏览 18提问于2016-07-27得票数 0

2回答

网络爬虫是如何影响网站统计的？

网络爬虫(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如，在进行AB测试不同页面的变化时)？解决这些问题的方法是什么？例如：什么是启发式来识别某物是一个机器人？为了澄清，基于以下评论:我也感兴趣的情况下，我的网站是具体的目标(可能是非法爬虫)。

浏览 3修改于2010-04-12得票数 1

回答已采纳

1回答

disqus SEO google爬虫不加载评论

而不是评论。正如我所理解的那样，“我们无法装载.”谷歌不得不加载js脚本，但由于某种原因，无法从争议中得到评论。怎么啦？怎么解决这个问题？

浏览 4提问于2015-06-04得票数 0

回答已采纳

2回答

Drupal首页和facebook爬虫

但我希望facebook上的clawler能看到我的og: data，发布带有当前标题的评论。脸书爬虫获得了302的正面，并采取标题从头版。我怎样才能(也许)做一个白名单给facebook爬虫获取og:来自受限区域的数据？

浏览 0修改于2018-07-21得票数 0

回答已采纳

1回答

向爬虫提供数据库内容的最佳方式是什么

我的网站的内容是由用户提供的问题和评论定义的，并且是动态的，本质上是不断增长的。本质上，这些内容对于搜索引擎爬虫是不可见的。使这些内容可供爬虫使用的最佳方式是什么？我是否应该定期运行批处理操作，创建静态网页，并通过站点地图将其提供给爬虫？请提个建议。谢谢。

浏览 1提问于2014-11-08得票数 0

2回答

Crawler4j和Tripadvisor

我正在使用crawler4j为Tripadvisor编写一个爬虫。我需要收集一个项目的所有评论，但是指向“下一个”评论的链接(那些带有数字的评论)不是一个链接，而是一个javascript函数。

浏览 2提问于2012-06-27得票数 0

1回答

什么是爬行延迟:1意味着如果它被解释为是？

我很难理解crawl-delay: 1的含义，如果它没有被忽略，并且实际上被一个给定的网络爬虫所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示：爬行A页爬行B页60 crawlings还是at most 30爬虫？什么是爬行延迟:1表示如果它被解释为是？

浏览 0修改于2020-03-04得票数 1

3回答

从Amazon抓取客户评论

我想知道是否有任何方法，我可以抓取客户评论的特定产品从亚马逊，而不被封锁。现在，我的爬虫几次就被堵住了。任何想法都会感激的。

浏览 0提问于2017-05-25得票数 2

1回答

使用Nutch 2.1从某个页面获取facebook点赞数量

我想问，有没有什么方法可以让我使用Nutch 2.1爬虫在facebook的公共页面上发布URL的次数/发布的URL和评论在Facebook上被点赞的次数？

浏览 2修改于2013-01-17得票数 4

1回答

python爬行以提取评论计数

我试着用python让评论成为爬虫。in bsObj.findAll(attrs={'class': 'product-reviews-count'}) 但是我不能得到标签enter image description here之间的评论计数实际上，由于我不是开发人员，这将是一个棘手的问题如果你需要更多的信息来解决这个问题，请发表评论。

浏览 10提问于2020-07-19得票数 0

回答已采纳

3回答

我一直在使用java.net crawler进行定制的爬虫。问题出在动态生成的内容上，比如博客上的评论。考虑下面的页面。如果爬行页面并获取源代码，则无法查看页面的全部内容。我已经看过apache的httpclient，然而，这与上面的爬虫程序一样，只是返回源代码。我认为这个特定的页面有一个javascript片段，它返回来自另一个域的评论，所以我想我需要的是在下载它之后解析源代码，然后获得文本。任何帮助都是非常感谢的。相同的

浏览 2提问于2010-09-13得票数 1

3回答

如何让HTMLParser在出现解析错误后继续解析？

我正在创建一个网络爬虫，我使用HTMLParser模块来解析超文本标记语言文档中的链接。如果解析器遇到错误的标记，它会引发解析错误并终止应用程序。由于爬虫遍历了整个web，所以这个错误经常会被抛出。这样做的问题是，我真的不知道如何使用提供的“补丁”，我也不理解评论。我希望覆盖HTMLParser模块的默认行为，以允许它在出现解析错误后继续解析。

浏览 0提问于2011-04-20得票数 1

回答已采纳

1回答

使用导入IO搜索数据

如何在importIO中的爬虫中使用crawler？我需要抓取一个公司的详细信息，以及每个公司的“所有”评论。

浏览 0修改于2016-01-28得票数 0

2回答

导入IO-使用XPath显示“更多”内容

我正在使用Import.io crawler从TripAdvisor中提取评论。然而，当我训练爬虫的时候，“更多”按钮是不活动的。下面是该页面的一个示例：更多按钮: //*@id="review_288083139"/div1

浏览 3提问于2015-07-13得票数 3

3回答

Facebook Graph API SEO评论和脏话过滤器

我正在考虑尝试整合Facebook在我们网站上留下的评论，这样内容就可以被搜索引擎抓取，也可以供那些没有在浏览器上启用Javascript的人使用(尽管我非常怀疑会有很多人)。目前，我们的Facebook评论是通过Facebook评论社交插件(使用<fb:comments href="MY_URL" num_posts="50" width="665"></fb:comments这最终会呈现一个iFrame (搜索引擎爬虫通常会忽略它)

浏览 0修改于2011-10-21得票数 4

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

为什么Google索引管理不适用于实时版本？

注释不使用Api进行刮擦

如何在ponyorm中使用实体进行get()查询

更改Apify-ready模板中的.tld

产品信息分析及产品评论

我可以使用python3从https://www.rt.com/中提取任何页面的评论吗？

网络爬虫是如何影响网站统计的？

disqus SEO google爬虫不加载评论

Drupal首页和facebook爬虫

向爬虫提供数据库内容的最佳方式是什么

Crawler4j和Tripadvisor

什么是爬行延迟:1意味着如果它被解释为是？

从Amazon抓取客户评论

使用Nutch 2.1从某个页面获取facebook点赞数量

python爬行以提取评论计数

使用动态生成的内容爬行页面

如何让HTMLParser在出现解析错误后继续解析？

使用导入IO搜索数据

导入IO-使用XPath显示“更多”内容

Facebook Graph API SEO评论和脏话过滤器

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐