搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

使用PHP的通用网站爬虫

我想创建一个通用的网站爬虫使用PHP。然后我的web应用程序将开始从源网站获取数据。

浏览 1修改于2014-01-02得票数 0

回答已采纳

2回答

在python中创建一个通用的web爬虫，用于像Flipboard这样的新闻聚合

为了实现这一点，我正在构建一个网络爬虫，它将抓取网站，以获取最近的新闻和帖子。我正在浏览上的一篇文章 Doll：它大多是通用/通用的。问题：我想知道，我如何才能实现通过一个通用爬虫从数千个网站中获取数据的目标？

浏览 7修改于2015-09-19得票数 0

回答已采纳

1回答

Python selenium屏幕捕获未获取整个页面

我正在尝试创建一个通用的网络爬虫，将去一个网站，并采取屏幕截图。我使用的是Python、Selnium和PhantomJS。问题是屏幕截图没有捕捉到页面上的所有图像。因为这是一个通用的爬虫，所以我不能等待特定的事件(我想抓取数百个站点)。有没有可能创建一个通用的网络爬虫来完成我正在尝试的屏幕截图？

浏览 4修改于2014-10-06得票数 3

1回答

在angular universal中检测网站页面中的网络爬虫

我想要检测服务器端呈现的对我的页面的当前请求- ssr来自网络爬虫或普通用户。而不是在用户使用我的页面时运行。如何检测这个东西？

浏览 4修改于2019-10-23得票数 1

1回答

'PageJacking‘的解决方案是什么？

'PageJacking‘正在创建一个'WebCrawlers’看起来不错的网站，而对于普通用户来说，我将显示广告/促销内容。简单地说，一个网站假装“网络爬虫”是“好孩子”，而对用户来说却不是。维基：爬虫如何避免伪造网站(PageJacking)？

浏览 2修改于2013-07-05得票数 0

1回答

用于下载邮件列表归档的开源项目，最好使用Python

我特别寻找一个(Apache)邮件列表档案定制的爬虫/下载器(不是一个通用的爬虫，如Scrappy)。任何指点都是非常感谢的。谢谢。

浏览 2提问于2012-10-27得票数 4

回答已采纳

2回答

我试图为爬虫创建一个通用的regex模式，以避免所谓的“爬虫陷阱”(只添加url参数并引用相同页面的链接，这会导致大量无用的数据)。很多时候，这些链接只是一次又一次地将相同的部分添加到URL中。我可以使用正则表达式缩小爬虫的范围，并且我希望有一个模式，它告诉爬虫忽略所有有重复部分的内容。用正则表达式可以吗？谢谢你提前给我一些提示！我只想澄清：爬虫陷阱的设计并不是为了防止爬行，而是由于网页设计不佳。我们正在爬行的所有页面都明确地允许我们这样做！

浏览 4修改于2015-09-28得票数 1

回答已采纳

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内容)，就不是一个好主意。谢谢!

浏览 2修改于2017-05-23得票数 3

5回答

如何在Python中从HTML页面中提取URL

我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢？换句话说，有没有一个简单的python程序可以作为通用网络爬虫的模板？

浏览 2修改于2016-10-24得票数 17

1回答

为什么我的动态创建的内容不能在Google中搜索

我的网站提供了动态创建的内容，爬虫可以看到，基于以下规范：。这样，谷歌爬虫用以下语法索引了大约5000个： urls 用谷歌的网站管理员工具查看我的抓取报告，我确信这些页面都被成功抓取了。请注意，我确实找到了我的通用网站，在“更多结果”下，我找到了大约40个动态生成的页面，但显然这不是我想要的。我想根据它们的内容(AAPL，GOOG，...)找到页面。也许，爬虫认为我的页面或多或少是一样的。但事实并非如此。

浏览 3提问于2013-06-09得票数 0

1回答

将爬虫指向HTML快照

我不知道如何让爬虫加载这个文件，同时让普通用户加载正常文件。有人有什么建议吗？

浏览 2修改于2012-05-06得票数 3

回答已采纳

2回答

一个网站会被列入黑名单，如果它提供不同版本的谷歌的佩格爬虫和正常用户？

这个问题实际上是双重的：是否有可能通过检测用户代理(~灯塔，其他页面爬虫)来欺骗分页分析器，并为该网站提供一个简化的、更快的版本？如果是的话，这会不会随着时间的推移而被发现，让你被列入黑名单？另外，与之相反的是，是否有可能向爬虫提供额外的数据(json-ld)，而这些数据是您不希望加载给普通用户的？

浏览 0提问于2019-04-03得票数 0

回答已采纳

1回答

使用PHP脚本获取javascript隐藏的元素

我在找的电子邮件地址我编写了一个PHP爬虫来获取但是，我需要将“电子邮件通用公司电子邮件”与我的鼠标悬停，以显示电子邮件地址。我想通过我的爬虫自动完成它。

浏览 4修改于2015-11-10得票数 1

回答已采纳

2回答

是否可以根据ASP.NET/IIS中的用户代理进行条件URL重写？

是否可以重写URL，以便普通用户和白名单上的爬虫可以查看网站，但阻止访问无法识别的浏览器？

浏览 2修改于2011-07-14得票数 6

回答已采纳

2回答

如何允许用户复制我的电子邮件地址而不是爬虫？

我有一个问题，一些爬虫爬虫从我的网站上的电子邮件地址，并发送垃圾邮件。是否有一种方法允许普通用户复制电子邮件，但不允许爬虫(在html源代码中无法检测到xxx@xxx.com格式)？

浏览 3提问于2020-09-15得票数 2

回答已采纳

2回答

如何抓取特定语言的网页

我找到了通用爬虫，但不确定是否容易提取特定的语言文本。

浏览 2提问于2019-04-05得票数 1

1回答

TYPO3:索引搜索和爬虫关系

例如，根据一些作者的说法，要索引tt_news，我只需要一个通用的爬虫配置和一个用于tt_news的indexed_search配置；但是对于其他教程的作者，我应该为tt_news创建一个爬虫配置。根爬虫配置在找到indexed_search配置时就运行它，难道还不够吗？或者，URL是否需要同时由两者生成？我已经设法使用一个爬虫根配置创建了一个索引，但是我通过我自己的调用cli_dispatch.phpsh的shell脚本来运行索引。

浏览 5提问于2017-04-26得票数 1

1回答

将视图状态置于底部或禁用爬网程序的视图状态

在我读到的地方，改变爬虫和普通用户的内容可以影响SEO排名。但对该语句不太确定，因为这最终会影响一个隐藏字段。将视图状态移到底部似乎比禁用爬虫的视图状态占用更多的资源。

浏览 1提问于2012-08-22得票数 2

1回答

通过全名或电子邮件在查找方法通用库中查找？

我想使用全名或电子邮件，而不是Id在查找方法中的通用爬虫？如何在查找方法而不是Id中使用FullName进行搜索？

浏览 0提问于2018-06-30得票数 1

回答已采纳

3回答

使用使用AGPL-v3授权代码生成的数据是否被视为分发？

我正在考虑在商业环境中使用GNU通用公共许可证v3 (GNU v3)许可库的一部分，但是我们显然不能发布我们的整个代码库。我们只需要库的爬虫类步骤在后端。如果我们使用爬虫中的库生成数据并将其推入数据库，并且我们的web应用程序完全由另一个程序/进程承载，从数据库读取数据，那么我们是否需要发布任何源代码呢？

浏览 0修改于2015-01-27得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

使用PHP的通用网站爬虫

在python中创建一个通用的web爬虫，用于像Flipboard这样的新闻聚合

Python selenium屏幕捕获未获取整个页面

在angular universal中检测网站页面中的网络爬虫

'PageJacking‘的解决方案是什么？

用于下载邮件列表归档的开源项目，最好使用Python

Regex:匹配重复的未知组？

在性能方面，为什么facebook不一次加载所有的JS文件？

如何在Python中从HTML页面中提取URL

为什么我的动态创建的内容不能在Google中搜索

将爬虫指向HTML快照

一个网站会被列入黑名单，如果它提供不同版本的谷歌的佩格爬虫和正常用户？

使用PHP脚本获取javascript隐藏的元素

是否可以根据ASP.NET/IIS中的用户代理进行条件URL重写？

如何允许用户复制我的电子邮件地址而不是爬虫？

如何抓取特定语言的网页

TYPO3:索引搜索和爬虫关系

将视图状态置于底部或禁用爬网程序的视图状态

通过全名或电子邮件在查找方法通用库中查找？

使用使用AGPL-v3授权代码生成的数据是否被视为分发？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐