腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
在网站和独立应用程序中使用Django框架
我计划为它写一个
网络
爬虫
和一个基于
网络
的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让
网络
爬虫
使用与网站相同的MySQL后端(而不是让
网络
爬虫
本身成为“网站”)。
浏览 1
修改于2013-03-14
得票数 1
回答已采纳
5
回答
有哪些好的基于Ruby的
网络
爬虫
?
我正在考虑写我自己的,但我想知道是否有好的
网络
爬虫
在那里是用Ruby编写的。 除了一个成熟的
网络
爬虫
,任何可能有助于构建
网络
爬虫
的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于构建
网络
爬虫
的宝石列表也是一个很好的资源。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
1
回答
Web Crawler的功能
网络
爬虫
是否只从网页中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。
网络
爬虫
可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源Java
网络
爬虫
有什么建议呢? 谢谢!
浏览 2
提问于2011-06-26
得票数 0
回答已采纳
5
回答
Googlebot是用哪种编程语言编写的(或任何其他高效的
网络
爬虫
)?
或者,更普遍的是,高效的
网络
爬虫
是用哪种语言编写的? 我见过很多Java语言,但在我看来,它不是最适合开发
网络
爬虫
的语言,因为它产生了太多的开销(尝试使用Heritrix
网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
2
回答
在MYSQL中删除非常非常相似的行
在PHPMYAdmin中,我正在运行一个
网络
爬虫
。
网络
爬虫
偶尔会拾取相同的urls。在
网络
爬虫
中,它已经索引了数千个链接,我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)
浏览 1
提问于2012-08-17
得票数 0
2
回答
基于PHP的Web
爬虫
或基于JAVA的Web
爬虫
我对基于PHP的
网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个
网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于Java的
爬虫
浏览 1
修改于2012-12-25
得票数 0
回答已采纳
1
回答
在angular universal中检测网站页面中的
网络
爬虫
我想要检测服务器端呈现的对我的页面的当前请求- ssr来自
网络
爬虫
或普通用户。而不是在用户使用我的页面时运行。 如何检测这个东西?
浏览 4
修改于2019-10-23
得票数 1
2
回答
网络
爬虫
的最佳数据库设计
许多数据库系统适合与
网络
爬虫
一起工作,但是有没有专门为
网络
爬虫
开发的数据库系统(在.net中)。1)与
网络
爬虫
一起工作的最好的数据库系统是什么? 2)是否有涵盖所有功能的数据库系统!
浏览 2
提问于2011-07-05
得票数 1
3
回答
如何在ABOT C#
网络
爬虫
中获取html输出页面?
我正在尝试用ABOT在c#.i中制作
网络
爬虫
,我搜索了很多例子,并添加了ABOT
网络
爬虫
。从那我只能得到日志输出而不是超文本标记语言页面输出。帮助我从ABOT
网络
爬虫
在C#中获得超文本标记语言输出。谢谢。
浏览 4
提问于2013-09-12
得票数 5
1
回答
如何阻止Web
爬虫
下载文件
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止
网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupa
浏览 0
提问于2013-07-27
得票数 1
2
回答
如何使用asp.net mvc3和c#构建
网络
爬虫
?
对于这一个,我还需要建立
网络
爬虫
,其中填充搜索引擎的数据。总而言之,我需要以下内容:请任何人有任何想法或资源或书籍。请与我们分享。
浏览 8
修改于2016-06-24
得票数 2
2
回答
Lucene
爬虫
(它需要建立lucene索引)
我正在寻找Apache Lucene
网络
爬虫
写在java,如果可能的话,或在任何其他语言。
爬虫
必须使用lucene并创建有效的lucene索引和文档文件,因此这就是nutch被排除的原因。有没有人知道这样的
网络
爬虫
是否存在,如果答案是肯定的,我可以找到它。Tnx..。
浏览 0
提问于2009-10-16
得票数 1
回答已采纳
1
回答
简易
网络
爬虫
我在python中为非常简单的
网络
爬虫
编写了下面的程序,但是当我运行它时,它会返回'NoneType‘对象是不可调用的,您能帮我吗?
浏览 2
修改于2012-12-01
得票数 1
4
回答
自动
网络
爬虫
我正在编写一个
爬虫
,需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的
爬虫
?如果网站的结构发生变化,我是否需要重写
爬虫
,或者是否有其他方法?谢谢!
浏览 0
提问于2012-07-20
得票数 1
1
回答
识别
网络
爬虫
以下属性是否足够可靠以识别搜索引擎web
爬虫
? 也许我可以使用HttpRequest UserAgent属性来识别它们。如果是这样的话,请有人建议一个当前的
爬虫
名称列表,我相信必应机器人,例如,是所谓的bingbot,如提到的。
浏览 0
修改于2012-08-03
得票数 2
回答已采纳
9
回答
在创建
网络
爬虫
时,需要考虑哪些关键问题?
我今天刚开始考虑创建/定制一个
网络
爬虫
,对
网络
爬虫
/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙,所以我想从web开发人员社区获得一些最新的(和实用的)见解。我想使用
爬虫
通过“
网络
”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?”
爬虫
应该采取什么具体的考虑来不让人心烦?
浏览 17
修改于2014-04-24
得票数 11
回答已采纳
1
回答
PHP
网络
爬虫
我正在寻找一个PHP的
网络
爬虫
收集一个大型网站的所有链接,并告诉我,如果链接被打破。问题不是抓取链接,而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL,因为我尝试将搜索链接的深度设置为4,但
爬虫
在浏览器中超时。
浏览 0
修改于2017-05-23
得票数 0
5
回答
快速
网络
爬虫
为此,我需要一个快速
爬虫
。所有我需要的是下载一个网页,提取链接和递归跟随他们,但不访问相同的网址两次。基本上,我想避免循环。编辑:解决方案是组合multiprocessing和threading模块。
浏览 4
修改于2012-10-14
得票数 8
回答已采纳
3
回答
网络
爬虫
反馈?
无论如何,作为对我上一个问题的跟进,我写了一个小的
网络
爬虫
,可以访问网站。 - Main.java - HTMLUtils.java
浏览 12
修改于2010-05-29
得票数 2
回答已采纳
6
回答
Tor
网络
爬虫
我有一个基于PHP的
网络
爬虫
。它可以在这里访问:现在,我的问题是我的
爬虫
需要在SOCKS端口9050上抓取页面。问题是,我必须通过Tor隧道它的连接,这样它才能解析.onion域,这就是我要索引的。这是
爬虫
源代码,如果你有兴趣看看:也许有好心的人可以修改它,以使用127.0.0.1:9050对所有的
爬虫
请求?
浏览 7
修改于2012-02-11
得票数 10
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券