腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
将Snort IDS与Webcrawler结合使用
我完全是Snort IDS
软件
和IDS概念的新手,我需要知道是否可以使用Snort来检测隐形-恶意-网络
爬虫
!换句话说,我可以定义snort规则来检测恶意网络
爬虫
吗?!!
浏览 4
修改于2014-09-21
得票数 0
1
回答
软件
/ API跟踪网络搜索中的新概念或想法
是否有谷歌、Twitter或其他搜索引擎或社交网络的
软件
或API来跟踪网络搜索中出现的或新的概念/想法(单词)或新组合,但不一定是“时髦的主题”?接受任何特定的网页
爬虫
,机器人,人工智能,新浏览器,API,
软件
,查询语言,图形
软件
等的建议。
浏览 0
提问于2019-03-06
得票数 1
1
回答
如何从Nutch爬行网页数据库中获取XML格式的信息
Nutch为我提供了优秀的网络
爬虫
,但我想要非常具体的信息,如书名,书价,ISBN,作者等。如何从
爬虫
页面提取这些信息?如果可能的话,我想以XML格式获取这些信息。用其他开源
软件
能更好地做到这一点吗?
浏览 0
修改于2013-04-10
得票数 1
回答已采纳
2
回答
从搜索查询中排除导航菜单
我已经安装了所有的
软件
,但当我搜索时,我会得到每一页的结果,因为导航菜单在每一页上都有索引。当我使用导航菜单上的class="noindex“选项时,菜单中使用的链接后面没有
爬虫
。谁能告诉我如何才能排除内容,但确保
爬虫
仍然遵循内容中使用的链接?
浏览 10
修改于2011-11-29
得票数 1
回答已采纳
3
回答
如何与所有
软件
保持同步(本地和基于web的)
当涉及到新的
软件
版本时,您如何保持最新?最重要的是,我指的是较小的更新(Joomla安装的新版本,论坛
软件
,FTP客户端,...)。有人为新版本或类似的东西写了一个
爬虫
网站的脚本吗?
浏览 1
提问于2008-10-17
得票数 1
回答已采纳
3
回答
使Java中的现有代码并行/多线程
我有一个非常简单的
爬虫
。我想让我当前的代码在几个线程中运行。你能为我提供一个小教程或文章来帮助我完成这项测试吗?我的
爬虫
是一个命令行
软件
,所以不用担心GUI。 提前谢谢你。
浏览 3
提问于2011-05-15
得票数 8
回答已采纳
1
回答
使用让WinInet共享会话/cookie
我想要的是:2)让我的
软件
使用WinInet API爬行站点,重用相同的cookie/会话(也就是说,
爬虫
是“登录”的) 我尝试使用INDY构建自己的登录我相信,例如,WordPress、ASP.Net等使用客户端/AJAX的东西,以及哈希/时间/用户代理代码/检查等,是因为30秒后,我可以从自己的
爬虫
程序发送完全相同的headers,就像登录时使用的FireFox(将其与基于会话cookie的普通登录进行比较,我自己的
爬虫</e
浏览 4
修改于2013-02-20
得票数 5
1
回答
执行HttpWebRequests时检测到防病毒威胁
我创建
爬虫
只是为了实践,我每隔几千个网站就会得到这样的东西:什么样的恶意
软件
/脚本可以以这种方式在我的PC上执行,有什么方法可以直接保护我自己不受代码的影响?
浏览 0
提问于2012-08-14
得票数 1
回答已采纳
3
回答
网络
爬虫
反馈?
有时我需要一个目录中的一堆URL,有时我需要一个XML站点地图(是的,我知道有很多
软件
用于这个和在线服务)。 可以建立JDBC连接,以将链接存储在数据库中,而不是跟踪对象中已处理的链接和排队链接。如果存在上述限制,这是编写
爬虫
浏览 12
修改于2010-05-29
得票数 2
回答已采纳
2
回答
抓取爬行器,从字符串中移除逗号
jobtitle"] = jobs.xpath('*[@class="jobtitle"]/a//text()').extract()项保存到CSV文件中,高级嵌入式
软件
工程师嗨, 上面是我抓取的
爬虫
代码的一个片段。即从“高级嵌入式
软件
工程师”到“高级嵌入式
软件
工程师”。我尝试使用..extract().replace(“、”、"")之类的替换(),但是它没有起作用。有什么帮助
浏览 2
提问于2015-09-14
得票数 4
回答已采纳
1
回答
生成站点上使用的所有锚的列表的Web
爬虫
工具
我正在寻找一个网络
爬虫
工具,将通过所有锚文本在整个网站上,并生成一个列表供我检查。我想确保所有的锚在上下文之外都是描述性的。我不在乎它是基于网络的还是基于桌面的
软件
。
浏览 0
提问于2011-12-13
得票数 1
2
回答
C# web和ftp爬网程序库
它作为web
爬虫
程序来访问HTTP文件和FTP文件。原则上,我喜欢阅读HTML,我想把它扩展到PDF,WORD等。 我对初学者的开源
软件
很满意,或者至少对文档的任何方向都很满意。
浏览 0
修改于2016-10-04
得票数 3
回答已采纳
2
回答
抓取网站并检测第三方cookies
我正在编写一个
爬虫
,以记录所有的cookie是由设置数量的网站部署。我可以使用selenium在页面访问时获取设置的第一方cookie,但
软件
中的限制意味着它不会获取第三方cookie。
浏览 1
修改于2012-03-09
得票数 1
回答已采纳
2
回答
如何检测正在使用哪个电子商务
软件
我正在C#中制作一个网络
爬虫
,它需要找到网站商店。我的问题是,我需要检测网页是否是一个网络商店。如果是的话,我需要知道它使用的是哪种类型的电子商务
软件
。但问题是,我不知道如何在源代码中检测到它。我也只有一个Chrome插件,名为builtwith,可以检测各种
软件
。但我还没有弄清楚他们是如何做到的。 如果有人能帮我解决这个问题,那就太好了
浏览 4
提问于2016-08-31
得票数 1
回答已采纳
3
回答
如何使用Java创建PostgreSQL连接池?
是
软件
、驱动程序还是数据库?我需要一个代码示例。我正在做一个网络
爬虫
,它有很多到数据库的连接。
浏览 0
修改于2011-06-23
得票数 16
回答已采纳
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取网络上的图像。然后,我们将根据Hadoop中的Map/Reduce工具,在HDFS中存储的图像上运行我们自己的索引
软件
。除了我们自己的索引之外,我们不会使用其他索引。哪种
爬虫
最适合抓取图像?哪种
爬虫
最适合分布式爬行系统,在这种系统中我们使用多台服务器一起进行爬行?Nutch:众所周知的规模。我想使用它,因为它是一个python框架(我更喜欢
浏览 5
修改于2009-07-28
得票数 3
1
回答
将httpd从2.4.37升级到2.4.46的问题
modular filtering for argument: httpd但是,如果我试图在一台新鲜的机器上安装来自乌鸦临时
爬虫
的因此,如果我删除旧的
软件
包并尝试安装更新的
软件
包从乌鸦-附加回购。如果启用了AppStream repo,则httpd 2.4.37显示。
浏览 0
提问于2020-09-22
得票数 0
回答已采纳
2
回答
需要从网站提取数据并推送到程序
因此,如果您以homedepot.com为例,并且希望从"2x4木头“下面列出的每个项目中提取数据,那么您需要获取名称、描述和规范,并将这些数据导入到包含这些数据的
软件
中。根据我的研究,我需要编写一个
爬虫
程序,它被设计为搜索特定的术语,然后爬行结果返回的每一个页面,并获取我需要的数据。我的下一个问题是,我不知道如何将收集的数据导入到
软件
中?关于我应该在哪里找到这个答案,有什么建议吗? 我想使用这个想
浏览 0
修改于2013-08-08
得票数 0
回答已采纳
2
回答
Nginx可以代理特定的URL来隐藏脚本文件的目录吗?
我想使用Matomo (自托管跟踪
软件
,类似于谷歌分析)。JS代码片段公开了一个调用来进行跟踪的PHP文件(例如,请参见here )。此PHP文件与用于登录的文件和其他文件位于同一文件夹中,即这会向恶意
爬虫
程序暴露太多信息。因此,我想通过一个不存在的或误导性的路径代理PHP文件的URL。例如。_paq.push(['setTrackerUrl', u+'https://www.mytracker.com/non-existing-path/matomo.php']); 因此,通过
浏览 48
提问于2019-09-22
得票数 0
1
回答
我可以使用PowerDNS作为HTTP负载均衡器吗?
web应用程序将由一小群
爬虫
来访问。 我设想在两个服务器上运行相同域名的同一个web应用程序,以实现负载平衡。PowerDNS可以指向负载较少的服务器,还是需要另一段
软件
来实现这一点?我需要找什么?这样的
软件
如何与DNS一起工作呢?
浏览 0
提问于2016-02-23
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券