腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
文件
系统
爬虫
-迭代错误
我目前正在使用以下代码构建一个文件
系统
爬虫
:require 'spreadsheet'我收到了以下输出:0 files were found 正则表达式已经过测试,而且是正确的--我目前在另一个可以正常工作的
爬虫
中使用它
浏览 0
修改于2012-12-29
得票数 2
回答已采纳
1
回答
java中的文件
系统
爬虫
我想在java中为Linux和Windows操作
系统
设计一个文件
系统
爬虫
。我对java很陌生,我正在构建一个应用程序来搜索文件
系统
中给定文件名的匹配文件。访问整个文件
系统
后,列出结果。 如何以类似的方式在Windows文件
系统
(NTFS)中搜索文件?我怎么找到根呢?
浏览 2
修改于2016-02-22
得票数 1
2
回答
爬虫
存储
系统
所需的建议
我计划用c++编写一个网络
爬虫
,它每天爬行N个页面。主要的问题是我把存储
系统
搞糊涂了。所以我需要一个高效的分布式数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db?
浏览 0
修改于2011-03-20
得票数 1
1
回答
在对机器人进行聚类后,开发了一个网络机器人
爬虫
系统
我试图在一段时间内识别高命中率的IP。现在,我可以使用什么技术来分析集群中的数据,以便了解集群中的数据点是否在正确的集群中。我能想到的是,如果我取一个位于集群边界的数据点,如果我测量这个点到其他质心和它自己的质心的距离,那么我能知道这两个集群离我的点有多近吗,以及我的数据在集群中划分得有多好?提前感谢。!!干杯!
浏览 0
提问于2016-03-16
得票数 0
1
回答
构建文件
系统
爬虫
时的Regex问题
我正在构建一个
爬虫
来搜索我的文件
系统
中包含特定信息的特定文档。然而,regex部分让我有点困惑。) count += 1 end运行这确认
爬虫
正在工作总结一下:
爬虫
使用teststring在第一种情况下工作--验证
爬虫
是否正确地扫描了我的文件
系统
并读取了所需文件类型的内容。
爬虫
找不到测试的
浏览 5
修改于2012-12-18
得票数 1
回答已采纳
2
回答
网络
爬虫
的最佳数据库设计
许多数据库
系统
适合与网络
爬虫
一起工作,但是有没有专门为网络
爬虫
开发的数据库
系统
(在.net中)。1)与网络
爬虫
一起工作的最好的数据库
系统
是什么? 2)是否有涵盖所有功能的数据库
系统
!
浏览 2
提问于2011-07-05
得票数 1
1
回答
用于
爬虫
应用的数据库
系统
我在一个基于java的
爬虫
上工作。我想在我的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要的情况下,
爬虫
崩溃的情况下,他应该能够开始从
爬虫
停止的点上一次爬行。我不确定哪个数据库是最好的这类
系统
,因为它需要非常快的插入和检索的链接从数据库和频率插入和检索将非常高。 很少有人建议我像mongodb那样使用no-sql,但我只想确保它是这类
系统
的最佳选择。
浏览 2
修改于2012-01-06
得票数 1
回答已采纳
1
回答
爬行,爬行,获取数据
我想写一个
爬虫
来做一些基础设施(路由器,WAPS,
系统
等)的清单。所以,我在服务器上安装了一个应用程序,以及如何部署它。
爬虫
是怎么开始的?
爬虫
是如何返回数据的?
浏览 5
修改于2015-02-09
得票数 0
2
回答
使用Web Crawler爬行Web数据
我想使用一个网络
爬虫
和抓取一个特定的网站。该网站是一个学习管理
系统
,许多学生在这里上传他们的作业,项目演示文稿等。我的问题是,我可以使用网络
爬虫
下载已经上传到学习管理
系统
中的文件吗?
爬虫
能做到这点吗?我知道webeater (用Java编写的Crawler )
浏览 1
修改于2011-03-30
得票数 1
回答已采纳
1
回答
除了后端和API之外,还能用于其他进程吗?
谷歌应用引擎可以用来运行网络
爬虫
吗? 我有一个
爬虫
进程,从amazon网站产品的特定id (或ASIN编号)开始。然后,该过程使用amazon产品广告API获得类似的产品。我给了他一个关于如何使用google计算引擎制作整个
系统
的建议,但是他渴望使用google应用引擎。他认为应用引擎会自动生成
爬虫
实例。由于google应用引擎用于后端和app,我担心在应用程序引擎上部署这样的
爬虫
系统
会有其局限性。
浏览 0
修改于2018-06-05
得票数 0
回答已采纳
1
回答
商业上最好的网络
爬虫
?
我正在开发一个爬行数以千万计的网页的
系统
,它将继续运行。我宁愿不从头开始开发
爬虫
。哪些开源网络
爬虫
符合以下标准:如果我错过了任何一个,请评估其他你认为重要的标准。我有以下开源
爬虫
的列表。他们是否具备上述特征? ScrapyMechanizeNutchHeritrixflaxhttrackSpidherSearcharoo
浏览 1
修改于2012-07-11
得票数 1
2
回答
使用Java的web索引器
当用Java开发时,并行
系统
和分布式
系统
哪个更适合网站
爬虫
和web索引器?可用的框架有哪些?
浏览 3
修改于2012-03-01
得票数 2
回答已采纳
1
回答
用于非标准分页
系统
的import.io
爬虫
我正在尝试建立一个这个网站的import.io
爬虫
,但当我点击“下一步”到下一页训练,它把我带回第一页,因为正在使用的分页
系统
。非常感谢任何关于如何让import.io
爬虫
爬行通过这些页面的建议。根据import.io网站上的建议,我试图在与服务器交换的数据包中找到分页
系统
,但没有成功。如果你能帮上忙,谢谢。JRH
浏览 1
提问于2015-08-31
得票数 1
2
回答
工人和策划人
我正在研究一个
系统
,在这个
系统
中,我们有几个预定的长时间运行操作。我正在寻找方法,使这个更可伸缩,以便我们可以添加更多的
爬虫
,通过旋转新机器在高负荷等。我们仍然需要某种
浏览 0
提问于2023-05-21
得票数 0
1
回答
如何修复Adsense错误:“我们的
爬虫
无法访问这些页面”时,这些页面已经被删除,并且404没有找到?
我有一个网站,我们最近改变了内容管理
系统
。随着新
系统
的出现,出现了新的URL/层次结构。谷歌网站管理员工具与网站没有任何问题,我没有
爬虫
错误。这在
爬虫
错误页面上。上面写着“阻止URL”,然后放在它列出的URL的一侧,“页面未找到”。我只想让它忘记这些页面的存在,因为它们不再存
浏览 0
修改于2014-12-12
得票数 3
回答已采纳
2
回答
木偶人爬行器大规模爬行
我们正在使用Puppeteer编写一个网络
爬虫
。我们写的木偶
爬虫
执行和爬行网站的网址没有问题的网页,如约1,500 - 5,000,但是,当我们执行的网站超过5,000,如果它在中间由于一些错误或崩溃而中断,那么它需要重新开始。如果出现任何错误,如何使基于Puppeteer的网络
爬虫
从爬行的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web爬行通过一个队列
系统
?
浏览 14
提问于2020-12-05
得票数 2
2
回答
客户端模板和搜索引擎引用
它们看起来都很酷,但我想知道使用这样的
系统
是否会阻碍网页的良好索引。 搜索引擎的
爬虫
能够解析javascript数据吗?我认为将页面内容放在javascript中是一种糟糕的做法,因为有些
爬虫
无法解析这些内容。
浏览 0
提问于2012-02-29
得票数 2
回答已采纳
1
回答
在spring boot中通过REST api处理提交的耗时任务的最佳方法
我有一个春天启动网络项目,需要与网络
爬虫
系统
的工作。我的
爬虫
服务在没有任何停机时间的情况下工作,每个
爬虫
请求可能有很长的处理时间。我想通过一个REST接口获取抓取的URL。
浏览 32
提问于2020-10-22
得票数 1
4
回答
Java -销毁正在执行某些操作的对象
我的应用程序允许用户创建一系列的网络
爬虫
,这些
爬虫
保存在一个数组列表中。每个crawler都有一个进度面板gui,显示已爬行的页面等,并允许用户暂停该
爬虫
。但是,用户可能还想“终止”该
爬虫
程序。我需要做什么才能让用户按下"Terminate“,对于那个爬行器,它的抓取器,以及抓取器的DatabaseConnection,都被”关闭“并从
系统
中删除。 任何建议都将不胜感激。
浏览 4
修改于2011-08-26
得票数 0
回答已采纳
3
回答
聚合器是如何构建的?
有一个
爬虫
/
爬虫
,它会爬网寻找我需要的信息(我如何告诉
爬虫
要爬行什么,因为我不想获取整个网络?)?然后有一个索引
系统
来索引和组织我抓取的信息,也是一个搜索引擎?像Nutch lucene.apache.org/nutch这样的
系统
可以用于我想要的吗?你有推荐的其他东西吗?例如,Techmeme.com是如何构建的?
浏览 2
修改于2010-08-23
得票数 14
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券