腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
网络
爬虫
数据
存储在哪里?
我有一个简单的web
爬虫
,从根开始(给定url),下载根页面的html,然后扫描超链接并抓取它们。我目前将html页面存储在SQL
数据
库中。第二个问题是,我需要一个高效的
数据
结构来存储html页面,并能够在它们上运行
数据
挖掘操作(目前使用的是SQL
数据
库,希望听到其他建议)。 我使用的是.Net框架、C#和MS。
浏览 3
修改于2015-12-20
得票数 14
回答已采纳
1
回答
网站
数据
爬虫
,发布
数据
和遍历
我需要分析几个网站,一旦完成,我需要发送一些
数据
给它。例如,假设网站A为我提供了一个搜索选项卡,我需要以编程方式向其提供
数据
。根据目标站点的更新,结果页可能会有所不同。我想编写这样一个
爬虫
。
浏览 1
提问于2013-03-27
得票数 0
1
回答
如何通过命令行将
爬虫
数据
发送到PHP?
我可以发送结果而不是存储在JSON文件中,将其发送到PHP吗?settings.json"outputFile" : "C:\\wamp\\www\\drestip\\admin\\crawls\\mimshoes.json","pause" : 1,"connections" : 3, &
浏览 2
修改于2016-03-23
得票数 1
回答已采纳
1
回答
使用php
爬虫
将
数据
索引到ElasticSearch
我想索引爬行网站到ElasticSearch,但我不知道,我可以索引爬行信息到ElasticSearch与php
爬虫
。我知道Apache可以将爬行网站索引到ElasticSearch,但是我对php
爬虫
一无所知!我可以在php web应用程序中使用Apache吗?
浏览 4
提问于2013-05-12
得票数 3
4
回答
python中的网络
爬虫
数据
库?
嗨,我用python编写了一个网络
爬虫
,从nytimes.com这样的新闻网站上提取新闻文章。我想知道什么是一个好的
数据
库作为这个项目的后端? 提前感谢!
浏览 3
提问于2010-01-27
得票数 1
回答已采纳
1
回答
如何使用aws
爬虫
在
数据
目录表中只加载元
数据
我创建了AWS
爬虫
来读取s3 (csv)中的
数据
,并将输出配置作为目录表。当我运行
爬虫
时,我可以看到从csv文件中填充到目录表中的
数据
和元
数据
。 是否有方法只将元
数据
信息填充到目录表中?
浏览 13
提问于2022-11-16
得票数 0
回答已采纳
1
回答
Java中的多
爬虫
数据
库连接
假设我为同一个URL实例化了多个
爬虫
。它们将URL写入MySQL
数据
库进行处理。在处理URL之前,它们会检查
数据
库中是否存在该页面的记录,这样就不会再次处理已经处理过的页面。因此,我只实例化了一个
数据
库连接(JDBC)供它们使用。尽管如此,我仍然不确定这是不是正确的做法。所以我的问题是:从单个
数据
库连接执行的语句是按顺序运行的(它们是排队的)还是取决于
数据
库引擎的配置。
浏览 2
修改于2015-05-04
得票数 1
1
回答
刮刮式网络
爬虫
与
数据
抽取器
我正在尝试创建一个带有刮痕的网络
爬虫
,我使用了以前使用过的模板,但我似乎无法得到它来解析urls。
浏览 2
提问于2014-11-27
得票数 0
回答已采纳
1
回答
利用kafka从
爬虫
中摄取
数据
我试着和Kafka合作来摄取
数据
,但是我对此还不熟悉,我有点困惑,我有多个
爬虫
,他们从web平台上为我提取
数据
。现在的问题是,我想摄取使用Kafka将
数据
提取到Hadoop而没有任何中间脚本/服务文件的内容。有可能吗?
浏览 0
修改于2018-08-17
得票数 1
回答已采纳
3
回答
用户代理识别和搜索引擎优化
爬虫
数据
库
特别是,我必须从收集的user agent值开始识别
爬虫
。现在问题来了。是否有公共目录或网络
爬虫
库?一个空的用户代理头是与
爬虫
有关还是与一个创作过程有关?
浏览 0
修改于2012-08-08
得票数 2
4
回答
爬虫
数据
表单网站使用Scrapy1.5.0-Python
我尝试用Scrapy (1.5.0)- Python从网站上抓取
数据
。title'] = question.xpath(我不知道为什么我不能抓取
数据
浏览 3
提问于2018-06-06
得票数 0
回答已采纳
2
回答
如何让网络
爬虫
收集
数据
?
我知道这是一个很大的问题,但我是一个完全的初学者。我在HTML,PHP等方面的经验有限,想拼凑一些东西,但甚至不知道从哪里开始。我想知道我是否可以得到一些东西,可以搜索活动和/或旅行路线的日期和价格,例如火车时间等,以便列出教育旅行和类似的东西。
浏览 0
提问于2010-08-04
得票数 2
回答已采纳
2
回答
网络
爬虫
的最佳
数据
库设计
许多
数据
库系统适合与网络
爬虫
一起工作,但是有没有专门为网络
爬虫
开发的
数据
库系统(在.net中)。1)与网络
爬虫
一起工作的最好的
数据
库系统是什么? 2)是否有涵盖所有功能的
数据
库系统!
浏览 2
提问于2011-07-05
得票数 1
2
回答
爬虫
将
数据
更新为数组,在循环中生成
我想要的是只进行一次循环,更新
数据
和生成项目。
浏览 0
修改于2019-04-19
得票数 1
回答已采纳
1
回答
向
爬虫
提供
数据
库内容的最佳方式是什么
该
数据
库预计将托管数百万个records.However,这些内容将根据访问者对不同类别和类型的选择(使用下拉选项)呈现给他们。本质上,这些内容对于搜索引擎
爬虫
是不可见的。使这些内容可供
爬虫
使用的最佳方式是什么?我是否应该定期运行批处理操作,创建静态网页,并通过站点地图将其提供给
爬虫
?请提个建议。谢谢。
浏览 1
提问于2014-11-08
得票数 0
2
回答
如何在nutch中合并两个
爬虫
数据
库
此外,假设其中一个
爬虫
数据
库是由本地托管网站的站点生成的,即维基百科爬行自身并将其存储为crawldb1 还有一些其他的网站,比如说stackoverflow也做了同样的事情。在这种情况下,我可以将这两个crawldb合并为一个,但它会以某种方式修改它们,以反映它们的实际url,而不是相对的url(我的意思是url,wrt,
数据
库的新位置)。
浏览 0
修改于2013-04-03
得票数 0
1
回答
用于
爬虫
应用的
数据
库系统
我在一个基于java的
爬虫
上工作。我想在我的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要的情况下,
爬虫
崩溃的情况下,他应该能够开始从
爬虫
停止的点上一次爬行。为此,我必须在
数据
库中存储所有outlink (在任何页面找到的链接)。我不确定哪个
数据
库是最好的这类系统,因为它需要非常快的插入和检索的链接从
数据
库和频率插入和检索将非常高。
浏览 2
修改于2012-01-06
得票数 1
回答已采纳
1
回答
如何编写
爬虫
从instagram抓取
数据
?
出于研究目的,有没有办法抓取/监控instagram
数据
? 我尝试了官方API,但它只在沙箱中工作,这是不可能抓取真正的信息,如追随者。
浏览 0
提问于2016-08-29
得票数 0
2
回答
SEO -在爬行之前,如何要求
爬虫
在加载
数据
时等待?
我正在使用mvvc框架(ar角),并且在站点
数据
索引方面遇到了一些困难。所有静态
数据
都可以很好地爬行,但是缺少来自云db的动态
数据
。 有没有办法礼貌地让
爬虫
等上几百ms才去呢?
浏览 5
提问于2014-10-16
得票数 2
回答已采纳
0
回答
PyQt5制作雪球网股票
数据
爬虫
工具,源码谁有?
qt
、
爬虫
PyQt5制作雪球网股票
数据
爬虫
工具,源码谁有
浏览 149
提问于2022-06-26
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券