搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

网络爬虫数据存储在哪里？

我有一个简单的web爬虫，从根开始(给定url)，下载根页面的html，然后扫描超链接并抓取它们。我目前将html页面存储在SQL数据库中。第二个问题是，我需要一个高效的数据结构来存储html页面，并能够在它们上运行数据挖掘操作(目前使用的是SQL数据库，希望听到其他建议)。我使用的是.Net框架、C#和MS。

浏览 3修改于2015-12-20得票数 14

回答已采纳

1回答

网站数据爬虫，发布数据和遍历

我需要分析几个网站，一旦完成，我需要发送一些数据给它。例如，假设网站A为我提供了一个搜索选项卡，我需要以编程方式向其提供数据。根据目标站点的更新，结果页可能会有所不同。我想编写这样一个爬虫。

浏览 1提问于2013-03-27得票数 0

1回答

如何通过命令行将爬虫数据发送到PHP？

我可以发送结果而不是存储在JSON文件中，将其发送到PHP吗？settings.json"outputFile" : "C:\\wamp\\www\\drestip\\admin\\crawls\\mimshoes.json","pause" : 1,"connections" : 3, &

浏览 2修改于2016-03-23得票数 1

回答已采纳

1回答

使用php爬虫将数据索引到ElasticSearch

我想索引爬行网站到ElasticSearch，但我不知道，我可以索引爬行信息到ElasticSearch与php爬虫。我知道Apache可以将爬行网站索引到ElasticSearch，但是我对php爬虫一无所知！我可以在php web应用程序中使用Apache吗？

浏览 4提问于2013-05-12得票数 3

4回答

python中的网络爬虫数据库？

嗨，我用python编写了一个网络爬虫，从nytimes.com这样的新闻网站上提取新闻文章。我想知道什么是一个好的数据库作为这个项目的后端？提前感谢！

浏览 3提问于2010-01-27得票数 1

回答已采纳

1回答

如何使用aws爬虫在数据目录表中只加载元数据

我创建了AWS爬虫来读取s3 (csv)中的数据，并将输出配置作为目录表。当我运行爬虫时，我可以看到从csv文件中填充到目录表中的数据和元数据。是否有方法只将元数据信息填充到目录表中？

浏览 13提问于2022-11-16得票数 0

回答已采纳

1回答

Java中的多爬虫数据库连接

假设我为同一个URL实例化了多个爬虫。它们将URL写入MySQL数据库进行处理。在处理URL之前，它们会检查数据库中是否存在该页面的记录，这样就不会再次处理已经处理过的页面。因此，我只实例化了一个数据库连接(JDBC)供它们使用。尽管如此，我仍然不确定这是不是正确的做法。所以我的问题是:从单个数据库连接执行的语句是按顺序运行的(它们是排队的)还是取决于数据库引擎的配置。

浏览 2修改于2015-05-04得票数 1

1回答

刮刮式网络爬虫与数据抽取器

我正在尝试创建一个带有刮痕的网络爬虫，我使用了以前使用过的模板，但我似乎无法得到它来解析urls。

浏览 2提问于2014-11-27得票数 0

回答已采纳

1回答

利用kafka从爬虫中摄取数据

我试着和Kafka合作来摄取数据，但是我对此还不熟悉，我有点困惑，我有多个爬虫，他们从web平台上为我提取数据。现在的问题是，我想摄取使用Kafka将数据提取到Hadoop而没有任何中间脚本/服务文件的内容。有可能吗？

浏览 0修改于2018-08-17得票数 1

回答已采纳

3回答

用户代理识别和搜索引擎优化爬虫数据库

特别是，我必须从收集的user agent值开始识别爬虫。现在问题来了。是否有公共目录或网络爬虫库？一个空的用户代理头是与爬虫有关还是与一个创作过程有关？

浏览 0修改于2012-08-08得票数 2

4回答

爬虫数据表单网站使用Scrapy1.5.0-Python

我尝试用Scrapy (1.5.0)- Python从网站上抓取数据。title'] = question.xpath(我不知道为什么我不能抓取数据

浏览 3提问于2018-06-06得票数 0

回答已采纳

2回答

如何让网络爬虫收集数据？

我知道这是一个很大的问题，但我是一个完全的初学者。我在HTML，PHP等方面的经验有限，想拼凑一些东西，但甚至不知道从哪里开始。我想知道我是否可以得到一些东西，可以搜索活动和/或旅行路线的日期和价格，例如火车时间等，以便列出教育旅行和类似的东西。

浏览 0提问于2010-08-04得票数 2

回答已采纳

2回答

网络爬虫的最佳数据库设计

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。1)与网络爬虫一起工作的最好的数据库系统是什么？ 2)是否有涵盖所有功能的数据库系统！

浏览 2提问于2011-07-05得票数 1

2回答

爬虫将数据更新为数组，在循环中生成

我想要的是只进行一次循环，更新数据和生成项目。

浏览 0修改于2019-04-19得票数 1

回答已采纳

1回答

向爬虫提供数据库内容的最佳方式是什么

该数据库预计将托管数百万个records.However，这些内容将根据访问者对不同类别和类型的选择(使用下拉选项)呈现给他们。本质上，这些内容对于搜索引擎爬虫是不可见的。使这些内容可供爬虫使用的最佳方式是什么？我是否应该定期运行批处理操作，创建静态网页，并通过站点地图将其提供给爬虫？请提个建议。谢谢。

浏览 1提问于2014-11-08得票数 0

2回答

如何在nutch中合并两个爬虫数据库

此外，假设其中一个爬虫数据库是由本地托管网站的站点生成的，即维基百科爬行自身并将其存储为crawldb1 还有一些其他的网站，比如说stackoverflow也做了同样的事情。在这种情况下，我可以将这两个crawldb合并为一个，但它会以某种方式修改它们，以反映它们的实际url，而不是相对的url(我的意思是url，wrt，数据库的新位置)。

浏览 0修改于2013-04-03得票数 0

1回答

用于爬虫应用的数据库系统

我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能，用户可以在任何时候暂停爬虫，在他想要的情况下，爬虫崩溃的情况下，他应该能够开始从爬虫停止的点上一次爬行。为此，我必须在数据库中存储所有outlink (在任何页面找到的链接)。我不确定哪个数据库是最好的这类系统，因为它需要非常快的插入和检索的链接从数据库和频率插入和检索将非常高。

浏览 2修改于2012-01-06得票数 1

回答已采纳

1回答

如何编写爬虫从instagram抓取数据？

出于研究目的，有没有办法抓取/监控instagram数据？我尝试了官方API，但它只在沙箱中工作，这是不可能抓取真正的信息，如追随者。

浏览 0提问于2016-08-29得票数 0

2回答

SEO -在爬行之前，如何要求爬虫在加载数据时等待？

我正在使用mvvc框架(ar角)，并且在站点数据索引方面遇到了一些困难。所有静态数据都可以很好地爬行，但是缺少来自云db的动态数据。有没有办法礼貌地让爬虫等上几百ms才去呢？

浏览 5提问于2014-10-16得票数 2

回答已采纳

0回答

PyQt5制作雪球网股票数据爬虫工具，源码谁有？

qt、爬虫

PyQt5制作雪球网股票数据爬虫工具，源码谁有

浏览 149提问于2022-06-26

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

网络爬虫数据存储在哪里？

网站数据爬虫，发布数据和遍历

如何通过命令行将爬虫数据发送到PHP？

使用php爬虫将数据索引到ElasticSearch

python中的网络爬虫数据库？

如何使用aws爬虫在数据目录表中只加载元数据

Java中的多爬虫数据库连接

刮刮式网络爬虫与数据抽取器

利用kafka从爬虫中摄取数据

用户代理识别和搜索引擎优化爬虫数据库

爬虫数据表单网站使用Scrapy1.5.0-Python

如何让网络爬虫收集数据？

网络爬虫的最佳数据库设计

爬虫将数据更新为数组，在循环中生成

向爬虫提供数据库内容的最佳方式是什么

如何在nutch中合并两个爬虫数据库

用于爬虫应用的数据库系统

如何编写爬虫从instagram抓取数据？

SEO -在爬行之前，如何要求爬虫在加载数据时等待？

PyQt5制作雪球网股票数据爬虫工具，源码谁有？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐