腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(1392)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
Nutch
路径错误
LinkDb: adding segment: file:/home/
nutch
/
nutch
/runtime/local/crawl/segments/20111027231916Lin
浏览 0
提问于2011-10-28
得票数 2
1
回答
Apache
Nutch
-路径问题
我正在尝试设置Apache
Nutch
抓取URL,遵循指南。作为一个较老的指南(该指南适用于1.x版,我使用的是2.3版),我对结构进行了必要的更改。但是,当我尝试运行爬网时,我得到以下错误:/usr/local/
nutch<
浏览 0
修改于2020-06-20
得票数 9
2
回答
Nutch
路径错误
按照本教程的要求,使用和bin/
nutch
crawl urls -dir crawl -depth 3 -topN 5LinkDb: adding segment: file:/C:/cygwin/home/LeHung/apache-
nutch
-1.4-bin/runtime/local/crawl/segments/20120301233259 LinkDb: adding segment: file:
浏览 0
提问于2012-03-02
得票数 1
1
回答
Nutch
crawl命令
对于
Nutch
2.2.1,我知道有两个爬行命令- bin/
nutch
(step by step),bin/crawl (全部在一起) 我知道如何为bin/crawl命令指定爬网ID。同样,如何为bin/
nutch
命令指定爬网ID?现在,我只想对中断的第9次迭代运行一步"bin/
nutch
solrindex"命令,以完成solr索引。如何在"bin/
nutch
solrindex“命令中指定crawlID?语法是
浏览 1
修改于2013-10-28
得票数 1
1
回答
Nutch
插件开发
nutch
wiki上有关于的说明,但前提是您需要下载整个
nutch
源代码树,并将其放在$
NUTCH
_HOME/src/plugin下面。我不应该仅仅为了构建一个插件而下载
nutch
的源代码,我应该只需要在我的Eclipse构建路径中放置一个jar就可以了。
浏览 1
提问于2009-07-31
得票数 2
回答已采纳
1
回答
如何在windows中配置
nutch
1.8错误:
nutch
: command not found
我正在尝试在Windows7中配置
nutch
,我已经按照以下步骤操作<configuration> <name>http.agent.name</name></property> <
浏览 0
提问于2014-04-28
得票数 1
1
回答
Nutch
1.7中的org.apache.
nutch
.searcher
我是
nutch
新手。我正在使用
nutch
1.7,抓取已经完成。我的问题是如何检索抓取数据?在
Nutch
1.1中,有一个名为org.apache.
nutch
.searcher的包提供了这一功能。但是如果我在Java应用程序中导入
nutch
1.1.jar并尝试运行旧代码它给出了这个错误: java.lang.VerifyError: class org.apache.
nutch
.indexer.NutchSimilarity(LuceneSearchBean.jav
浏览 3
修改于2013-10-02
得票数 1
1
回答
Nutch
- clone网站
我正在玩Apache
Nutch
,我成功地抓取了一个网站。我想用
Nutch
制作一个网站的克隆,这样我就可以离线访问抓取的网页。有没有办法做到这一点?我知道有更多像这样的专业解决方案,但我想知道是否可以使用
Nutch
来做到这一点。
浏览 2
提问于2015-10-27
得票数 3
1
回答
Apache
Nutch
- NoSuchMethodError
我试图让它运行一个简单的爬行,但是我有以下错误:Injecting seed URLsException in thread "main"
浏览 3
修改于2016-06-14
得票数 1
回答已采纳
2
回答
定制
nutch
我用cygwin命令运行
nutch
现在,我试图对crawl.java进行更改,但是当我再次运行时,这些更改并没有反映在输出中
浏览 3
提问于2013-10-19
得票数 0
回答已采纳
1
回答
nutch
使用的协议
有人能告诉我
nutch
使用哪种协议来获取页面吗?我想看看
nutch
提出了什么样的请求?我也尝试过wireshark,但有太多的数据包,我不能识别哪个是
nutch
? 请帮帮我..
浏览 1
提问于2012-06-05
得票数 0
1
回答
使用apache
nutch
2.2.1
我正在尝试开始我的第一次爬网,我已经配置了数据库设置,并执行了以下命令:bin/
nutch
inject urlsInjectorJob: starting at 2014-07-18java.lang.RuntimeException: job failed: name=inject urls, jobid=job_local1172062909_0001 a
浏览 5
修改于2014-07-18
得票数 1
1
回答
Nutch
API建议
我正在做一个项目,我需要一个成熟的爬虫来做一些工作,我正在为这个目的评估
Nutch
。有没有人有在Java中直接使用
Nutch
代码的经验,而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?我正在浏览
Nutch
文档,但其中大部分都是关于命令行、搜索和其他东西的。在不需要索引和搜索的情况下,
Nutch
爬行模块的可用性如何?任何帮助都是非常感谢的。谢谢。
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
Apache
Nutch
Hadoop集成
我将apache-
nutch
-1.15和hadoop配置为按照https://wiki.apache.org/
nutch
/NutchHadoopTutorial提供的链接在部署模式下运行 但是当我尝试运行下面的命令时hadoop jar apache-
nutch
-${version}.job org.apache.
nutch
.crawl.Crawl urls -dir crawl -depth 3 -topN 5我得到了以下异常 Exception in thread "m
浏览 28
提问于2019-03-13
得票数 2
2
回答
在hadoop上运行
nutch
,
nutch
日志在哪里?
我的
nutch
在hadoop上运行,我想检查
nutch
运行日志,但找不到像独立
nutch
日志一样的输出日志。
浏览 1
提问于2012-10-16
得票数 3
回答已采纳
2
回答
ElasticSearch与
Nutch
集成
我试着遵循这里列出的
Nutch
+ES指南
nutch
inject <file_containing_url>
nutch
fetch -all
nutch
updatedb -all
浏览 6
修改于2017-09-22
得票数 1
1
回答
Nutch
Crawler读取分段结果
我使用apache-
nutch
-crawler1.6进行爬行。:/home/ubuntu/
nutch
/framework/apache-
nutch
-1.6/blogs/segments/2013062110/crawl_fetch Input path doesnot exist: file:/home/ubuntu/
nutch
/framework/apache-
nut
浏览 0
提问于2013-06-21
得票数 1
2
回答
nutch
vs solr索引
我最近开始了
nutch
的工作,我正在尝试了解它是如何工作的。据我所知,
Nutch
基本上是用来抓取网页的,而solr/Lucene是用来索引和搜索的。但当我阅读有关
nutch
的文档时,它说
nutch
也做倒排索引。它是否在内部使用Lucene进行索引,或者它是否有其他库用于索引?如果它使用solr/lucene进行索引,那么为什么有必要像
nutch
教程所说的那样使用
nutch
配置solr? 是默认情况下的索引。我的意思是我运行这个命令来开始爬行。索引在这里发生了吗?bin
浏览 0
提问于2012-06-01
得票数 10
回答已采纳
1
回答
nutch
+ mysql集成
当
nutch
在索引阶段完成它的循环(即爬取-解析-索引)时,我不希望
nutch
索引(lucene索引),但我希望
nutch
使用我的代码将所有抓取的数据(我相信他将它们作为NutchDocument对象)
浏览 2
提问于2010-07-12
得票数 1
回答已采纳
2
回答
Nutch
诉Solr诉
Nutch
+Solr
我们怎么把
Nutch
和Solr比较? 在什么情况下,我们需要和为什么更好地集成这两者并用于爬行?这与在独立模式(或与hadoop)中使用它们有何不同?
浏览 2
修改于2017-05-23
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券