我正在尝试在Windows7中配置nutch,我已经按照以下步骤操作
我已经下载并解压缩了apache nutch 1.8,我在conf/nutch-site.xml中指定了代理名称,如下所示
<configuration>
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
</configuration>在apache home命令中,我执行了->
mkdir -p urls
cd urls
触摸seed.txt -->在urls/下创建一个文本文件seed.txt,包含以下内容(每个你想让Nutch抓取的站点每行一个URL )。
nutch.apache.org/
在conf/regex-urlfilter.txt中,使用--> +^(a-z0-9*.)*nutch.apache.org/
但我在垃圾桶里做的时候
-topN /nutch爬网-depth -dir爬网urls 3-topN 5
找不到命令bash: nutch:->时出错
为什么?
发布于 2014-04-29 14:07:30
Nutch脚本是为linux环境编写的。
你可以使用这个(尽管它似乎需要更多的工作才能完成):
https://github.com/veggen/nutch-windows-script
或者按照这里的建议设置Cygwin:
http://wiki.apache.org/nutch/GettingNutchRunningWithWindows
https://stackoverflow.com/questions/23334244
复制相似问题