首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Heritrix爬虫工具中如何从爬行urls中提取内容

在Heritrix爬虫工具中如何从爬行urls中提取内容
EN

Stack Overflow用户
提问于 2013-08-28 11:04:01
回答 1查看 960关注 0票数 2

我对heritrix工具很陌生,现在我可以从www抓取网页,现在我想要提取爬行urls的内容。

请提前帮助我任何one.please.Thanks。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-09-23 07:13:11

代码语言:javascript
复制
 1.first download the file  wget http://python.org/ftp/python/3.3.0/Python-3.3.0.tgz or higher version as root user.
 2. change the directory to installed python
 3. example /opt/python3.3/;
 4. configure the files ./configure --prefix=/opt/python3.3
 5.make
 6. sudo make install
 7. /opt/python3.3/bin/python3
 8.opt/python3.3/bin/pyvenv ~/py33
 9.source ~/py33/bin/activate
 10. wget http://python-distribute.org/distribute_setup.py
 11.python distribute_setup.py  
 12. easy_install pip
 13. pip install bottle
 14. pip install warcat 
 15. if successfully installed warcat then check whether your warcat is installed or not.
 16. python3 -m warcat --help after enter then we can see some help commands like, list,concat,extract etc..
 17.python3 -m warcat list example/at.warc.gz
 this is worked for me ..enjoy
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18486121

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档