首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >C# web和ftp爬网程序库

C# web和ftp爬网程序库
EN

Stack Overflow用户
提问于 2010-10-19 02:38:34
回答 2查看 4.1K关注 0票数 3

我需要一个库(希望是在C#中!)它作为web爬虫程序来访问HTTP文件和FTP文件。原则上,我喜欢阅读HTML,我想把它扩展到PDF,WORD等。

我对初学者的开源软件很满意,或者至少对文档的任何方向都很满意。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-10-19 02:43:03

检查NCrawler项目

用C#编写的简单而高效的多线程网络爬虫,具有基于管道的处理功能。包含HTML,Text,PDF,和IFilter文档处理器和语言检测(谷歌)。易于添加管道步骤来提取、使用和更改信息。

票数 4
EN

Stack Overflow用户

发布于 2013-12-28 16:50:04

我已经开发了Crawler-Lib框架的Crawler引擎。它是一个支持工作流的爬虫,可以很容易地扩展到做任何类型的请求,甚至是你想要的处理。

这是引擎:http://www.crawler-lib.net/crawler-lib-engine

以下是一些Youtube视频,展示了Crawler-Lib引擎是如何工作的:http://www.youtube.com/user/CrawlerLib

我知道这个项目不是开源的,但是有一个免费的版本。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3962250

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档