我需要一个库(希望是在C#中!)它作为web爬虫程序来访问HTTP文件和FTP文件。原则上,我喜欢阅读HTML,我想把它扩展到PDF,WORD等。
我对初学者的开源软件很满意,或者至少对文档的任何方向都很满意。
发布于 2010-10-19 02:43:03
检查NCrawler项目
用C#编写的简单而高效的多线程网络爬虫,具有基于管道的处理功能。包含HTML,Text,PDF,和IFilter文档处理器和语言检测(谷歌)。易于添加管道步骤来提取、使用和更改信息。
发布于 2013-12-28 16:50:04
我已经开发了Crawler-Lib框架的Crawler引擎。它是一个支持工作流的爬虫,可以很容易地扩展到做任何类型的请求,甚至是你想要的处理。
这是引擎:http://www.crawler-lib.net/crawler-lib-engine
以下是一些Youtube视频,展示了Crawler-Lib引擎是如何工作的:http://www.youtube.com/user/CrawlerLib
我知道这个项目不是开源的,但是有一个免费的版本。
https://stackoverflow.com/questions/3962250
复制相似问题